1. 程式人生 > >05、Spark

05、Spark

count -c atm 模式 一個 技術 src www 作業

05、Spark shell連接到Spark集群執行作業

5.1 Spark shell連接到Spark集群介紹

Spark shell可以連接到Spark集群,spark shell本身也是spark的一個應用,是和Spark集群的一種交互方式。每次action動作的執行,都會對應一個job。

5.2 連接方式指定

#進入Spark bin目錄
$>cd /soft/spark/bin

#連接到Spark master的RPC端口
$>spark-shell --master spark://s101:7077

註意:spark://s101:7077地址是在spark webui中顯式的Spark master RPC端口,如下圖所示:

技術分享圖片

連接成功,進入如下畫面:

技術分享圖片

5.3 在集群上實現word count

啟動spark-shell後,讀取hdfs上的文件,實現word count。操作步驟和在local模式下沒有本質的不同,除了文件路徑指定的是hdfs路徑之外,其他部分均是相同的。shell操作如下:

$scala>sc.textFile("hdfs://mycluster/user/centos/1.txt")
    .flatMap(_.split(" "))
    .map((_,1))
    .reduceByKey(_+_)
    .collect

執行之後,運算結果如下圖所示:

技術分享圖片

查看spark webui界面顯示結果如下圖所示:

技術分享圖片

技術分享圖片

技術分享圖片

05、Spark