1. 程式人生 > >將java開發的wordcount程序提交到spark集群上運行

將java開發的wordcount程序提交到spark集群上運行

復制 工程 目錄下的文件 依賴 clip 拖拽 ons 啟動方式 mage

今天來分享下將java開發的wordcount程序提交到spark集群上運行的步驟。

第一個步驟之前,先上傳文本文件,spark.txt,然用命令hadoop fs -put spark.txt /spark.txt,即可。

第一:看整個代碼視圖

技術分享

打開WordCountCluster.java源文件,修改此處代碼:

技術分享

第二步:

打好jar包,步驟是右擊項目文件----RunAs--Run Configurations

技術分享

照圖填寫,然後開始拷貝工程下的jar包,如圖,註意是拷貝那個依賴jar包,不是第二個

技術分享

然後將復制到桌面的這個jar包和另外一個文件WordCount.sh上傳到平臺上,即拖拽到平臺上

技術分享

開始使用上傳命令hadoop fs -put spark.txt /spark.txt。

第三步:要啟動hadoop集群,啟動方式見hadoop配置博文,註意,如果集群裏面的datanode或者是namenode之一沒有啟動,則找到這樣一個目錄,並刪除裏面的文件,重新啟動即可,如圖:即home目錄下的文件

技術分享

打開home目錄下的hadoop----dfs-----把裏面的兩個目錄都刪除掉,即可

技術分享

第四步:此時hadoop集群已經啟動,然後我們開始修改WordCount.sh配置文件

技術分享

幾點註意:

1,class目錄必須對應你的eclipse工程下的項目目錄

2,關於spark-submit提交工具,路徑要和你的spark集群上面的路徑一致 ,這裏找的是spark集群下的bin目錄裏面的文件,不是spark-study下的文件,切記

3,最後一行路徑就是你的上傳程序jar包到平臺上後的路徑,註意一定是後綴為jar的文件包,不能上傳其它的後綴名,一律無效。

4,註意:修改過本地eclipse的程序文件,一定要生效的話,就要重新上傳打包,然後部署。

第五步,啟動程序文件,即如下圖,在wordcount.sh配置文件的目錄下,執行以下命令即可

技術分享

將java開發的wordcount程序提交到spark集群上運行