1. 程式人生 > >如何在64位的win7個人電腦上部署spark開發環境

如何在64位的win7個人電腦上部署spark開發環境

安裝前注意事項
1.保證為64位windows系統,32位會遇到很多問題,而不能專心地集中於演算法上,建議安裝64位作業系統。
2.保證jdk為64位的安裝包,如系統中已經裝了32位,請刪了重新裝64位的。jdk最好是1.8.0的版本。
3. hadoop和spark的版本要對應。
版本說明
jdk 1.8.0_91
scala 2.10.3
ideaIC 15.0.4
hadoop 2.6.0
spark 1.5.2

使用的安裝包 外掛 依賴的jar包及hadoop包
使用的安裝包外掛
這裡寫圖片描述
這裡寫圖片描述
安裝步驟
1. 安裝jdk,並配置JAVA的環境變數
2. 安裝Intellij IDEA,過程中需要選擇jdk的安裝位置
3.安裝scala
ps. 1-3步即windows安裝軟體的過程,比較簡單,有任何疑問,請自行百度。
4.配置hadoop環境變數
在系統的環境變數中新增HADOOP_HOME ,值為hadoop2.6.0的路徑
這裡寫圖片描述


5. 開啟IntelliJ IDEA,新增scala-IntelliJ 的外掛
這裡寫圖片描述
上圖configure處,選擇plugins
這裡寫圖片描述
選擇install plugins from disk,再選擇外掛 即可。

  1. 建立scala 工程
    這裡寫圖片描述
    輸入工程名稱,選擇project sdk,選擇scala sdk,最後finish
    這裡寫圖片描述
    7.新增依賴包
    進入工程後,FileProject SructureModule,
    選擇Dependencies
    這裡寫圖片描述

最右側的綠色+號,選擇JARs or directories
選擇這裡寫圖片描述 中的lib/spark-assembly-1.5.2-hadoop2.6.0.jar.
點選OK,退出剛才開啟的FileProject SructureModule視窗
在src資料夾中新建一個scala script.
這裡寫圖片描述

即可開始spark開發,在本地(自己的電腦)開發程式後,進行一些小資料的功能性除錯。完成後,進行下一步。
注意:打包前要將程式碼中的本地路徑,改為hdfs路徑(格式為hdfs://hostname:9000/X/X)
8. 建立jar包
把開發好的工程新增到jar包,File-Project Structure-Artifacts-綠色+號-JAR-Empty
如下圖
這裡寫圖片描述
輸入JAR的name,點選Output Layout下面的綠色+號,選擇Module Output,選擇當前的project.
找到jar所在位置,在當前工程目錄下的out/Artifacts檔案下。
9. 在叢集環境中執行spark 任務
spark-submit命令:
spark-submit –class 主類 –master spark master地址 執行的jar 引數

在叢集主節點上的spark-x.x.x-bin-hadoop目錄下,執行spark-submit命令。
./bin/spark-submit –class org.project.modules.spark.java.WordCount –master spark://node1:7077 /home/hadoop/project/mining.jar hdfs://node1:9000/user/hadoop/data/wordcount/001/word.txt