最全SPARK環境（叢集、windows、linux）的搭建

阿新 • • 發佈：2018-12-22

Spark叢集環境搭建
   -0. 前提：配置好Hadoop和JAVA的開發環境

   -1. 上傳Spark和Scala壓縮包（到~/software資料夾中）

   -2. 解壓壓縮包
   $ tar -zxvf ~/software/spark-1.6.1-bin-2.5.0-cdh5.3.6$cdh版本已經編譯好的$.tgz -C ~/modules/
   $ tar -zxvf ~/software/scala-2.10.4.tgz -C ~/modules/

   -3. 配置環境變數
   $ vim ~/.bash_profile
# SCALA
export SCALA_HOME=/home/hadoop/modules/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin

# SPARK
export SPARK_HOME=/home/hadoop/modules/spark-1.6.1-bin-2.5.0-cdh5.3.6
export PATH=$PATH:$SPARK_HOME/bin
$ source ~/.bash_profile

-4. 配置Spark相關引數項

       --1. 進入Spark根目錄
       $ cd $SPARK_HOME

       --2. 修改配置檔案
       $ mv conf/spark-env.sh.template conf/spark-env.sh
       $ vim conf/spark-env.sh
JAVA_HOME=/home/hadoop/modules/jdk1.7.0_79
SCALA_HOME=/home/hadoop/modules/scala-2.10.4
HADOOP_CONF_DIR=/home/hadoop/modules/hadoop-2.5.0-cdh5.3.6/etc/hadoop
SPARK_LOCAL_IP=hadoop.ibeifeng.com

HADOOP_CONF_DIR: 主要是給定spark應用程式連線hadoop相關服務的配置檔案所在的資料夾路徑是哪個，如果不給定，那麼使用預設的HDFS檔案系統(file:///)
該引數的作用其實就是將連線HDFS/YARN的相關配置檔案新增到spark應用的classpath中，讓spark應用可以連線上hdfs或者yarn


-5. 啟動HDFS
   配置了相關環境變數
   $ start-dfs.sh

-6. Spark環境測試(在同一個目錄中，不能同時執行多次Spark根目錄下bin資料夾中的命令，否則會報錯，報錯原因：環境沒有整合Hive，解決方案：將Hive配置檔案hive-site.xml放到$SPARK_HOME/conf資料夾中，並啟動hive相關服務)
       --1. 進入Spark根目錄
       $ cd $SPARK_HOME
       --2. 測試一：計算π的值
       $ ./bin/run-example SparkPi 10
       --3. 測試二：PySpark測試
       $ ./bin/pyspark
Using Python version 2.6.6 (r266:84292, Nov 22 2013 12:16:22)
SparkContext available as sc, HiveContext available as sqlContext.
>>>
       >>> sc
       >>> rdd = sc.textFile("/test/input/wc.txt")
       >>> rdd.collect()
       備註：還可以通過web頁面檢視spark應用的執行情況
       textFile: 作用是按照行讀取文字檔案資料，形成一個RDD，RDD中的元素一行一行的文字

----------------------------------------------------------
Spark開發環境搭建(Windows)
   備註：對於spark1.6.1版本而言，建議Python版本2.7或者3.5，Python3.6支援不太友好。
   -1. 安裝Java和Scala

   -2. 解壓Spark安裝包，配置Spark開發環境
   將其安裝包解壓到一個沒有中文沒有空格的資料夾即可
   eg: D:\ProgramFiles\spark-1.6.1-bin-2.5.0-cdh5.3.6
   -3. 配置Hadoop開發環境
   a. 解壓hadoop-2.5.0-cdh5.3.6.tar.gz壓縮包到某一個路徑下，比如:C:\Program Files\hadoop-2.5.0-cdh5.3.6
   b. 解壓hadoop-common-2.2.0-bin-32.rar壓縮包某一個資料夾中，然後將該資料夾中的所有檔案(eg: xxx.dll等，總共七個檔案)全部copy到hadoop的解壓資料夾下的bin資料夾中，eg：C:\Program Files\hadoop-2.5.0-cdh5.3.6\bin
   c. 配置HADOOP_HOME環境變數，變數的值為hadoop的解壓資料夾路徑，eg:C:\Program Files\hadoop-2.5.0-cdh5.3.6

   -4. 配置Python開發外掛
   從剛剛解壓的spark根目錄中將python\lib資料夾中的兩個壓縮包解壓後放到python的對應目錄中：
   --a. 解壓py4j-0.9-src.zip和pyspark.zip
       --b. 解壓後的內容(py4j和pyspark兩個資料夾)放到：C:\Python3.5\Lib\site-packages

   -5. 完成環境搭建

----------------------------------------------------------
Spark開發環境搭建(Linux)

   備註：對於spark1.6.1版本而言，建議Python版本2.7或者3.5，Python3.6支援不太友好。
   -1. 安裝Java和Scala

   -2. 解壓Spark安裝包，配置Spark開發環境
   將其安裝包解壓到一個沒有中文沒有空格的資料夾即可
   eg: /home/pyspark04/spark-1.6.1-bin-2.5.0-cdh5.3.6
   -3. 配置Hadoop開發環境
   a. 解壓hadoop-2.5.0-cdh5.3.6.tar.gz壓縮包到某一個路徑下，比如:/home/pyspark04/hadoop-2.5.0-cdh5.3.6
   b. 配置HADOOP_HOME環境變數，變數的值為hadoop的解壓資料夾路徑，eg:/home/pyspark04/hadoop-2.5.0-cdh5.3.6

   -4. 配置Python開發外掛
   從剛剛解壓的spark根目錄中將python\lib資料夾中的兩個壓縮包解壓後放到python的對應目錄中：
   --a. 解壓py4j-0.9-src.zip和pyspark.zip
       --b. 解壓後的內容(py4j和pyspark兩個資料夾)放到：/usr/lib64/python2.6/site-packages

   -5. 完成環境搭建

最全SPARK環境（叢集、windows、linux）的搭建

最全SPARK環境（叢集、windows、linux）的搭建

作業系統最全知識點總結（找工作，考研必備）

最全Pycharm教程（26）——Pycharm搜索導航之文件名、符號名搜索（轉）

最全Pycharm教程（26）——Pycharm搜尋導航之檔名、符號名搜尋

最全Pycharm教程（3）——程式碼的除錯、執行

最全Pycharm教程（10）——Pycharm調試器總篇

最全Pycharm教程（24）——Pycharm編輯器功能之宏定義

最全Pycharm教程（11）——Pycharm調試器之斷點篇

最全的NB-IoT芯片廠商、模組廠商信息

Java學習之路吐血整理技術書從入門到進階最全50+本（珍藏版)

Java學習之路史上吐血整理Java技術書從入門到進階最全50+本（書籍推薦珍藏版)

[乾貨來襲]DevExpress ASP.NET示例資源最全分享！（四）

Linux、Windows、Mac下破解pycharm，可適用最新版

Python建立虛擬環境（Windows and Linux）virtualenv

最全PyCharm教程（1-15）【轉】

微信小程式-day02-微信小程式-框架-配置-pages、windows、tabBars、debug（json檔案）

windows配置javaweb環境（tomcat+jdk+redies+activemq+mysql）

DevExpress示例資源最全分享！（一）

收藏 | 雲端計算領域最全常用術語（中英文對照），你知道多少個？

作業系統（二）----Linux、Windows、MacOs選擇

最全SPARK環境（叢集、windows、linux）的搭建

相關推薦