1. 程式人生 > >最全SPARK環境(叢集、windows、linux)的搭建

最全SPARK環境(叢集、windows、linux)的搭建

Spark叢集環境搭建
    -0. 前提:配置好Hadoop和JAVA的開發環境
    
    -1. 上傳Spark和Scala壓縮包(到~/software資料夾中)
    
    -2. 解壓壓縮包
    $ tar -zxvf ~/software/spark-1.6.1-bin-2.5.0-cdh5.3.6\(cdh版本已經編譯好的\).tgz -C ~/modules/
    $ tar -zxvf ~/software/scala-2.10.4.tgz -C ~/modules/
    
    -3. 配置環境變數
    $ vim ~/.bash_profile
# SCALA
export SCALA_HOME=/home/hadoop/modules/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin

# SPARK
export SPARK_HOME=/home/hadoop/modules/spark-1.6.1-bin-2.5.0-cdh5.3.6
export PATH=$PATH:$SPARK_HOME/bin    
    $ source ~/.bash_profile
   

-4. 配置Spark相關引數項

        --1. 進入Spark根目錄
        $ cd $SPARK_HOME
        
        --2. 修改配置檔案
        $ mv conf/spark-env.sh.template conf/spark-env.sh
        $ vim conf/spark-env.sh
JAVA_HOME=/home/hadoop/modules/jdk1.7.0_79
SCALA_HOME=/home/hadoop/modules/scala-2.10.4
HADOOP_CONF_DIR=/home/hadoop/modules/hadoop-2.5.0-cdh5.3.6/etc/hadoop
SPARK_LOCAL_IP=hadoop.ibeifeng.com    

HADOOP_CONF_DIR: 主要是給定spark應用程式連線hadoop相關服務的配置檔案所在的資料夾路徑是哪個,如果不給定,那麼使用預設的HDFS檔案系統(file:///)
該引數的作用其實就是將連線HDFS/YARN的相關配置檔案新增到spark應用的classpath中,讓spark應用可以連線上hdfs或者yarn    

    
  -5. 啟動HDFS
    配置了相關環境變數
    $ start-dfs.sh
    
  -6. Spark環境測試(在同一個目錄中,不能同時執行多次Spark根目錄下bin資料夾中的命令,否則會報錯,報錯原因:環境沒有整合Hive,解決方案:將Hive配置檔案hive-site.xml放到$SPARK_HOME/conf資料夾中,並啟動hive相關服務)
        --1. 進入Spark根目錄
        $ cd $SPARK_HOME
        --2. 測試一:計算π的值
        $ ./bin/run-example  SparkPi 10
        --3. 測試二:PySpark測試
        $ ./bin/pyspark
Using Python version 2.6.6 (r266:84292, Nov 22 2013 12:16:22)
SparkContext available as sc, HiveContext available as sqlContext.
>>>    
        >>> sc
        >>> rdd = sc.textFile("/test/input/wc.txt")
        >>> rdd.collect()
        備註:還可以通過web頁面檢視spark應用的執行情況
        textFile: 作用是按照行讀取文字檔案資料,形成一個RDD,RDD中的元素一行一行的文字

----------------------------------------------------------
Spark開發環境搭建(Windows)
    備註:對於spark1.6.1版本而言,建議Python版本2.7或者3.5,Python3.6支援不太友好。
    -1. 安裝Java和Scala
    
    -2. 解壓Spark安裝包,配置Spark開發環境
      將其安裝包解壓到一個沒有中文沒有空格的資料夾即可
      eg: D:\ProgramFiles\spark-1.6.1-bin-2.5.0-cdh5.3.6
    -3. 配置Hadoop開發環境
      a. 解壓hadoop-2.5.0-cdh5.3.6.tar.gz壓縮包到某一個路徑下,比如:C:\Program Files\hadoop-2.5.0-cdh5.3.6
      b. 解壓hadoop-common-2.2.0-bin-32.rar壓縮包某一個資料夾中,然後將該資料夾中的所有檔案(eg: xxx.dll等,總共七個檔案)全部copy到hadoop的解壓資料夾下的bin資料夾中,eg:C:\Program Files\hadoop-2.5.0-cdh5.3.6\bin
      c. 配置HADOOP_HOME環境變數,變數的值為hadoop的解壓資料夾路徑,eg:C:\Program Files\hadoop-2.5.0-cdh5.3.6 
    
    -4. 配置Python開發外掛
      從剛剛解壓的spark根目錄中將python\lib資料夾中的兩個壓縮包解壓後放到python的對應目錄中:
        --a. 解壓py4j-0.9-src.zip和pyspark.zip
        --b. 解壓後的內容(py4j和pyspark兩個資料夾)放到:C:\Python3.5\Lib\site-packages
    
    -5. 完成環境搭建
      
----------------------------------------------------------
Spark開發環境搭建(Linux)


    備註:對於spark1.6.1版本而言,建議Python版本2.7或者3.5,Python3.6支援不太友好。
    -1. 安裝Java和Scala
    
    -2. 解壓Spark安裝包,配置Spark開發環境
      將其安裝包解壓到一個沒有中文沒有空格的資料夾即可
      eg: /home/pyspark04/spark-1.6.1-bin-2.5.0-cdh5.3.6
    -3. 配置Hadoop開發環境
      a. 解壓hadoop-2.5.0-cdh5.3.6.tar.gz壓縮包到某一個路徑下,比如:/home/pyspark04/hadoop-2.5.0-cdh5.3.6
      b. 配置HADOOP_HOME環境變數,變數的值為hadoop的解壓資料夾路徑,eg:/home/pyspark04/hadoop-2.5.0-cdh5.3.6
    
    -4. 配置Python開發外掛
      從剛剛解壓的spark根目錄中將python\lib資料夾中的兩個壓縮包解壓後放到python的對應目錄中:
        --a. 解壓py4j-0.9-src.zip和pyspark.zip
        --b. 解壓後的內容(py4j和pyspark兩個資料夾)放到:/usr/lib64/python2.6/site-packages
    
    -5. 完成環境搭建