1. 程式人生 > >大資料篇:Spark安裝及測試PI的值

大資料篇:Spark安裝及測試PI的值

本文執行的具體環境如下:

  • centos7.3
  • Hadoop 2.8.4
  • Java JDK 1.8
  • Spark 1.6.3

一、安裝Hadoop

關於Hadoop的安裝,這裡就不概述了!

二、安裝 Spark

下載網址http://archive.apache.org/dist/spark/spark-1.6.3/spark-1.6.3-bin-hadoop2.6.tgz,下載速度比較慢,建議迅雷下載,速度會提升許多。

Spark部署模式主要有四種:Local模式(單機模式)、Standalone模式(使用Spark自帶的簡單叢集管理器)、YARN模式(使用YARN作為叢集管理器)和Mesos模式(使用Mesos作為叢集管理器)。
這裡介紹Local模式(單機模式)的 Spark安裝。

運用winscp將spark-1.6.3-bin-hadoop2.6.tgz上傳到master伺服器主節點端的/usr/local下,解壓

sudo tar -zxf spark-1.6.3-bin-hadoop2.6.tgz
cd /usr/local
sudo chown -R hadoop:hadoop ./spark       #此處的hadoop為你的使用者名稱

安裝後,還需要修改Spark的配置檔案spark-env.sh

cd /usr/local/spark-1.6.3-bin-hadoop2.6
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

編輯spark-env.sh檔案(vim ./conf/spark-env.sh),在第一行新增以下配置資訊:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.8.4/bin/hadoop classpath)

有了上面的配置資訊以後,Spark就可以把資料儲存到Hadoop分散式檔案系統HDFS中,也可以從HDFS中讀取資料。如果沒有配置上面資訊,Spark就只能讀寫本地資料,無法讀寫HDFS資料。配置完成後就可以直接使用,不需要像Hadoop執行啟動命令。通過執行Spark自帶的示例,驗證Spark是否安裝成功。

cd /usr/local/spark-1.6.3-bin-hadoop2.6
bin/run-example SparkPi

執行時會輸出非常多的執行資訊,輸出結果不容易找到,可以通過 grep 命令進行過濾(命令中的 2>&1 可以將所有的資訊都輸出到 stdout 中,否則由於輸出日誌的性質,還是會輸出到螢幕中)

bin/run-example SparkPi 2>&1 | grep "Pi is"

過濾後的執行結果如下圖示,可以得到π 的 近似值: