大資料篇:Spark安裝及測試PI的值
阿新 • • 發佈:2018-11-10
本文執行的具體環境如下:
- centos7.3
- Hadoop 2.8.4
- Java JDK 1.8
- Spark 1.6.3
一、安裝Hadoop
關於Hadoop的安裝,這裡就不概述了!
二、安裝 Spark
下載網址http://archive.apache.org/dist/spark/spark-1.6.3/spark-1.6.3-bin-hadoop2.6.tgz,下載速度比較慢,建議迅雷下載,速度會提升許多。
Spark部署模式主要有四種:Local模式(單機模式)、Standalone模式(使用Spark自帶的簡單叢集管理器)、YARN模式(使用YARN作為叢集管理器)和Mesos模式(使用Mesos作為叢集管理器)。
這裡介紹Local模式(單機模式)的 Spark安裝。
運用winscp將spark-1.6.3-bin-hadoop2.6.tgz上傳到master伺服器主節點端的/usr/local下,解壓
sudo tar -zxf spark-1.6.3-bin-hadoop2.6.tgz
cd /usr/local
sudo chown -R hadoop:hadoop ./spark #此處的hadoop為你的使用者名稱
安裝後,還需要修改Spark的配置檔案spark-env.sh
cd /usr/local/spark-1.6.3-bin-hadoop2.6 cp ./conf/spark-env.sh.template ./conf/spark-env.sh
編輯spark-env.sh檔案(vim ./conf/spark-env.sh),在第一行新增以下配置資訊:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.8.4/bin/hadoop classpath)
有了上面的配置資訊以後,Spark就可以把資料儲存到Hadoop分散式檔案系統HDFS中,也可以從HDFS中讀取資料。如果沒有配置上面資訊,Spark就只能讀寫本地資料,無法讀寫HDFS資料。配置完成後就可以直接使用,不需要像Hadoop執行啟動命令。通過執行Spark自帶的示例,驗證Spark是否安裝成功。
cd /usr/local/spark-1.6.3-bin-hadoop2.6 bin/run-example SparkPi
執行時會輸出非常多的執行資訊,輸出結果不容易找到,可以通過 grep 命令進行過濾(命令中的 2>&1 可以將所有的資訊都輸出到 stdout 中,否則由於輸出日誌的性質,還是會輸出到螢幕中)
bin/run-example SparkPi 2>&1 | grep "Pi is"
過濾後的執行結果如下圖示,可以得到π 的 近似值: