大資料環境搭建之Spark分散式環境搭建步驟詳解

阿新 • • 發佈：2018-12-23

文章目錄

環境準備
安裝配置

下載
配置環境變數
修改conf目錄下檔案
複製程式到從結點

啟動Spark叢集

在bigdata01機器上啟動Spark
啟動時的錯誤

驗證是否成功

檢視程序
瀏覽器檢視
官方standalone模式文件

環境準備

在之前搭建的Hadoop叢集和zookeeper基礎之上搭建Spark叢集環境。
Linux系統：Centos6.10
Linux叢集：bigdata01, bigdata02, bigdata03

安裝配置

基本思路是現在bigdata01上安裝，然後在拷貝到bigdata02,bigdata03上。

下載

http://spark.apache.org/downloads.html
下載spark-2.1.3-bin-hadoop2.7.tgz
拷貝到Linux機器bigdata01的/opt/downloads/目錄，然後執行

cd /opt/downloads/
tar -zxf spark-2.1.3-bin-hadoop2.7.tar.gz /opt

配置環境變數

vi /etc/profile

末尾新增
export SPARK_HOME=/opt/spark-2.3.1-bin-hadoop2.7
並在path後新增路徑 $S$

P A R K H O M E / b

i n : SPARK_HOME/bin:

S P A R K_{H} O M E / b i n :

SPARK_HOME/sbin
儲存後使配置生效

source /etc/profile

修改conf目錄下檔案

修改slaves檔案配置從結點，預設的localhost刪掉，修改為：
bigdata02
bigdata03

複製程式到從結點

scp -r /opt/spark-2.3.1-bin-hadoop2.7 bigdata02:/opt/
scp -r /opt/spark-2.3.1-bin-hadoop2.7 bigdata03:/opt/

啟動Spark叢集

在bigdata01機器上啟動Spark

進入/opt/spark-2.3.1-bin-hadoop2.7/sbin目錄輸入

./start-all.sh

第一次啟動失敗，先執行以下命令關掉

./stop-all.sh

再次啟動

./start-all.sh

啟動時的錯誤

我在部署時的報錯如下圖:
在這裡插入圖片描述

原因是叢集裡的機器使用的Java版本不統一：在bigdata02和bigdata03機器執行java -version命令，發現使用的預設java是OpenJDK1.7.0_181，與bigdata01的版本1.8.0_162不同，統一後重新啟動成功。
(統一方法：bigdata02機器已經安裝了1.8.0_162並且配置了環境變數，但是使用java -version檢視還是預設的java版本。使用which java和which javac命令檢視具體路徑，發現java指向/usr/bin/java 是個軟連結，路徑指向/etc/alternatives/java。刪除此軟連結，並且重新新建軟連結：
rm -rf /usr/bin/java
ln -s $JAVA_HOME/bin/java /usr/bin/java
此時java -version命令檢視版本為1.8.0_162）

驗證是否成功

檢視程序

在bigdata01,bigdata02,bigdata03機器上輸入jps命令
bigdata01顯示Master程序，其他兩臺機器顯示Work程序，即為部署成功。

瀏覽器檢視

在瀏覽器位址列輸入bigdata01:8080
出現介面Spark Master at spark://bigdata01:7077

官方standalone模式文件

http://spark.apache.org/docs/latest/spark-standalone.html

大資料環境搭建之Spark分散式環境搭建步驟詳解

文章目錄

環境準備

安裝配置

下載

配置環境變數

修改conf目錄下檔案

複製程式到從結點

啟動Spark叢集

在bigdata01機器上啟動Spark

啟動時的錯誤

驗證是否成功

檢視程序

瀏覽器檢視

官方standalone模式文件

大資料環境搭建之Spark分散式環境搭建步驟詳解

[大資料學習研究] 3. hadoop分散式環境搭建

大資料HBase系列之HBase分散式資料庫部署

大資料Zookeeper系列之Zookeeper分散式協調服務部署

零基礎入門大資料之spark中rdd部分運算元詳解

零基礎入門大資料探勘之spark中的幾種map

零基礎入門大資料探勘之spark的rdd

40-天亮大資料系列教程之Spark常用運算元分析與應用

大資料學習筆記之kafka----分散式訊息釋出/訂閱系統

大資料學習筆記之spark及spark streaming----快速通用計算引擎

大資料學習路線之linux系統基礎搭建

資料分析學習之不得不知的八大演算法詳解

虛擬機器中搭建偽分散式Hadoop，步驟詳解

stl map底層之紅黑樹插入步驟詳解與程式碼實現

IEDA學習之Maven專案匯入idea步驟詳解

大資料環境搭建之Kafka完全分散式環境搭建步驟詳解

大資料環境搭建之HBase偽分散式環境搭建步驟詳解

大資料環境搭建之Kafka偽分散式環境搭建步驟詳解

從零開始搭建大資料平臺系列之（2.1）—— Apache Hadoop 2.x 偽分散式環境搭建

Linux下基於Hadoop的大資料環境搭建步驟詳解（Hadoop，Hive，Zookeeper，Kafka，Flume，Hbase，Spark等安裝與配置）

大資料環境搭建之Spark分散式環境搭建步驟詳解

文章目錄

環境準備

安裝配置

下載

配置環境變數

修改conf目錄下檔案

複製程式到從結點

啟動Spark叢集

在bigdata01機器上啟動Spark

啟動時的錯誤

驗證是否成功

檢視程序

瀏覽器檢視

官方standalone模式文件

相關推薦