Spark-2.3叢集安裝

阿新 • • 發佈：2018-12-17

1、下載

2、解壓安裝

上傳至master伺服器
解壓至/opt/目錄

$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C /opt/
$ mv spark-2.3.0-bin-hadoop2.7 spark-2.3.0

3、配置資訊

# 環境配置
vi /etc/profile
# 內容：
 export SPARK_HOME=/opt/spark-2.3.0
 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

cd /opt/spark-2.3.0/conf/
mv spark-env.sh.template spark-env.sh
vi spark-env.sh

# 內容：
export JAVA_HOME=/usr/java/default
export HADOOP_CONF_DIR=/opt/hadoop-2.7.3/etc/hadoop
export YARN_CONF_DIR=/opt/hadoop-2.7.3/etc/hadoop
export SPARK_MASTER_PORT=7077
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=slave1:2181,slave2:2181,slave3:2181 -Dspark.deploy.zookeeper.dir=/spark"

mv slaves.template slaves
# 內容：
master
slave1
slave2
slave3

4、分發

[[email protected] opt]$ scp -r spark-2.3.0/ slave1:$PWD
[[email protected] opt]$ scp -r spark-2.3.0/ slave2:$PWD
[[email protected] opt]$ scp -r spark-2.3.0/ slave3:$PWD

5、啟動

5.1、本地執行模式（單機）

該模式執行任務不會提交在叢集中，只在本節點執行，與Master無關；

spark-shell --master local

5.2、啟動為Local 模式（單機）

該模式執行任務不會提交在叢集中，只在本節點執行，與master無關；

spark-shell

5.3、啟動為叢集模式（spark standalone模式）（必須啟動master和worker）

該模式的區別是Spark自己給自己排程資源，必須指明ALIVE的master地址，地址不對就報錯（不能指定standby的master），不能計算

先要啟動master和worker ，並找到master ，哪個節點是master就指明ALIVE的master地址；

spark-shell --master spark://master:7077

5.4、啟動為叢集模式（spark on yarn模式）（一定別啟動Master和Worker）：

該模式是用yarn來排程資源；

注意：一定別啟動master，否則會卡很久，然後產生問題：hadoop04:4040無法訪問,但是可以計算；

報錯原因：記憶體資源給的過小，yarn直接kill掉程序，則報rpc連線失敗、ClosedChannelException等錯誤。

解決方法：

先停止YARN服務，然後修改yarn-site.xml，增加如下內容：

<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
<description>Whether virtual memory limits will be enforced for containers</description>
</property>

<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>4</value>
<description>Ratio between virtual memory to physical memory when setting memory limits for containers</description>
</property>

將新的yarn-site.xml檔案分發到其他Hadoop節點對應的目錄下，最後在重新啟動YARN；

spark-shell --master yarn-client

6、Master情況下檢查是否啟動成功

jps 檢視是否有Master 和 Worker程序；

7、結束Spark節點和程序

7.1、在任意啟動Spark的Worker程序的節點執行：

cd /opt/spark-2.3.0/sbin

./stop-all.sh

7.2、單獨啟動Master的需要單獨的結束

cd /opt/spark-2.3.0/sbin

./stop-master.sh

8、Spark-shell及簡單測試

安裝Spark的任意節點輸入spark-shell；

Spark預設是本地模式

scala> var list = List(1,2,3,4)
    list: List[Int] = List(1, 2, 3, 4)
scala> var rdd=sc.makeRDD(list)
    rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at makeRDD at <console>:26 
scala> rdd.count()
    res0: Long = 4

9、退出spark-shell

ctrl+d

Spark-2.3叢集安裝

1、下載 2、解壓安裝上傳至master伺服器解壓至/opt/目錄 $ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C /opt/ $ mv spark-2.3.0-bin-hadoop2.7 spark-2.3.0 3、

以yarn client和分散式叢集方式執行spark-2.3.2-bin-hadoop2.6

一以分散式叢集執行修改配置檔案/hadoop_opt/spark-2.3.2-bin-hadoop2.6/conf/spark-env.sh export HADOOP_CONF_DIR=/hadoop_opt/hadoop-2.6.1/etc/hadoop expo

spark-2.2.0 叢集安裝部署以及hadoop叢集部署

Spark在生產環境中，主要部署在安裝Linux系統的叢集中。在linux系統中安裝Spark需要預先安裝JDK、Scala等所需要的依賴。由於Spark是計算框架，所以需要預先在叢集內有搭建好儲存資料的持久化層，如HDFS、Hive、Cassandra等，最後可以通過啟動指令碼執行應用。

使用docker搭建spark(2.3.1)叢集

使用Docker快速搭建Spark叢集。建立Spark叢集首先在命令列下載該專案： git clone https://github.com/gettyimages/docker-spar

Spark專案之環境搭建（單機）三 scala-2.12.7+ spark-2.3.2-bin-hadoop2.7安裝

上傳scala和spark架包解壓然後重新命名 tar -zxf scala-2.12.7.tgz mv scala-2.12.7 scala tar -zxf spark-2.3.2-bin-hadoop2.7.tgz mv spark-2.3.

Centos6.8 安裝spark-2.3.1 以及 scala-2.12.2

一、Spark概述 Spark 是一個用來實現快速而通用的叢集計算的平臺。在速度方面，Spark 擴充套件了廣泛使用的 MapReduce 計算模型，而且高效地支援更多計算模式，包括互動式查詢和流處理。在處理大

CentOS 7搭建Spark 2.3.2叢集

一、伺服器叢集伺服器安裝內容 node-i scala-2.12.7; spark-2.3.2 node-ii scala-2.12.7; spark-2.3.2 node-iii scala-2.12.7; spark-2.3.2

spark 2.3.1叢集搭建(Master,Slave,Slave)

基礎配置同上篇部落格需要注意的配置有兩個 cd /usr/local/spark/ cp ./conf/slaves.template ./conf/slaves #slaves檔案設定Worker節點。編輯slaves內容,把預設內容localho

Hadoop-3.0.0 + spark-2.3.0 +storm-1.2.1 的安裝心得

因為前段時間比賽用到spark，而實驗室叢集的spark版本還是1.6，帶來了不少麻煩，於是便想著把叢集的Hadoop和spark更新一下版本，另外，因為專案需要，再補裝個storm，一邊日後要用。說句題外話。spark，storm，Hadoop三者取首字母是SSH，這讓我想

從零開始搭建系統2.3——Cat安裝及配置

AR lan tar gpo 從零開始系統 .com .html log 從零開始搭建系統2.3——Cat安裝及配置從零開始搭建系統2.3——Cat安裝及配置

Apache Spark 2.3 重要特性介紹

情況緩存 panda image author cluster 所有分析方法 deep 為了繼續實現 Spark 更快，更輕松，更智能的目標，Spark 2 3 在許多模塊都做了重要的更新，比如 Structured Streaming 引入了低延遲的連續處理（cont

Apache Spark 2.3 運行在Kubernete實戰

https llb pen message vbs token CMF spa ive 下載源代碼，並解壓下載地址 tar -zxvf v2.3.2.tar.gz 編譯 cd spark-2.3.2 build/mvn install -DskipTests buil

scala spark-streaming整合kafka （spark 2.3 kafka 0.10）

obj required word 錯誤 prope apache rop sta move Maven組件如下： <dependency> <groupId>org.apache.spark</groupId> <

java8下spark-streaming結合kafka程式設計（spark 2.3 kafka 0.10）

前面有說道spark-streaming的簡單demo，也有說到kafka成功跑通的例子，這裡就結合二者，也是常用的使用之一。 1.相關元件版本首先確認版本，因為跟之前的版本有些不一樣，所以才有必要記錄下，另外仍然沒有使用scala,使用java8,spark 2.0.0,kafk

[Spark版本更新]--Spark-2.3.2釋出說明

2018-09-24 Apache spark又釋出新版本了，看看發行說明： sub-task [ SPARK-24976 ] - 允許十進位制型別轉換null（特定於PyArrow 0.9.0） bug [ SPARK-23243&nb

Spark高可用叢集安裝

在之前的文章Spark叢集安裝中，已經詳細的介紹了Spark分散式叢集的安裝方法 Spark叢集啟動後執行jps命令，主節點上有Master程序，其他子節點上有Work進行，但是有一個很大的問題，那就是Master節點存在單點故障，要解決此問題，就要藉助zookeeper，並且啟動至少兩個Mas

【圖解】Windows下 apache-maven-3.2.3的安裝步驟+maven配置本地倉庫+Eclipse中配置maven

安裝步驟： 1.在安裝maven之前，先確保已經安裝JDK1.6及以上版本，並且配置好環境變數。 3.配置maven3的環境變數：先配置M3_HOME的環境變數，新建一個系統變數：M3_HOME , 路徑是：E:\code\apache-maven-3.2.3

[Spark基礎]--Spark-2.3.2釋出說明

2018-09-24 Apache spark又釋出新版本了，看看發行說明： sub-task [ SPARK-24976 ] - 允許十進位制型別轉換null（特定於PyArrow 0.9.0）

Spark學習筆記（1）—— Spark 介紹，叢集安裝

1 Spark 介紹 Spark是一種快速、通用、可擴充套件的大資料分析引擎，2009年誕生於加州大學伯克利分校AMPLab，2010年開源，2013年6月成為Apache孵化專案，2014年2月成為Apache頂級專案。目前，Spark生態系統已經發展成為一個

spark-2.3.2-bin-hadoop2.6執行在yarn client上

修改配置檔案/hadoop_opt/spark-2.3.2-bin-hadoop2.6/conf/spark-env.sh export HADOOP_CONF_DIR=/hadoop_opt/hadoop-2.6.1/etc/hadoop export J

Spark-2.3叢集安裝

1、下載

2、解壓安裝

3、配置資訊

4、分發

5、啟動

6、Master情況下檢查是否啟動成功

7、結束Spark節點和程序

8、Spark-shell及簡單測試

9、退出spark-shell

相關推薦