1. 程式人生 > >Spark的Standalone模式安裝部署

Spark的Standalone模式安裝部署

Spark執行模式

Spark 有很多種模式,最簡單就是單機本地模式,還有單機偽分散式模式,複雜的則執行在叢集中,目前能很好的執行在 Yarn和 Mesos 中,當然 Spark 還有自帶的 Standalone 模式,對於大多數情況 Standalone 模式就足夠了,如果企業已經有 Yarn 或者 Mesos 環境,也是很方便部署的。

  • local(本地模式):常用於本地開發測試,本地還分為local單執行緒和local-cluster多執行緒;
  • standalone(叢集模式):典型的Mater/slave模式,不過也能看出Master是有單點故障的;Spark支援ZooKeeper來實現 HA
  • on yarn(叢集模式): 執行在 yarn 資源管理器框架之上,由 yarn 負責資源管理,Spark 負責任務排程和計算
  • on mesos(叢集模式): 執行在 mesos 資源管理器框架之上,由 mesos 負責資源管理,Spark 負責任務排程和計算
  • on cloud(叢集模式):比如 AWS 的 EC2,使用這個模式能很方便的訪問 Amazon的 S3;Spark 支援多種分散式儲存系統:HDFS 和 S3

Spark Standalone叢集部署

準備工作

  • 這裡我下載的是Spark的編譯版本,否則需要事先自行編譯
  • Spark需要Hadoop的HDFS作為持久化層,所以在安裝Spark之前需要安裝Hadoop,這裡Hadoop的安裝就不介紹了,給出一個教程
    Hadoop安裝教程_單機/偽分散式配置
  • 實現建立hadoop使用者,Hadoop、Spark等程式都在該使用者下進行安裝
  • ssh無密碼登入,Spark叢集中各節點的通訊需要通過ssh協議進行,這需要事先進行配置。通過在hadoop使用者的.ssh目錄下將其他使用者的id_rsa.pub公鑰檔案內容拷貝的本機的authorized_keys檔案中,即可事先無登入通訊的功能
  • Java環境的安裝,同時將JAVA_HOME、CLASSPATH等環境變數放到主目錄的.bashrc,執行source .bashrc使之生效

部署配置

這裡配置工作需要以下幾個步驟:

  1. 解壓Spark二進位制壓縮包
  2. 配置conf/spark-env.sh檔案
  3. 配置conf/slave檔案

下面具體說明一下:

  • 配置Spark的執行環境,將spark-env.sh.template模板檔案複製成spark-env.sh,然後填寫相應需要的配置內容:
    1
    2
    3
    4
    5
    export SPARK_MASTER_IP=hadoop1
    export SPARK_MASTER_PORT=7077
    export SPARK_WORKER_CORES=1
    export SPARK_WORDER_INSTANCES=1
    export SPARK_WORKER_MEMORY=3g

其他選項內容請參照下面的選項說明:

1
2
3
4
5
6
7
8
9
10
11
# Options for the daemons used in the standalone deploy mode:
# - SPARK_MASTER_IP, to bind the master to a different IP address or hostname
# - SPARK_MASTER_PORT / SPARK_MASTER_WEBUI_PORT, to use non-default ports for the master
# - SPARK_MASTER_OPTS, to set config properties only for the master (e.g. "-Dx=y")
# - SPARK_WORKER_CORES, to set the number of cores to use on this machine
# - SPARK_WORKER_MEMORY, to set how much total memory workers have to give executors (e.g. 1000m, 2g)
# - SPARK_WORKER_PORT / SPARK_WORKER_WEBUI_PORT, to use non-default ports for the worker
# - SPARK_WORKER_INSTANCES, to set the number of worker processes per node
# - SPARK_WORKER_DIR, to set the working directory of worker processes
# - SPARK_WORKER_OPTS, to set config properties only for the worker (e.g. "-Dx=y")
# - SPARK_HISTORY_OPTS, to set config properties only for the history server (e.g. "-Dx=y")
  • conf/slave檔案使用者分散式節點的配置,這裡只需要在slave檔案中寫入各節點的主機名即可

  • 將以上內容都配置好了,將這個spark目錄拷貝到各個節點scp -r spark [email protected]:~

  • 接下來就可以啟動叢集了,在Spark目錄中執行sbin/start-all.sh,然後可以通過netstat -nat命令檢視埠7077的程序,還可以通過瀏覽器訪問hadoop1:8080瞭解叢集的概況

Spark Client部署

Spark Client的作用是,事先搭建起Spark叢集,然後再物理機上部署客戶端,然後通過該客戶端提交任務給Spark叢集。
由於上面介紹了Standalone分散式叢集是如何搭建的,這裡只需將叢集上的spark資料夾拷貝過來。
最簡單的Spark客戶端訪問叢集的方式就是通過Spark shell的方式:bin/spark-shell --master spark://hadoop1:7077這樣就可以訪問叢集了。
這樣在瀏覽器的Spark叢集介面上就可以看到Running Applications一欄中有Spark shell的應用在執行。

Spark Standalone偽分散式部署

偽分散式是在一臺機器上進行部署來模擬分散式的叢集,這裡部署的過程和Standalone叢集的部署是類似的,事前的工作都是一樣的,這裡只是在配置檔案中做相應的修改就可以了。

這裡還是配置這兩個檔案:

配置conf/spark-env.sh檔案
配置conf/slave檔案

  • 修改spark-env.sh檔案,修改master的ip,這裡主機名和使用者ip分別在/etc/hostname/etc/hosts檔案中進行配置

    1
    2
    3
    4
    5
    export SPARK_MASTER_IP=jason
    export SPARK_MASTER_PORT=7077
    export SPARK_WORKER_CORES=1
    export SPARK_WORDER_INSTANCES=1
    export SPARK_WORKER_MEMORY=3g
  • slave檔案中,填寫自己的主機名,比如我的主機名jason

相關推薦

2018-08-12期 Hbase本地模式安裝部署

native common rwx 需要 XML www star lib 模式搭建 說明:Hbase部署模式有以下三種(1)本地模式:本地模式不依賴於HDFS存儲,將文件存儲到操作系統本地目錄,好處是我們不需要搭建HDFS集群,即可學些HBase相關命令及客戶端操作。(2

2018-08-13期 Hbase偽分布模式安裝部署

pac binding 裝包 ava image 沒有 peer zookeeper ive 說明:Hbase部署模式有以下三種(1)本地模式:本地模式不依賴於HDFS存儲,將文件存儲到操作系統本地目錄,好處是我們不需要搭建HDFS集群,即可學些HBase相關命令及客戶端操

【Hadoop 分布式部署 八:分布式協作框架Zookeeper架構功能講解 及本地模式安裝部署和命令使用 】

.gz 權限 實現 creat info 應用 data 就是 數據結構 What is Zookeeper     是一個開源的分布式的,為分布式應用提供協作服務的Apache項目     提供一個簡單的原語集合,以便與分布式應用可以在他之上構建更高層次的同步服務

【Spark】Spark的Standalone模式安裝部署

Spark執行模式 Spark 有很多種模式,最簡單就是單機本地模式,還有單機偽分散式模式,複雜的則執行在叢集中,目前能很好的執行在 Yarn和 Mesos 中,當然 Spark 還有自帶的 Standalone 模式,對於大多數情況 Standalone 模

(四): Flink1.6.1 standalone叢集模式安裝部署,幾個常用引數配置

NameNode檢查點異常 安裝flink之前,觀察到一個NameNode檢查點異常: 沒去找官方解釋,按照此文的第4點解決了問題: namenode的Cluster ID 與 secondnamenode的Cluster ID 不一致,對比/dfs/nn

Spark的Standalone模式安裝部署

Spark執行模式 Spark 有很多種模式,最簡單就是單機本地模式,還有單機偽分散式模式,複雜的則執行在叢集中,目前能很好的執行在 Yarn和 Mesos 中,當然 Spark 還有自帶的 Standalone 模式,對於大多數情況 Standalone 模式就足夠了,如

hadoop記錄-[Flink]Flink三種運行模式安裝部署以及實現WordCount(轉載)

bject def ast atm jar int args 獲取 wordcount [Flink]Flink三種運行模式安裝部署以及實現WordCount 前言 Flink三種運行方式:Local、Standalone、On Yarn。成功部署後分別用Scala和J

手把手部署CDH(5.12.1)完全離線模式安裝超級詳細攻略

前言 搭建小型BI大資料計算叢集,由於資源有限(你懂的)部署的模式為CDH官方建議的最低配版本,沒有配備HA,(我們還是相信惠普的伺服器 此處手動滑稽)。 CDH背景 CDH (Cloudera's Distribution, including Apache Hado

Elasticsearch學習(1)之安裝部署(單機多節點模式

Elasticsearch叢集環境部署(單機多節點) 1. 環境準備 ps: 由於elasticsearch 2.x版本不支援bigdesk外掛,本文采用1.7.3版本 1.1 安裝jdk 下載好的jdk-8u77-linux-x64.tar.

Hadoop安裝部署的三種模式

hadoop安裝部署有以下三種模式: 本地模式 偽分佈模式 全分佈模式 安裝之前操作: 1.修改主機名,設定好IP 2.設定hadoop的環境變數: 命令:vi ~/.bash_profile ``` ### add for ha

fuel6.0安裝部署

信息 記錄 修改 ont pan compute spl auto 網絡配置   在經過一系列安裝openstack方式後,個人覺得fuel的安裝方式相對簡易,接下來記錄下安裝部署fuel6.0的過程。本教程適合想把fuel6.0部署後,雲主機需要連接外網的需求。   安裝

【原創 Spark動手實踐 1】Hadoop2.7.3安裝部署實際動手

dmi 遠程 nag proc host 一個 error img 連接 目錄: 第一部分:操作系統準備工作:   1. 安裝部署CentOS7.3 1611   2. CentOS7軟件安裝(net-tools, wget, vim等)   3. 更新CentOS

LNP 安裝部署

lnp一、安裝nginx1.安裝依賴包:yum install openssl openssl-devel pcre GeoIP perl-devel perl perl-ExtUtils-Embed GeoIP-devel libatomic libatomic_ops-devel2.安裝zlibtar -

Unity3D中tolua的“安裝部署和使用“教程

替換 部署 ref 比對 text asset gin 系統 .com 棄坑Cocos2d-x,轉戰Unity3D 考慮到項目一定會使用熱更,花了不少時間比對了lua的支持方案,最後定為tolua,原因不解釋。 俗話說,萬事開頭難,中間難,最後難……我反正是沒有找到如何安裝

hadoop分布式安裝部署具體視頻教程(網盤附配好環境的CentOS虛擬機文件/hadoop配置文件)

down hdf lan nag home 開機啟動 prop baidu ifcfg-eth 參考資源下載:http://pan.baidu.com/s/1ntwUij3視頻安裝教程:hadoop安裝.flvVirtualBox虛擬機:hadoop.part1-part

Confluence 安裝部署

all extract pro 技術分享 create read 1-1 expr starting Confluence安裝與部署 下載安裝包及破解包 安裝包下載地址:https://www.atlassian.com/software/confluence/down

CentOS7 Tools安裝步驟(命令模式安裝

編譯工具 .com 共享 cer 需要 顯示 mes 沒有 重新 1、首先啟動CentOS 7,在VMware中點擊上方“VM”,點擊“Install VMware Tools...”(如已安裝則顯示“Reinstall VMware Tools...”)。 2、在命令行輸

ZooKeeper安裝部署

sa0x01 簡介Zookeeper是一個很好的集群管理工具,被大量用於分布式計算。如Hadoop以及Storm系統中。Apache ZooKeeper是一個為分布式應用所設計開源協調服務,其設計目是為了減輕分布式應用程序所承擔的協調任務。可以為用戶提供同步、配置管理、分組和命名服務。0x02 環境說明在三臺

zookeeper與kafka安裝部署及java環境搭建

3.4 項目目錄 tin bytes result zxvf util ise cat 1. ZooKeeper安裝部署 本文在一臺機器上模擬3個zk server的集群安裝。 1.1. 創建目錄、解壓 cd /usr/ #創建項目目錄 mkdir zookeepe

ELK 日誌服務器安裝部署

搜索引擎 應用程序 服務器 安全性 數據源 高清原文 烏龜運維 wuguiyunwei.com簡單介紹:ELK是三個開源工具組成,簡單解釋如下:Elasticsearch是個開源分布式搜索引擎,它的特點有:分布式,零配置,自動發現,索引自動分片,索引副本機制,restful風格接口,多數據