1. 程式人生 > >10.4 spark叢集搭建-standalone模式

10.4 spark叢集搭建-standalone模式

Spark standalone叢集搭建:

1、上傳解壓 tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz

2、修改安裝包的名稱(最好保留版本號)mv spark-1.6.0-bin-hadoop2.6 spark-1.6.0

3、進入conf目錄,修改slaves和Spark-env.sh

slaves(Worker程序所在的節點):

node2

node3

node4

spark-env.sh

export SPARK_MASTER_IP=hadoop1 Matser的IP

export SPARK_MASTER_PORT=7077 提交任務的埠

export SPARK_WORKER_CORES=2 每個Worker程序管理2個core

export SPARK_WORKER_MEMORY=2G 每個Worker程序管理2G記憶體

export SPARK_WORKER_INSTANCES=1 在每個虛擬機器或者真實的物理機上啟動的Worker的數量 defult 1

4、將安裝包同步到其他的節點上 scp -r spark-1.6.0 [email protected]:/opt/local/

5、如果想要修改master的監控埠 在start-master.sh 腳本里面修改 不修改預設8080

6,啟動sbin目錄下./start-all.sh

測試:bin目錄下

./spark-submit --master spark://node1:7077 --deploy-mode cluster --

total-executor-cores 3 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000

./spark-submit --master spark://node1:7077 --deploy-mode cluster 提交模式(defult:client,cluster)

--total-executor-cores 3(小於叢集core的總數) 叢集為當前的application奉獻了3個core

--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000(併發度 使用1000個執行緒來計算)

Spark standalone模式

Master:資源管理的主節點,掌握叢集的資源情況

實際上就是一個程序

Worker:只是管理某一臺機器 或者 管理某一部分資源 2G記憶體和2個core

也是一個程序,Worker會管理他所在機器的資源

Driver:與任務排程有關

Spark 在Standalone上執行分為兩種模式

node1 master 也是提交應用程式的客戶端

node2 worker

node3 worker

node4 worker

1、client 測試程式

Driver程序是在客戶端啟動的

Driver(SparkContext物件)的作用:

分發任務

回收task的計算結果

回收task的執行情況

心跳

可以在提交應用程式的客戶端上監控task的執行情況

適應場景:

測試 生產環境下為什麼不使用client模式?

如果我要提交100個application到叢集執行,Driver每次都會在client節點啟動,那麼就會操作客戶端100次網絡卡流量暴增的問題

2、cluster 適合在生產環境

Driver程序是在叢集某一臺Worker上啟動的

是無法檢視task的執行情況的

如果我要提交100個application到叢集執行,每次Driver會隨機在某一臺Worker上啟動,那麼這100次網絡卡流量暴增的問題就散佈在叢集上的

相關推薦

10.4 spark叢集搭建-standalone模式

Spark standalone叢集搭建: 1、上傳解壓 tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz 2、修改安裝包的名稱(最好保留版本號)mv spark-1.6.0-bin-hadoop2.6 spark-1.6.0 3、進入co

zookeeper3.4.5+tomcat7+solr-4.10.1分散式叢集搭建

一、   說明 本次分散式部署solr是在兩臺伺服器(10.21.16.31和10.21.16.34)上部署5個結點,10.21.16.31伺服器部署3個結點,10.21.16.34伺服器部署2個結點 二、   下載需要的工具包 zookeeper-3.4.5.tar.g

Spark學習(二) 之叢集搭建(standalone、HA-standalonespark on yarn)

Spark standalone (一) 安裝過程 1、上傳並解壓縮 tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/ 2、進入spark/conf修改配置檔案 cp slaves.template slav

VirtualBox 虛擬機器配置centos6.4 spark叢集(1)--- 環境搭建以及所遇問題

一、前言       最近學習spark,就把一些經歷在這裡總結總結。 二、所需軟體        VirtualBox 5.1.22        作業系統 :centos6.4    CentOS-6.4-x86_64-minimal.iso        一共需要3

Kafka2.10安裝和叢集搭建

1.安裝前準備 jdk1.8.0_171 kafka_2.10-0.10.0.0.tgz 將壓縮包解壓至kafka使用者目錄. 2.配置檔案 config/server.properties #修改一下幾項,其他不動 #唯一標識,叢集內各個broker.id不能重複 broker.i

Elasticsearch-5.4.0叢集搭建

1、Elasticsearch-5.4.0 安裝包下載地址:https://www.elastic.co/downloads/past-releases/elasticsearch-5-4-0 2、解壓檔案:tar -zxvf /home/elasticsearch-5.4.0.tar.gz -

VirtualBox下 Centos6.10+Hadoop2.6叢集搭建 Windows客戶端搭建

1 Centos下載安裝 Centos映象下載地址https://www.centos.org/download/ 我選擇的是DVD版本 在VitrualBox裡面新建一個虛擬機器 硬碟給了10G,其他屬性預設,開機,選擇啟動盤,把下載好的映象放入,開始安裝 趁

hadoop及spark叢集搭建後續

問題1:檢視 jps,裡面只有HQuorumPeer,沒有 HRegionServer 檢視logs,master rejected startup because clock is out of sync 原因:幾臺機器時間對不上 解決方法:將有問題機器的時間校正 date -s

Hadoop及spark叢集搭建踩過的坑

本叢集總共有三臺主機,一臺master,兩臺slave Hadoop有一個節點無法啟動 在按照教程子雨大資料之Spark入門教程(Python版)搭建Hadoop叢集時,執行jps命令,發現master和其中一個slave能正常工作,執行./bin/yarn node -lis

大資料:spark叢集搭建

建立spark使用者組,組ID1000 groupadd -g 1000 spark 在spark使用者組下建立使用者ID 2000的spark使用者 獲取視訊中文件資料及完整視訊的夥伴請加QQ群:947967114useradd -u 2000 -g spark spark 設定密碼 passwd

Spark學習記錄(二)Spark叢集搭建

Hadoop  Spark叢集搭建,以及IDEA遠端除錯 環境:Hadoop-2.7.2  jdk-1.8   scala-2-11-12  spark-2.1.0 spark2.0.0開始,只支援Java8版本了,

Spark叢集搭建

1.1下載spark安裝包 下載地址spark官網:http://spark.apache.org/downloads.html 這裡我們使用spark-2.0.2-bin-hadoop2.7版本.3.2規劃安裝目錄 /opt/bigdata 1.3解壓安

大資料十二 spark叢集搭建

Spark standalone 到官網下載 spark 的安裝包,這裡使用 spark-1.6.3,hadoop版本是 2.6.5 解壓,改名為 spark-1.6.3 進入 conf 目錄下,使用如下命令 cp slaves.templa

4.4 Hadoop叢集搭建

CentOS7下搭建hadoop2.7.3完全分散式 這裡搭建的是3個節點的完全分散式,即1個nameNode,2個dataNode,分別如下: CentOS-master nameNode 192.168.11.128 CentOS-node1 d

Spark叢集搭建+基於zookeeper的高可用HA

export JAVA_HOME=/usr/java/jdk1.8.0_20/ export SCALA_HOME=/home/iespark/hadoop_program_files/scala-2.10.6/ export HADOOP_HOME=/home/iespark/hadoop_program

Redis 4.0 叢集搭建完美方案及注意事項

一、部署Redis叢集環境準備1.準備6臺redis伺服器(預設配置)2.配置redis叢集1)在每臺redis伺服器做叢集配置然後重啟服務IP 規劃:redis 伺服器 ip 地址及埠規劃– redisA 192.168.4.51 6351    – redisB 192.

高可用spark叢集搭建

spark有多種模式:主要有以下幾種Standalone Deploy Mode: simplest way to deploy Spark on a private cluster Apache Mesos Hadoop YARN Kubernetes下面介紹在高可用(HA

Spark叢集搭建--節點DataNode網頁無顯示

按照網上教程搭建好Hadoop以及Spark集群后,最開始都可以正常顯示,但是有一臺節點後面系統重灌,再搭建過程出現問題,localhost:50070始終無法看到DataNode資訊,找了很多教程試了幾種方法沒有解決,Spark叢集的顯示是正常的 最後發現在

Spark叢集搭建與並驗證環境是否搭建成功(三臺機器)

在之前hadoop的基礎上,進行Spark分散式叢集: (1)下載Spark叢集需要的基本軟體,本篇需要的是:Scala-2.10.4、spark-1.4.0-bin-hadoop (2)安裝Spar

Spark 叢集搭建詳細步驟

1修改主機名和hosts [[email protected] ~] hostname master [[email protected] ~] vi /etc/hostname #將裡面內容改為: master  [[email protec