10.4 spark叢集搭建-standalone模式

阿新 • • 發佈：2019-02-13

Spark standalone叢集搭建：

1、上傳解壓 tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz

2、修改安裝包的名稱（最好保留版本號）mv spark-1.6.0-bin-hadoop2.6 spark-1.6.0

3、進入conf目錄，修改slaves和Spark-env.sh

slaves（Worker程序所在的節點）：

node2

node3

node4

spark-env.sh

export SPARK_MASTER_IP=hadoop1 Matser的IP

export SPARK_MASTER_PORT=7077 提交任務的埠

export SPARK_WORKER_CORES=2 每個Worker程序管理2個core

export SPARK_WORKER_MEMORY=2G 每個Worker程序管理2G記憶體

export SPARK_WORKER_INSTANCES=1 在每個虛擬機器或者真實的物理機上啟動的Worker的數量 defult 1

4、將安裝包同步到其他的節點上 scp -r spark-1.6.0 [email protected]:/opt/local/

5、如果想要修改master的監控埠在start-master.sh 腳本里面修改不修改預設8080

6,啟動sbin目錄下./start-all.sh

測試：bin目錄下

./spark-submit --master spark://node1:7077 --deploy-mode cluster --

total-executor-cores 3 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000

./spark-submit --master spark://node1:7077 --deploy-mode cluster 提交模式(defult:client,cluster)

--total-executor-cores 3(小於叢集core的總數) 叢集為當前的application奉獻了3個core

--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000(併發度使用1000個執行緒來計算)

Spark standalone模式

Master：資源管理的主節點，掌握叢集的資源情況

實際上就是一個程序

Worker：只是管理某一臺機器或者管理某一部分資源 2G記憶體和2個core

也是一個程序，Worker會管理他所在機器的資源

Driver：與任務排程有關

Spark 在Standalone上執行分為兩種模式

node1 master 也是提交應用程式的客戶端

node2 worker

node3 worker

node4 worker

1、client 測試程式

Driver程序是在客戶端啟動的

Driver（SparkContext物件）的作用：

分發任務

回收task的計算結果

回收task的執行情況

心跳

可以在提交應用程式的客戶端上監控task的執行情況

適應場景：

測試生產環境下為什麼不使用client模式？

如果我要提交100個application到叢集執行，Driver每次都會在client節點啟動，那麼就會操作客戶端100次網絡卡流量暴增的問題

2、cluster 適合在生產環境

Driver程序是在叢集某一臺Worker上啟動的

是無法檢視task的執行情況的

如果我要提交100個application到叢集執行，每次Driver會隨機在某一臺Worker上啟動，那麼這100次網絡卡流量暴增的問題就散佈在叢集上的

10.4 spark叢集搭建-standalone模式

Spark standalone叢集搭建： 1、上傳解壓 tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz 2、修改安裝包的名稱（最好保留版本號）mv spark-1.6.0-bin-hadoop2.6 spark-1.6.0 3、進入co

zookeeper3.4.5+tomcat7+solr-4.10.1分散式叢集搭建

一、說明本次分散式部署solr是在兩臺伺服器（10.21.16.31和10.21.16.34）上部署5個結點，10.21.16.31伺服器部署3個結點，10.21.16.34伺服器部署2個結點二、下載需要的工具包 zookeeper-3.4.5.tar.g

Spark學習（二）之叢集搭建(standalone、HA-standalone、 spark on yarn)

Spark standalone (一) 安裝過程 1、上傳並解壓縮 tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/ 2、進入spark/conf修改配置檔案 cp slaves.template slav

VirtualBox 虛擬機器配置centos6.4 spark叢集（1）--- 環境搭建以及所遇問題

一、前言最近學習spark，就把一些經歷在這裡總結總結。二、所需軟體 VirtualBox 5.1.22 作業系統：centos6.4 CentOS-6.4-x86_64-minimal.iso 一共需要3

Kafka2.10安裝和叢集搭建

1.安裝前準備 jdk1.8.0_171 kafka_2.10-0.10.0.0.tgz 將壓縮包解壓至kafka使用者目錄. 2.配置檔案 config/server.properties #修改一下幾項,其他不動 #唯一標識，叢集內各個broker.id不能重複 broker.i

Elasticsearch-5.4.0叢集搭建

1、Elasticsearch-5.4.0 安裝包下載地址：https://www.elastic.co/downloads/past-releases/elasticsearch-5-4-0 2、解壓檔案：tar -zxvf /home/elasticsearch-5.4.0.tar.gz -

VirtualBox下 Centos6.10+Hadoop2.6叢集搭建 Windows客戶端搭建

1 Centos下載安裝 Centos映象下載地址https://www.centos.org/download/ 我選擇的是DVD版本在VitrualBox裡面新建一個虛擬機器硬碟給了10G，其他屬性預設，開機，選擇啟動盤，把下載好的映象放入，開始安裝趁

hadoop及spark叢集搭建後續

問題1：檢視 jps，裡面只有HQuorumPeer，沒有 HRegionServer 檢視logs，master rejected startup because clock is out of sync 原因：幾臺機器時間對不上解決方法：將有問題機器的時間校正 date -s

Hadoop及spark叢集搭建踩過的坑

本叢集總共有三臺主機，一臺master，兩臺slave Hadoop有一個節點無法啟動在按照教程子雨大資料之Spark入門教程(Python版)搭建Hadoop叢集時，執行jps命令，發現master和其中一個slave能正常工作，執行./bin/yarn node -lis

大資料：spark叢集搭建

建立spark使用者組，組ID1000 groupadd -g 1000 spark 在spark使用者組下建立使用者ID 2000的spark使用者獲取視訊中文件資料及完整視訊的夥伴請加QQ群：947967114useradd -u 2000 -g spark spark 設定密碼 passwd

Spark學習記錄（二）Spark叢集搭建

Hadoop Spark叢集搭建，以及IDEA遠端除錯環境：Hadoop-2.7.2 jdk-1.8 scala-2-11-12 spark-2.1.0 spark2.0.0開始，只支援Java8版本了，

Spark叢集搭建

1.1下載spark安裝包下載地址spark官網：http://spark.apache.org/downloads.html 這裡我們使用spark-2.0.2-bin-hadoop2.7版本.3.2規劃安裝目錄 /opt/bigdata 1.3解壓安

大資料十二 spark叢集搭建

Spark standalone 到官網下載 spark 的安裝包，這裡使用 spark-1.6.3，hadoop版本是 2.6.5 解壓，改名為 spark-1.6.3 進入 conf 目錄下，使用如下命令 cp slaves.templa

4.4 Hadoop叢集搭建

CentOS7下搭建hadoop2.7.3完全分散式這裡搭建的是3個節點的完全分散式，即1個nameNode，2個dataNode，分別如下： CentOS-master nameNode 192.168.11.128 CentOS-node1 d

Spark叢集搭建+基於zookeeper的高可用HA

export JAVA_HOME=/usr/java/jdk1.8.0_20/ export SCALA_HOME=/home/iespark/hadoop_program_files/scala-2.10.6/ export HADOOP_HOME=/home/iespark/hadoop_program

Redis 4.0 叢集搭建完美方案及注意事項

一、部署Redis叢集環境準備1.準備6臺redis伺服器（預設配置）2.配置redis叢集1)在每臺redis伺服器做叢集配置然後重啟服務IP 規劃：redis 伺服器 ip 地址及埠規劃– redisA 192.168.4.51 6351 – redisB 192.

高可用spark叢集搭建

spark有多種模式：主要有以下幾種Standalone Deploy Mode: simplest way to deploy Spark on a private cluster Apache Mesos Hadoop YARN Kubernetes下面介紹在高可用（HA

Spark叢集搭建--節點DataNode網頁無顯示

按照網上教程搭建好Hadoop以及Spark集群后，最開始都可以正常顯示，但是有一臺節點後面系統重灌，再搭建過程出現問題，localhost:50070始終無法看到DataNode資訊，找了很多教程試了幾種方法沒有解決，Spark叢集的顯示是正常的最後發現在

Spark叢集搭建與並驗證環境是否搭建成功(三臺機器)

在之前hadoop的基礎上，進行Spark分散式叢集： (1)下載Spark叢集需要的基本軟體，本篇需要的是：Scala-2.10.4、spark-1.4.0-bin-hadoop (2)安裝Spar

Spark 叢集搭建詳細步驟

1修改主機名和hosts [[email protected] ~] hostname master [[email protected] ~] vi /etc/hostname #將裡面內容改為: master [[email protec

10.4 spark叢集搭建-standalone模式

相關推薦