Spark standalone簡介與執行wordcount（master、slave1和slave2）

阿新 • • 發佈：2019-01-13

前期部落格

1. Standalone模式

即獨立模式，自帶完整的服務，可單獨部署到一個叢集中，無需依賴任何其他資源管理系統。從一定程度上說，該模式是其他兩種的基礎。借鑑Spark開發模式，我們可以得到一種開發新型計算框架的一般思路：先設計出它的standalone模式，為了快速開發，起初不需要考慮服務（比如master/slave）的容錯性，之後再開發相應的wrapper，將stanlone模式下的服務原封不動的部署到資源管理系統yarn或者mesos上，由資源管理系統負責服務本身的容錯。目前Spark在standalone模式下是沒有任何單點故障問題的，這是藉助zookeeper實現的，思想類似於Hbase master單點故障解決方案。將Spark standalone與MapReduce比較，會發現它們兩個在架構上是完全一致的：

　　1) 都是由master/slaves服務組成的，且起初master均存在單點故障，後來均通過zookeeper解決（Apache MRv1的JobTracker仍存在單點問題，但CDH版本得到了解決）；
　　2) 各個節點上的資源被抽象成粗粒度的slot，有多少slot就能同時執行多少task。不同的是，MapReduce將slot分為map slot和reduce slot，它們分別只能供Map Task和Reduce Task使用，而不能共享，這是MapReduce資源利率低效的原因之一，而Spark則更優化一些，它不區分slot型別，只有一種slot，可以供各種型別的Task使用，這種方式可以提高資源利用率，但是不夠靈活，不能為不同型別的Task定製slot資源

。總之，這兩種方式各有優缺點。

Spark Standalone部署配置---Standalone架構

Spark Standalone部署配置---手工啟動一個Spark叢集

http://spark.apache.org/docs/latest/spark-standalone.html#starting-a-cluster-manually

　　這裡，我帶大家，看官網

　　這裡，我不多說，自行去看吧！

Spark Standalone部署配置---訪問web ui

● 訪問http://master:8080/(預設埠是8080，埠大家可以自己修改)

Job提交與執行

Job提交與執行---執行示例程式

$SPARK_HOME/bin/spark-submit \
--master spark://master:7077 \
--class org.apache.spark.examples.SparkPi \
$SPARK_HOME/lib/spark-examples-1.6.1-hadoop2.6.0.jar

Spark Standalone HA

● Standby masters with Zookeeper

● Single-Node Recover with Local File System

http://spark.apache.org/docs/latest/spark-standalone.html#high-availability

但是，這裡需。關於zookeeper的安裝

　　我這裡不多說，請移步

export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60
export SCALA_HOME=/usr/local/scala/scala-2.10.5
export SPARK_MASTER_IP=master
export SPARK_WORKER_MERMORY=1G

spark.deploy.recoverMode=ZOOKEEPER
spark.deploy.zookeeper.url=master:2181,slave1:2181,slave2:2181
spark.deploy.zookeeper.dir=/my-spark

或者

export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60
export SCALA_HOME=/usr/local/scala/scala-2.10.5
export SPARK_MASTER_IP=master
export SPARK_WORKER_MERMORY=1G


SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,slave1:2181,slave2:2181 -Dspark.deploy.zookeeper.dir=/my-spark"

Spark Standalone執行架構解析

Spark Standalone執行架構解析---Spark基本工作流程

　　以SparkContext為程式執行的總入口，在SparkContext的初始化過程中，Spark會分別建立DAGScheduler作業排程和TaskScheduler任務排程兩級排程模組。

　　其中作業排程模組是基於任務階段的高層排程模組，它為每個Spark作業計算具有依賴關係的多個排程階段（通常根據shuffle來劃分），然後為每個階段構建出一組具體的任務（通常會考慮資料的本地性等），然後以TaskSets（任務組）的形式提交給任務排程模組來具體執行。而任務排程模組則負責具體啟動任務、監控和彙報任務執行情況。

Spark Standalone執行架構解析---Spark local模式

　　Local，本地模式，預設情況是本地模式執行，如執行的spark-shell，開發測試環境，執行任務命令:

$SPARK_HOME/bin/run-example org.apache.spark.examples.SparkPi local

　　LocalBackend響應Scheduler的receiveOffers請求，根據可用的CPU核的設定值[N]直接生成CPU資源返回給Scheduler，並通過Executor類線上程池中依次啟動和執行Scheduler返回的任務列表，其核心事件迴圈由內部類LocalActor以Akka Actor的訊息處理形式來實現。

Spark Standalone執行架構解析---Spark local cluster模式

偽分散式模式啟動兩個Worker，每個Worker管理兩個CPU核和1024MB的記憶體

$SPARK_HOME/bin/run-example org.apache.spark.examples.SparkPi local[2,2,1024]

Spark Standalone執行架構解析---Spark standalone模式

Spark Standalone執行架構解析---Spark standalone詳細過程解析

Spark Standalone 下執行wordcount

　　具體，請移步

● wordcount程式碼

● mvn 專案打包上傳至Spark叢集。

● Spark 叢集提交作業

[[email protected] hadoop-2.6.0]$ $HADOOP_HOME/bin/hadoop fs -mkdir -p hdfs://master:9000/testspark/inputData/wordcount

[[email protected] ~]$ mkdir -p /home/spark/testspark/inputData/wordcount
[[email protected] hadoop-2.6.0]$ $HADOOP_HOME/bin/hadoop fs -copyFromLocal /home/spark/testspark/inputData/wordcount/wc.txt  hdfs://master:9000/testspark/inputData/wordcount/

$SPARK_HOME/bin/spark-submit \
 --master spark://master:7077 \
 --class zhouls.bigdata.MyScalaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/MyScalaWordCount

或者

$SPARK_HOME/bin/spark-submit \
--master spark://master:7077  \
--class zhouls.bigdata.MyJavaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/MyJavaWordCount

　　具體，請移步

Spark Standalone HA下執行wordcount （這裡我不演示了）

　　具體，請移步

● wordcount程式碼

● mvn 專案打包上傳至Spark叢集。

● Spark 叢集提交作業

$SPARK_HOME/bin/spark-submit \
--master spark://master1:7077,master2:7077 \

--class zhouls.bigdata.MyScalaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/MyScalaWordCount

　需要你搞兩個master。比如。我這裡。

或者

[[email protected] spark-1.6.1-bin-hadoop2.6]$ bin/spark-submit \
--master spark://master1:7077,master2:7077  \

--class zhouls.bigdata.MyJavaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/MyJavaWordCount

Spark standalone簡介與執行wordcount（master、slave1和slave2）

Job提交與執行

Spark Standalone HA

Spark Standalone執行架構解析

Spark Standalone HA下執行wordcount （這裡我不演示了）

Spark standalone簡介與執行wordcount（master、slave1和slave2）

Spark on YARN簡介與執行wordcount（master、slave1和slave2）（博主推薦）

Spark standalone模式的安裝（spark-1.6.1-bin-hadoop2.6.tgz）（master、slave1和slave2）

Spark on YARN模式的安裝（spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz）（master、slave1和slave2）（博主推薦）

ElasticSearch 簡介與外掛安裝（logstash、kibana）

ccflow表結構與執行機制（二次開發必看）

Oracle學習筆記—oracle體系架構及狀態（nomount、mount和open）簡介

Linux檢視系統與核心資訊（uname、file和lsb_release -a）

ubuntu18.04 搭建hadoop完全分散式叢集（Master、slave1、slave2）共三個節點

android影象與影象處理系列（一、Bitmap和BitmapFactory）

深度學習綜述（LeCun、Bengio和Hinton）

修改this指向（bind、call 和 apply）

zookeeper（四）：核心原理（Watcher、事件和狀態）

第一篇隨記:學習WAMP中最基礎的JDBC連線操作記錄（ Statement、PreparedStatement和CallableStatement）

廖雪峰 JavaScript 學習筆記（字串、陣列和物件）

關於阿里訊息佇列RocketMQ（安裝、使用和坑），你需要知道的事情

《Java8實戰》-第八章筆記（重構、測試和除錯）

JavaScript基礎回顧一（型別、值和變數）

非同步DCDC的工作模式（CCM、DCM和BCM）

JavaScript陣列的操作方法（concat、slice和splice）

Spark standalone簡介與執行wordcount（master、slave1和slave2）

Job提交與執行

Spark Standalone HA

Spark Standalone執行架構解析

Spark Standalone HA下執行wordcount （這裡我不演示了）

相關推薦