Spark 系列（五）—— Spark 執行模式與作業提交

一、作業提交

1.1 spark-submit

Spark 所有模式均使用 spark-submit 命令提交作業，其格式如下：

./bin/spark-submit \
  --class <main-class> \        # 應用程式主入口類
  --master <master-url> \       # 叢集的 Master Url
  --deploy-mode <deploy-mode> \ # 部署模式
  --conf <key>=<value> \        # 可選配置       
  ... # other options    
  <application-jar> \           # Jar 包路徑 
  [application-arguments]       #傳遞給主入口類的引數

需要注意的是：在叢集環境下，application-jar 必須能被叢集中所有節點都能訪問，可以是 HDFS 上的路徑；也可以是本地檔案系統路徑，如果是本地檔案系統路徑，則要求叢集中每一個機器節點上的相同路徑都存在該 Jar 包。

1.2 deploy-mode

deploy-mode 有 cluster 和 client 兩個可選引數，預設為 client。這裡以 Spark On Yarn 模式對兩者進行說明：

在 cluster 模式下，Spark Drvier 在應用程式的 Master 程序內執行，該程序由群集上的 YARN 管理，提交作業的客戶端可以在啟動應用程式後關閉；
在 client 模式下，Spark Drvier 在提交作業的客戶端程序中執行，Master 程序僅用於從 YARN 請求資源。

1.3 master-url

master-url 的所有可選引數如下表所示：

Master URL	Meaning
`local`	使用一個執行緒本地執行 Spark
`local[K]`	使用 K 個 worker 執行緒本地執行 Spark
`local[K,F]`	使用 K 個 worker 執行緒本地執行 , 第二個引數為 Task 的失敗重試次數
`local[*]`	使用與 CPU 核心數一樣的執行緒數在本地執行 Spark
`local[*,F]`	使用與 CPU 核心數一樣的執行緒數在本地執行 Spark 第二個引數為 Task 的失敗重試次數
`spark://HOST:PORT`	連線至指定的 standalone 叢集的 master 節點。埠號預設是 7077。
`spark://HOST1:PORT1,HOST2:PORT2`	如果 standalone 叢集採用 Zookeeper 實現高可用，則必須包含由 zookeeper 設定的所有 master 主機地址。
`mesos://HOST:PORT`	連線至給定的 Mesos 叢集。埠預設是 5050。對於使用了 ZooKeeper 的 Mesos cluster 來說，使用 `mesos://zk://...` 來指定地址，使用 `--deploy-mode cluster` 模式來提交。
`yarn`	連線至一個 YARN 叢集，叢集由配置的 `HADOOP_CONF_DIR` 或者 `YARN_CONF_DIR` 來決定。使用 `--deploy-mode` 引數來配置 `client` 或 `cluster` 模式。

下面主要介紹三種常用部署模式及對應的作業提交方式。

二、Local模式

Local 模式下提交作業最為簡單，不需要進行任何配置，提交命令如下：

# 本地模式提交應用
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
/usr/app/spark-2.4.0-bin-hadoop2.6/examples/jars/spark-examples_2.11-2.4.0.jar \
100   # 傳給 SparkPi 的引數

spark-examples_2.11-2.4.0.jar 是 Spark 提供的測試用例包，SparkPi 用於計算 Pi 值，執行結果如下：

三、Standalone模式

Standalone 是 Spark 提供的一種內建的叢集模式，採用內建的資源管理器進行管理。下面按照如圖所示演示 1 個 Mater 和 2 個 Worker 節點的叢集配置，這裡使用兩臺主機進行演示：

hadoop001：由於只有兩臺主機，所以 hadoop001 既是 Master 節點，也是 Worker 節點;
hadoop002 ： Worker 節點。

3.1 環境配置

首先需要保證 Spark 已經解壓在兩臺主機的相同路徑上。然後進入 hadoop001 的 ${SPARK_HOME}/conf/ 目錄下，拷貝配置樣本並進行相關配置：

# cp spark-env.sh.template spark-env.sh

在 spark-env.sh 中配置 JDK 的目錄，完成後將該配置使用 scp 命令分發到 hadoop002 上：

# JDK安裝位置
JAVA_HOME=/usr/java/jdk1.8.0_201

3.2 叢集配置

在 ${SPARK_HOME}/conf/ 目錄下，拷貝叢集配置樣本並進行相關配置：

# cp slaves.template slaves

指定所有 Worker 節點的主機名：

# A Spark Worker will be started on each of the machines listed below.
hadoop001
hadoop002

這裡需要注意以下三點：

主機名與 IP 地址的對映必須在 /etc/hosts 檔案中已經配置，否則就直接使用 IP 地址；
每個主機名必須獨佔一行；
Spark 的 Master 主機是通過 SSH 訪問所有的 Worker 節點，所以需要預先配置免密登入。

3.3 啟動

使用 start-all.sh 代表啟動 Master 和所有 Worker 服務。

./sbin/start-master.sh

訪問 8080 埠，檢視 Spark 的 Web-UI 介面,，此時應該顯示有兩個有效的工作節點：

3.4 提交作業

# 以client模式提交到standalone叢集 
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop001:7077 \
--executor-memory 2G \
--total-executor-cores 10 \
/usr/app/spark-2.4.0-bin-hadoop2.6/examples/jars/spark-examples_2.11-2.4.0.jar \
100

# 以cluster模式提交到standalone叢集 
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--deploy-mode cluster \
--supervise \  # 配置此引數代表開啟監督，如果主應用程式異常退出，則自動重啟 Driver
--executor-memory 2G \
--total-executor-cores 10 \
/usr/app/spark-2.4.0-bin-hadoop2.6/examples/jars/spark-examples_2.11-2.4.0.jar \
100

3.5 可選配置

在虛擬機器上提交作業時經常出現一個的問題是作業無法申請到足夠的資源：

Initial job has not accepted any resources; 
check your cluster UI to ensure that workers are registered and have sufficient resources

這時候可以檢視 Web UI，我這裡是記憶體空間不足：提交命令中要求作業的 executor-memory 是 2G，但是實際的工作節點的 Memory 只有 1G，這時候你可以修改 --executor-memory，也可以修改 Woker 的 Memory，其預設值為主機所有可用記憶體值減去 1G。

關於 Master 和 Woker 節點的所有可選配置如下，可以在 spark-env.sh 中進行對應的配置：

Environment Variable（環境變數）	Meaning（含義）
`SPARK_MASTER_HOST`	master 節點地址
`SPARK_MASTER_PORT`	master 節點地址埠（預設：7077）
`SPARK_MASTER_WEBUI_PORT`	master 的 web UI 的埠（預設：8080）
`SPARK_MASTER_OPTS`	僅用於 master 的配置屬性，格式是 "-Dx=y"（預設：none）,所有屬性可以參考官方文件：spark-standalone-mode
`SPARK_LOCAL_DIRS`	spark 的臨時儲存的目錄，用於暫存 map 的輸出和持久化儲存 RDDs。多個目錄用逗號分隔
`SPARK_WORKER_CORES`	spark worker 節點可以使用 CPU Cores 的數量。（預設：全部可用）
`SPARK_WORKER_MEMORY`	spark worker 節點可以使用的記憶體數量（預設：全部的記憶體減去 1GB）；
`SPARK_WORKER_PORT`	spark worker 節點的埠（預設： random（隨機））
`SPARK_WORKER_WEBUI_PORT`	worker 的 web UI 的 Port（埠）（預設：8081）
`SPARK_WORKER_DIR`	worker 執行應用程式的目錄，這個目錄中包含日誌和暫存空間（default：SPARK_HOME/work）
`SPARK_WORKER_OPTS`	僅用於 worker 的配置屬性，格式是 "-Dx=y"（預設：none）。所有屬性可以參考官方文件：spark-standalone-mode
`SPARK_DAEMON_MEMORY`	分配給 spark master 和 worker 守護程序的記憶體。（預設： 1G）
`SPARK_DAEMON_JAVA_OPTS`	spark master 和 worker 守護程序的 JVM 選項，格式是 "-Dx=y"（預設：none）
`SPARK_PUBLIC_DNS`	spark master 和 worker 的公開 DNS 名稱。（預設：none）

三、Spark on Yarn模式

Spark 支援將作業提交到 Yarn 上執行，此時不需要啟動 Master 節點，也不需要啟動 Worker 節點。

3.1 配置

在 spark-env.sh 中配置 hadoop 的配置目錄的位置，可以使用 YARN_CONF_DIR 或 HADOOP_CONF_DIR 進行指定：

YARN_CONF_DIR=/usr/app/hadoop-2.6.0-cdh5.15.2/etc/hadoop
# JDK安裝位置
JAVA_HOME=/usr/java/jdk1.8.0_201

3.2 啟動

必須要保證 Hadoop 已經啟動，這裡包括 YARN 和 HDFS 都需要啟動，因為在計算過程中 Spark 會使用 HDFS 儲存臨時檔案，如果 HDFS 沒有啟動，則會丟擲異常。

# start-yarn.sh
# start-dfs.sh

3.3 提交應用

#  以client模式提交到yarn叢集 
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--executor-memory 2G \
--num-executors 10 \
/usr/app/spark-2.4.0-bin-hadoop2.6/examples/jars/spark-examples_2.11-2.4.0.jar \
100

#  以cluster模式提交到yarn叢集 
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--executor-memory 2G \
--num-executors 10 \
/usr/app/spark-2.4.0-bin-hadoop2.6/examples/jars/spark-examples_2.11-2.4.0.jar \
100

更多大資料系列文章可以參見 GitHub 開源專案：大資料入門指南

相關推薦

Spark 系列（五）—— Spark 執行模式與作業提交

一、作業提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作業，其格式如下： ./bin/spark-submit \ --class <main-class> \ # 應用程式主入口類 --master <maste

Java 設計模式系列（五）單例模式

重要理解 iat 版本 ide 默認 ces 內部實現成功 Java 設計模式系列（五）單例模式單例模式確保某個類只有一個實例，而且自行實例化並向整個系統提供這個實例。一、懶漢式單例 /** * 懶漢式單例類.在第一次調用的時候實例化自己 * 1. 構造器私

Spark介紹（五）Spark MLlib

一、Spark MLlib簡介 MLlib(Machine Learnig lib) 是Spark對常用的機器學習演算法的實現庫，同時包括相關的測試和資料生成器 MLlib支援本地的密集向量和稀疏向量，並且支援標量向量（LabledPoint ）。 MLlib同時支援本地

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

## 一、Spark SQL簡介 Spark SQL 是 Spark 中的一個子模組，主要用於操作結構化資料。它具有以下特點： + 能夠將 SQL 查詢與 Spark 程式無縫混合，允許您使用 SQL 或 DataFrame API 對結構化資料進行查詢； + 支援多種開發語言； + 支援

Spark 系列（九）—— Spark SQL 之 Structured API

一、建立DataFrame和Dataset 1.1 建立DataFrame Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 建立。建立後應用程式就可以從現有 RDD，Hive 表或 Spark 資料來源建立 DataFrame。示例如下： v

Spark 系列（十）—— Spark SQL 外部資料來源

一、簡介 1.1 多資料來源支援 Spark 支援以下六個核心資料來源，同時 Spark 社群還提供了多達上百種資料來源的讀取方式，能夠滿足絕大部分使用場景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注：以下所有測試檔案均可

C語言系列（五）記憶體的分配與釋放

首先我們來科普一下：什麼是堆？說到堆，又忍不住說到了棧！什麼是棧？ 1、什麼是堆：堆是大家共有的空間，分全域性堆和區域性堆。全域性堆就是所有沒有分配的空間，區域性堆就是使用者分配的空間。堆在作業系統對程序初始化的時候分配，執行過程中也可以向系統

JDK併發包溫故知新系列（五）—— 顯式鎖與顯式條件

ReentrantReadWriteLock 兩把鎖共享一個等待佇列，兩把鎖的狀態都由一個原子變量表示，特有的獲取鎖和釋放鎖邏輯。 ReentrantReadWriteLock的基本原理：讀鎖的獲取,只要求寫鎖沒有被執行緒持有就可以獲取，檢查等待佇列，逐個喚醒等待讀鎖執行緒，遇到等待寫鎖執行緒則停止.

Spark學習（五）---RDD原理解析和spark執行架構

這次我們介紹RDD的原理和spark執行機制 RDD依賴關係 RDD快取 RDD容錯機制 spark執行架構 spark任務排程 1. RDD原理首先我們對之前的單詞統計的程式碼做一個畫圖展示 1.1 RDD依賴關係 RDD和它依賴的父RDD的關係有兩

ZYNQ基礎系列（五） AMP模式雙裸核CPU同時執行

AMP模式雙核CPU同時執行從軟體的角度來看，多核處理器的執行模式有三種： AMP（非對稱多程序）：多個核心相對獨立的執行不同的任務，每個核心可能執行不同的作業系統或裸機程式，但是有一個主要核心，用來控制整個系統以及其它從核心 SMP（對稱多程序）

大資料之Spark（五）--- Spark的SQL模組，Spark的JDBC實現，SparkSQL整合MySQL，SparkSQL整合Hive和Beeline

一、Spqrk的SQL模組 ---------------------------------------------------------- 1.該模組能在Spack上執行Sql語句 2.可以處理廣泛的資料來源 3.DataFrame --- RDD --- tabl

併發系列（五）-----執行緒

一簡介執行緒這個話題，不管是在面試中還是在工作中會經常的遇見。而併發程式設計的目的就是為了在儘量不影響程式的執行效率的情況下保證資料的安全性和正確性。要想理解執行緒首先要明白一些概念性的東西。程序：具有一定獨立功能的程式關於某個資料集合上的一次執行活動,程序是系統進行資源分配和排程的一個獨立單位. 執

Spark採坑系列（三）Spark操作Hive的坑

跟著教學試著用Idea程式設計，實現Spark查詢Hive中的表。結果上來就涼了。搗鼓好久都不行，在網上查有說將hive-site.xml放到resource目錄就行，還有什麼hadoop針對windows使用者的許可權問題，結果都是扯淡。其實問題還是處在程式碼上，直接附上程式碼了

Spark原始碼系列（九）Spark SQL初體驗之解析過程詳解

首先宣告一下這個版本的程式碼是1.1的，之前講的都是1.0的。 Spark支援兩種模式，一種是在spark裡面直接寫sql，可以通過sql來查詢物件，類似.net的LINQ一樣，另外一種支援hive的HQL。不管是哪種方式，下面提到的步驟都會有，不同的是具體的執行過程。下面

Docker在Linux上執行NetCore系列（五）更新應用程式 Docker在Linux/Windows上執行NetCore文章系列

轉發請註明此文章作者與路徑，請尊重原著，違者必究。本篇文章與其它系列文章不同，為了方便測試，新建了一個ASP.Net Core檢視應用。備註：下面

大資料乾貨系列（六）--Spark總結

Spark總結一、本質 Spark是一個分散式的計算框架，是下一代的MapReduce，擴充套件了MR的資料處理流程二、mapreduce有什麼問題1.排程慢，啟動map、reduce太耗時2.計算慢，每一步都要儲存中間結果落磁碟3.API抽象簡單，只有map和reduce兩

Spark (Python版) 零基礎學習筆記（五）—— Spark RDDs程式設計

RDD基礎概念建立RDD 建立RDD的方法： 1.載入外部資料集 2.分佈一個物件的集合前邊幾次的筆記已經提到過多次了，因此，這裡只列出幾個注意事項： 1.利用sc.parallelize建立RDD一般只適用於在測試的時候使用，因為這需要我們將整

TensorFlow學習系列（五）：如何使用佇列和多執行緒優化輸入管道

這篇教程是翻譯Morgan寫的TensorFlow教程，作者已經授權翻譯，這是原文。目錄 TensorFlow 1.0版本已經出來了，隨著這次更新，一些不錯的指導建議出現在官網上面。其中一個我比較關心的是 f

sencha touch 入門系列（五）sencha touch執行及程式碼解析（上）

　　由於最近專案比較忙，加之還要轉戰原生開發，所以很久沒更新了，今天我們接著上一次的內容往下講：　　首先我們開啟index.html，這是我們整個程式的訪問入口，也是整個專案的引入地： <!DOCTYPE HTML> <html manifest="

Spark 系列（三）—— 彈性式資料集RDDs

一、RDD簡介 RDD 全稱為 Resilient Distributed Datasets，是 Spark 最基本的資料抽象，它是隻讀的、分割槽記錄的集合，支援並行操作，可以由外部資料集或其他 RDD 轉換而來，它具有以下特性：一個 RDD 由一個或者多個分割槽（Partitions）組成。對於 RDD