Spark面試：Spark on yarn 執行流程

阿新 • • 發佈：2018-12-25

一：
Spark on YARN能讓Spark計算模型在雲梯YARN叢集上執行，直接讀取雲梯上的資料，並充分享受雲梯YARN叢集豐富的計算資源。
二：
基於YARN的Spark作業首先由客戶端生成作業資訊，提交給ResourceManager，
ResourceManager在某一 NodeManager彙報時把AppMaster分配給NodeManager，
NodeManager啟動 SparkAppMaster，SparkAppMaster啟動後初始化作業，
向ResourceManager申請資源，申請到相應資源後 SparkAppMaster通過RPC讓NodeManager啟動相應的SparkExecutor，
SparkExecutor向 SparkAppMaster彙報並完成相應的任務
SparkClient會通過AppMaster獲取作業執行狀態。
三：
driver 執行在叢集中（cluster模式）
1、client 向 yarn 提交一個job
2、ResouceManager 為該job在某個 NodeManager 上分配一個 ApplicationMaster，NM啟動AppMaster，Appmaster 啟動 driver
3、ApplicationMaster 啟動後完成初始化作業，driver 生成一系列task
4、AM 向 RM 申請資源，RM 返回 Executo r資訊
5、AM 通過 rpc 啟動相應的 sparkExecutor
6、Driver 向 Executor 分配 task
7、Executor 執行結果寫入檔案或返回 driver 端

在這裡插入圖片描述

四：
driver執行在client端
1、客戶端啟動後直接執行應用程式，直接啟動 driver
2、driver 初始化並生成一系列 task
3、客戶端將 job 釋出到 yarn 上
4、RM 為該job 在某個 NM 分配一個 AM
5、AM 向 RM 申請資源，RM 返回Executor 資訊
6、AM 通過 RPC 啟動相應的 SparkExecutor
7、Driver 向 Executor 分配 task
8、Executor 執行task 並將結果寫入第三方儲存系統或者 Driver 端

在這裡插入圖片描述

五：對比總圖

在這裡插入圖片描述

Spark面試：Spark on yarn 執行流程

Spark面試：Spark on yarn 執行流程

spark on yarn執行產生缺jar包錯誤及解決辦法

spark on yarn執行產生jar包衝突問題

spark部分：spark的四種執行模式，Spark 比 MapReduce 快的原因，spark執行程式流程，spark運算元種類，spark持久化運算元，cache 和 persist，調節引數的方式

Spark 1.5.2 on yarn升級問題總結

Carbondata 1.4.0+Spark 2.2.1 On Yarn整合安裝

本地Spark程式提交到hadoop叢集執行流程

Yarn執行流程

步步深入MySQL：架構->查詢執行流程->SQL解析順序！

MapReduce On yarn執行過程詳解

Spark -14：spark Hadoop 高可用模式下讀寫hdfs

Hadoop on yarn執行過程

Spark部分：Spark中取交集（intersection ）和取差集（subtract ）【Java版純程式碼】

MapReduce on Yarn執行原理

spark on yarn作業執行流程

spark on yarn圖形化任務監控利器：History-server幫你理解spark的任務執行過程

Spark on Yarn解密及執行流程

Spark -6：執行Spark on YARN

Mark ：Hive使用Spark on Yarn作為執行引擎

Spark的分散式執行模式 Local，Standalone, Spark on Mesos, Spark on Yarn, Kubernetes

Spark面試：Spark on yarn 執行流程

相關推薦