Spark2.3.2原始碼解析：9.排程系統 DAGScheduler 之 Stage 劃分原始碼詳解

阿新 • • 發佈：2019-01-10

Stage劃分的時候，大家應該都知道是從最後一個stage向根據寬窄依賴，遞迴進行stage劃分。

但是程式碼裡面涉及的邏輯複雜。畢竟涉及到相互遞迴呼叫。讓人似懂非懂。反正我是炸毛了 o(╥﹏╥)o

本文專門用一篇文章詳細論述DAGScheduler 的 stage 劃分流程

為了更容易理解，本文采用 debug模式+例項+原始碼的方式進行講解

首先寫一個WordCount程式碼（這個程式碼，為了觀察多個suffle操作，我寫了兩個reducebykey 函式）

原始碼：

直接執行程式碼，檢視spark執行程式時，將程式碼劃分stage生成的DAG流程圖

可知： WordCount 在stage劃分的時候，劃分為三個stage

即在程式碼中如下標識：

首先，我們明確一個概念RDD

我們知道RDD有兩個重要屬性 id ， name

為了在後面除錯的時候，清除的理解rdd之間的呼叫，需要對其做編號，本文以rdd的id進行區分

宣告的rdd的屬性我舉幾個例子：

zrdd1 ：

型別： MapPartitionsRDD

id : 1

name : /tmp/zl/data/data.txt （注：只有zrdd1的name有值，為資料路徑，其他的rddname值都是“null ” ）

zrdd4：

型別： ShuffledRDD

id : 4

name : null

直接說結果：

屬性	RDD Id （重要，區分標識）	RDD型別
zrdd1	1	MapPartitionsRDD
zrdd2	2	MapPartitionsRDD
zrdd3	3	MapPartitionsRDD
zrdd4	4	ShuffledRDD
zrdd5	5	MapPartitionsRDD
zrdd6	6	ShuffledRDD
zrdd7	7	MapPartitionsRDD

程式入口的觸發點即為： zrdd7.count（）方法。實際執行的是runjob方法。開啟程式執行入口。

程式依賴關係如下圖：

接下來我們看原始碼解析程式碼檢視stage是如何劃分的：

即如下程式碼排程流程圖中標識的部分。

以為之前的文章有說明，所以不再詳細解釋。有興趣的小夥伴可以直接看

https://blog.csdn.net/zhanglong_4444/article/details/85111604

好了，我們開始正式說程式碼：

org.apache.spark.scheduler.DAGScheduler#createResultStage

這個方法裡面最重要的是getOrCreateParentStages 方法，從這就容易開始亂了。

別慌，我先給畫個呼叫圖，先搞清楚邏輯，再用debug跟一便就好了。

從圖上可知，最外層迴圈的主體為： getOrCreateParentStages

記住這個啊。這個才是真正的迴圈呼叫建立stage的方法，不要被getShuffleDependencies這個方法所迷惑

getShuffleDependencies 這個方法只是根據一個rdd返回這個rdd所在的寬依賴 ShuffleDependency

好了，先看一下類中的程式碼，然後我在畫個圖，講解

getOrCreateParentStages：

根據給定的RDD獲取或者建立父stages列表 ，新的stage會根據提供的firstJobId進行建立

這個方法很重要，遞迴呼叫的就是這個方法：

getShuffleDependencies

根據給定的RDD獲取或者建立父stages列表

返回值結構： ShuffleDependency 是一個寬依賴

getOrCreateShuffleMapStage （這個方法注意看一下）

getMissingAncestorShuffleDependencies

這裡面有一個遞迴方法 getShuffleDependencies 獲取shuffle依賴（快取過的即為處理過的，不做任何處理）

ArrayStack 棧是一種後進先出(LIFO)的資料結構。

所以在迴圈的時候，最先取出的值，是最後放進的值。

createShuffleMapStage

根據所給的 ShuffleDependency 建立 ShuffleMapStage

這個裡面尤其要注意一點：

val parents = getOrCreateParentStages(rdd, jobId)

好了，接下來，我們畫個圖理解一下。

其實也不用畫圖。

主要是：

val deps =  getMissingAncestorShuffleDependencies(shuffleDep.rdd)

這句，直接會吧所有寬依賴的都會找出來，然後提交。

返回的資料結構是 ArrayStack 這個資料結構是棧是一種後進先出(LIFO)的資料結構

用遞迴的的方式拿到stage ，然後再取出

因為儲存的時候，是棧儲存，所以提交的時候是stage0，帶入上面的方法：

val parents = getOrCreateParentStages(rdd, jobId)

stage0沒有parents，所以返回值，為空。然後將stage0加入快取。如下程式碼

stageIdToStage(id) = stage
shuffleIdToMapStage(shuffleDep.shuffleId) = stage

當在傳入stage1的時候，獲取父的依賴，也就是stage0，這個在上一次呼叫的時候，已經處理過了

已經獲取到了，所以在呼叫getOrCreateParentStages方法的時候，可以直接從快取中拿到值。

如下方法，直接從快取中獲取。相當於做了一個優化。

好了，下面是畫圖的方式說了一下，有不明白的地方可以給我留言。

舉例：

根據程式碼劃分：stage的時候是這個結構：

入棧：

出棧：

好了，接下來看一下圖多個依賴，提交的時候。流程圖

多個依賴提交例子（深度遍歷演算法）

RDDs原始依賴圖

getShuffleDependencies

RDD：15 , 獲取上一層依賴，返回的結果是 ShuffleDependency 集合

getMissingAncestorShuffleDependencies

深度遍歷順序獲取所有祖先的寬依賴，這裡返回的是一個集合。其實這個也是一個優化，如果採用遞迴方法的呼叫的話，

很容易因為巢狀層級過多，導致棧溢位。

傳入值如果是RDD:13 返回紅色的寬依賴。

最後劃分結果

就寫到這裡了，這部分有疑問或者有不對的地方

麻煩請指教，不勝感激。。。

參考連結：

http://spark.apache.org/docs/latest/

https://www.jianshu.com/p/14355e250e2f

Spark2.3.2原始碼解析：9.排程系統 DAGScheduler 之 Stage 劃分原始碼詳解

Stage劃分的時候，大家應該都知道是從最後一個stage向根據寬窄依賴，遞迴進行stage劃分。但是程式碼裡面涉及的邏輯複雜。畢竟涉及到相互遞迴呼叫。讓人似懂非懂。反正我是炸毛了 o(╥﹏╥)o 本文專門用一篇文章詳細論述DAGScheduler 的 stage 劃分流程

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（三） TaskScheduler : Executor 任務提交

架構圖：程式碼提交時序圖 Standalone模式提交執行流程圖：首先寫一個WordCount程式碼（這個程式碼，為了觀察多個stage操作，我寫了兩個reducebykey

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（二） TaskScheduler : 本地化計算

架構圖： Standalone模式提交執行流程圖：首先寫一個WordCount程式碼（這個程式碼，為了觀察多個stage操作，我寫了兩個reducebykey 函式）原始碼：

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（一） DAGScheduler 之 stage 提交

一個Spark Application分為stage級別和task級別的排程， task來源於stage，所有本文先從stage提交開始講解task任務提交。架構圖： Standalone模式提交執行流程圖：首先寫一個W

jdk1.8原始碼解析：HashMap底層資料結構之連結串列轉紅黑樹的具體時機

前言　　本文從三個部分去探究HashMap的連結串列轉紅黑樹的具體時機：　　　　一、從HashMap中有關“連結串列轉紅黑樹”閾值的宣告；　　　　二、【重點】解析HashMap.put(K key, V value)的原始碼；　　　　三、測試；一、從

Spark2.2.2原始碼解析： 3.啟動worker節點啟動流程分析

本文啟動worker節點啟動流程分析啟動命令： ${SPARK_HOME}/sbin/start-slave.sh spark://sysadmindeMacBook-Pro.local:7077 檢視start-slave.sh

Spark2.3.2原始碼解析： 6. SparkContext原始碼分析（一）： SparkEnv

SparkContext 是通往 Spark 叢集的唯一入口，可以用來在 Spark 叢集中建立 RDDs 、累加器（ Accumulators ）和廣播變數（ Broadcast Variables ）。 SparkContext 也是整個 Spark 應用程式（

Spark2.3.2原始碼解析： 5. RDD 依賴關係：寬依賴與窄依賴

Spark中RDD的高效與DAG（有向無環圖）有很大的關係，在DAG排程中需要對計算的過程劃分Stage，劃分的依據就是RDD之間的依賴關係。RDD之間的依賴關係分為兩種，寬依賴(wide dependency/shuffle dependency)和窄依賴（narrow

Spark2.3.2原始碼解析： 5. SparkConf原始碼分析

在執行程式碼的時候，首先要宣告：SparkConf，本文以SparkConf進行分析，逐步展開。 val conf = new SparkConf() 類中的方法（org.a

Spark2.3.2原始碼解析： 7. SparkContext原始碼分析（二）：TaskScheduler

程式碼部分：啟動指令碼 --name spark-test --class WordCount --master yarn --deploy-mode cluster /A/spark-test.jar /

Spark2.3.2原始碼解析： 8. RDD 原始碼解析（二） textFile 返回的RDD例項是什麼

本文主要目標是分析RDD的例項物件，到底放了什麼。從程式碼val textFile = sc.textFile(args(0)) 開始：直接看textFile 原始碼：你會發現呼叫的是hadoop的api，通過 hadoopFile 讀取資料，返回一個hadoop

Spark2.2.2原始碼解析： 2.啟動master節點流程分析

本文主要說明在啟動master節點的時候，程式碼的流程走向。授予檔案執行許可權 chmod755 兩個目錄裡的檔案： /workspace/spark-2.2.2/bin --所有檔案 /workspace/spark-2.2.2/sb

Redis原始碼解析：15Resis主從複製之從節點流程

Redis原始碼解析：15Resis主從複製之從節點流程版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/gqtcgq/article/details/51172085

Java集合類原始碼解析：AbstractMap

目錄引言原始碼解析抽象函式entrySet() 兩個集合檢視操作方法兩個子類參考：引言今天學習一個Java集合的一個抽象類 AbstractMap ，AbstractMap 是Map介面的實現類之一，也是HashMap、T

Java集合類原始碼解析：HashMap (基於JDK1.8)

目錄前言 HashMap的資料結構深入原始碼兩個引數成員變數四個構造方法插入資料的方法：put() 雜湊函式：hash() 動態擴容：resize() 節點樹化、紅黑樹的拆分節點樹化

Java集合類原始碼解析：Vector

引言之前的文章我們學習了一個集合類 ArrayList，今天講它的一個兄弟 Vector。為什麼說是它兄弟呢？因為從容器的構造來說，Vector 簡直就是 ArrayList 的翻版，也是基於陣列的資料結構，不同的是，Vector的每個方法都加了 synchronized 修飾符，是執行緒安全的。類

jQuery原始碼解析：變數與函式

//原始碼剖析都基於jQuery-2.0.3版本，主要考慮到相容IE 2行：jQuery javaScript Library v2.0.3——jQuery版本 3行：http://jQuery.com——官網 5~6行：Includes Sizzle.js;http://sizzlejs.

Spark2.3.2　機器學習工作流構建

scala> import org.apache.spark.sql.SparkSession import org.apache.spark.sql.SparkSession scala> val spark = SparkSession.builder(). |

【跟我學oracle18c】第四十三天：2 Day DBA：9.4 Backing Up Your Database

這一章節與oracle10g，11g無任何區別，僅轉載，不做實踐 9.4 Backing Up Your Database 節描述如何使用Oracle Recovery Manager (RMAN)備份資料庫。Oracle建議的磁碟備份策略提供了資料庫的有效每日備

Spring4原始碼解析：BeanDefinition架構及實現

一、架構圖首先共同看下總體的 Java Class Diagrams 圖：二、具體類實現 2.1 AttributeAccessor 介面定義了一個通用的可對任意物件獲取、修改等操作元資料的附加契約。主要方法如下： public interface AttributeAcce

Spark2.3.2原始碼解析：9.排程系統 DAGScheduler 之 Stage 劃分原始碼詳解

org.apache.spark.scheduler.DAGScheduler#createResultStage

getOrCreateParentStages：

getShuffleDependencies

返回值結構： ShuffleDependency 是一個寬依賴

​ getOrCreateShuffleMapStage （這個方法注意看一下）

getMissingAncestorShuffleDependencies

ArrayStack 棧是一種後進先出(LIFO)的資料結構。

createShuffleMapStage

多個依賴提交例子 （深度遍歷演算法）

就寫到這裡了，這部分有疑問或者有不對的地方

麻煩請指教，不勝感激。。。

相關推薦

getOrCreateShuffleMapStage （這個方法注意看一下）

多個依賴提交例子（深度遍歷演算法）