理解Spark的執行機制

阿新 • • 發佈：2019-01-15

Spark生態系統目前已經非常成熟了，有很多型別的任務都可以使用spark完成，我們先看下spark生態系統的組成：

spark的核心主要由3個模組組成：

（1）spark core 是spark的最底層的程式設計實現，定義了許多的函式及方法，是所有spark元件的基礎依賴

（2）spark ecosystems 是spark裡面的一些高階元件，基本就是我們最常用的框架

（3）resource management 負責spark任務的排程

平時我們開發過程中，基本上使用的都是第二層裡面的一些框架，這裡面使用最多的莫過於spark sql和spark streaming了。在對spark整個生態系統有一個基本瞭解後，下面我們就關注的是其執行機制了，只有解了執行機制，才會對我們使用程式，或者排查問題以及效能調優起到很大的幫助。

下面我們看下spark任務的執行機制如下圖：

Spark相關一些術語解釋：

（一）Driver program

driver就是我們編寫的spark應用程式，用來建立sparkcontext或者sparksession，driver會和cluster mananer通訊，並分配task到executor上執行

（二）Cluster Manager

負責整個程式的資源排程，目前的主要排程器有：

YARN

Spark Standalone

Mesos

（三）Executors

Executors其實是一個獨立的JVM程序，在每個工作節點上會起一個，主要用來執行task，一個executor內，可以同時並行的執行多個task。

（四）Job

Job是使用者程式一個完整的處理流程，是邏輯的叫法。

（五）Stage

一個Job可以包含多個Stage，Stage之間是序列的，State的觸發是由一些shuffle，reduceBy，save動作產生的

（六）Task

一個Stage可以包含多個task，比如sc.textFile("/xxxx").map().filter()，其中map和filter就分別是一個task。每個task的輸出就是下一個task的輸出。

（七）Partition

partition是spark裡面資料來源的一部分，一個完整的資料來源會被spark切分成多個partition以方便spark可以傳送到多個executor上去並行執行任務。

（八）RDD

RDD是分散式彈性資料集，在spark裡面一個數據源就可以看成是一個大的RDD，RDD由多個partition組成，spark載入的資料就會被存在RDD裡面，當然在RDD內部其實是切成多個partition了。

那麼問題來了一個spark job是如何執行的？

（1）我們寫好的spark程式，也稱驅動程式，會向Cluster Manager提交一個job

（2）Cluster Manager會檢查資料本地行並尋找一個最合適的節點來排程任務

（3）job會被拆分成不同stage，每個stage又會被拆分成多個task

（4）驅動程式傳送task到executor上執行任務

（5）驅動程式會跟蹤每個task的執行情況，並更新到master node節點上，這一點我們可以在spark master UI上進行檢視

（6）job完成，所有節點的資料會被最終再次聚合到master節點上，包含了平均耗時，最大耗時，中位數等等指標。

最後關於spark的並行執行策略在總結下：

首先我們的資料來源會被載入到RDD裡面，在RDD裡面整個資料來源會被切分成多個partition，partition的個數實際就是我們執行任務的最大並行度，每個task會負責一個partition的資料，而每個spark任務最大可以執行task的個數=executor的個數 * 每個executor的cores的個數。對應到submit指令碼中引數就是：

--num-executors 
--executor-cores

根據spark官網的建議每個executor上建議分配置的core的個數應該在3到5之間，如果分配的太多會生成大量的小task執行，task的序列化和傳輸都會比較耗效能，如果分配的task數量太少，那麼我們的executor大部分時候機器資源就會浪費，所以分配的個數一般在3到5個就行，這一點需要注意。

附錄：

Spark中RDD，DataFrame，DataSet的區別：

1、RDD支援面向java、scala物件，編譯時強型別檢查。缺點，序列化非常消耗時間(叢集分發和磁碟儲存)，不能充分利用系統的高階優化能力(如off-heap)，垃圾回收物件開銷大。

2、DataFrame支援資料集的模式表示(即資料列的概念)，所以叢集分發資料時並不需要序列化，能充分利用系統高階優化能力(off-heap)，引入查詢計劃提高效能。缺點，DataFrame的列型別，在編譯時無法判斷型別，會產生執行時錯誤。

3、Dataset即支援資料集的模式表示，又支援java、scala物件的型別檢查能力。兩者通過引入一種編碼、解碼機制來實現。

參考連結：

理解Spark的執行機制

Spark學習筆記4——spark執行機制

Spark 執行機制

理解JavaScript 執行機制及非同步回撥（setTimeout/setInterval/Promise）

理解Spark的執行機制

深入理解JVM_java代碼的執行機制01

深入理解Dalvik虛擬機- 解釋器的執行機制

深入理解js引擎的執行機制

10分鐘理解JS引擎的執行機制 event loop ---齊梟飛前端構架

spark on yarn圖形化任務監控利器：History-server幫你理解spark的任務執行過程

深入理解JavaScript的執行機制（同步和非同步）

從一個多執行緒的例子，來理解Sleep的機制和用法

《深入理解Spark：核心思想與原始碼分析》——SparkContext的初始化（伯篇）——執行環境與元資料清理器

第42課： Spark Broadcast內幕解密：Broadcast執行機制徹底解密、Broadcast原始碼解析、Broadcast最佳實踐

Java程式執行機制和JVM的理解

spark基礎之排程器執行機制簡述

jfinal 執行機制，我的理解

【Spark工作機制詳解】執行機制

spark:架構+執行機制的一些總結--50

10分鐘理解JS引擎的執行機制

理解ASP.NET MVC底層執行機制

理解Spark的執行機制

相關推薦