Spark內部機制學習筆記

阿新 • • 發佈：2019-01-17

1 總體框架結構圖

由上圖我們可以看到Spark應用程式架構主要由Driver Program和Executor構成，Driver負責執行main()和建立SparkContext，Executor主要負責執行Task任務。

2 各大重要元件和概念

2.1 重要概念

概念	功能	模型
Application	使用者定義的Spark應用程式，使用者提交後，Spark會為應用分配資源，排程和執行相關任務	.
RDD Graph	Spark會分析Spark應用，將程式中所涉及的RDD按照一定的依賴關係構建RDD Graph，也就是根據運算元來構建有向無環圖，每個RDD Graph都會轉化成一個Job
Job	一個App中可以包含多個Job，每個Job都是由一個RDD Graph轉化而來的 - 由Action運算元觸發	.
Stage	每個Job會根據RDD之間的寬依賴（Shuffle Dependency）來劃分成多個Stage，每一個Stage中包含一組Task（也就是TaskSet） - 每個Stage中的Task型別都是相同的	.
Task	一個分割槽對應一個Task - Task執行RDD中對應的運算元，Task被封裝TaskRunner後放入Executor的執行緒中來執行，並由TaskRunner來進行排程 - Task型別有ShuffleMapTask和ResultTask	.
Worker	可以執行App程式碼的節點，如Yarn中NodeManager	.
DAGScheduler	用來構建基於Stage的有向無環圖，劃分的依據是根據RDD之間的寬依賴	.
TaskScheduler	將TaskSet提交給Executor去執行 - 維護TaskSet的執行狀態標籤，負責Task的失效重執行	.

2.2 相關元件

元件	功能	模型
Driver	執行Application的main函式並建立SparkContext - SparkContext的作用就是與Cluster Manager通訊，進行資源申請、任務的排程等。	.
Executor	某個App執行在Worker上的一個程序，用於執行App的Task - 每個App都有獨立的Executor，Executor上執行的Task取決於分配的core數	.
Cluster Manager	資源排程服務，用於資源的分配和排程，有standalone、mesos和yarn三種模式	.

3 應用的提交執行流程

3.1 執行模式

1）Spark應用的執行模式有以下幾種：

local[n]：本地模式
standalone：使用spark內部的資源管理器，master-slaves架構
mesos : Apache下的一個資源管理框架
yarn : Hadoop下的一個資源管理框架

2）根據Driver的執行位置來劃分有以下兩種執行模式：

Cluster：Driver和Executor執行在叢集中的Worker上
Client：Driver執行在客戶端上，Executor執行在Worker上

3）命令列

spark-shell：bin/spark-shell –master yarn –deploy-mode client（yarn的client模式）
spark-submit：spark-shell底層也是呼叫spark-submit，如果你想知道它有什麼引數，可以直接在spark目錄下輸入 spark-submit來檢視

3.2 流程

這裡我們就以 Spark On Yarn 為例來說明

3.2.1 Yarn-Client 模式

流程如下：
1. 在客戶端通過spark-submit向Yarn提交Application
2. 應用在Client啟動Driver，建立SparkContext並進行初始化
3. ResourceManger為應用申請一個Container來啟動Application Master，用來與Client中的SparkContext進行通訊。
4. Application Master即承擔起了為應用申請資源執行Executor的責任，一旦申請到資源，那麼就會在指定的NodeManager的Container上建立Executor程序，Executor會向SparkContext註冊，保持通訊
5. SparkContext會根據任務所需資源，資料本地性等條件指定Task的執行在哪個Executor上，將Task分發到指定Executor並開始執行，Executor會週期向SparkContext彙報任務執行情況
6. 一旦所有任務執行完畢，SparkContext會向ResourceManger申請登出自己並關閉

3.2.2 Yarn-Cluster 模式

流程如下：
1. 在客戶端通過spark-submit向Yarn提交Application
2. ResourceManger為應用申請一個Container來啟動Application Master，並且在Application Master進行SparkContext等初始化。
3. Application Master即承擔起了為應用申請資源執行Executor的責任，一旦申請到資源，那麼就會在指定的NodeManager的Container上建立Executor程序，Executor會向SparkContext註冊，保持通訊
4. Applicaiton Master會根據任務所需資源，資料本地性等條件指定Task的執行在哪個Executor上，將Task分發到指定Executor並開始執行，Executor會週期向Applicaiton Master彙報任務執行情況
5. 一旦所有任務執行完畢，Applicaiton Master會向ResourceManger申請登出自己並關閉

4 Spark的讀寫流程

4.1 寫入流程

RDD呼叫compute( )方法進行指定分割槽的寫入。
CacheManager中呼叫BlockManater判斷資料是否已經寫入，如果未寫則寫入。
BlockManager中資料與其他節點同步。（與副本節點通訊）
BlockManager根據儲存級別寫入指定的儲存層。（儲存級別決定了資料是儲存在記憶體還是磁碟，或者是兩者結合）
BlockManager向主節點彙報儲存狀態。

4.2 讀取流程

RDD呼叫compute( )方法進行指定分割槽的讀取。
呼叫BlockManager的get()進行讀取
- 在本地同步讀取資料塊，首先看能否在記憶體讀取資料塊，如果不能讀取，則看能否從Tachyon讀取資料塊，如果仍不能讀取，則看能否從磁碟讀取資料塊。
- 如果本地沒有資料，就進行遠端讀取：遠端獲取呼叫路徑，然後getRemote呼叫doGetRemote，通過BlockManagerWorker.syncGetBlock從遠端獲取資料。

5 Spark各元件之間的通訊方式和流程

5.1 通訊框架

1.6之前

Spark在模組間通訊使用的是AKKA框架。AKKA基於Scala開發，用於編寫Actor應用。
Actors是一些包含狀態和行為的物件。它們通過顯式傳遞訊息來進行通訊，訊息會被髮送到它們的訊息佇列中。對訊息佇列中的訊息進行處理作出響應
RPC是單獨通過AKKA實現，資料以及檔案傳輸是採用netty實現，而AKKA底層也是使用Netty來實現的

1.6 後

通過netty封裝了一套簡潔的類似於AKKA Actor模式的RPC介面，並逐步拋棄AKKA這個重量級框架
2.0 之後，所有的網路功能模組都是通過Netty來實現的

5.2 通訊的簡單流程

客戶端傳送請求訊息，經過Encoder加上頭資訊，通過網路傳送給服務端
服務端收到訊息之後，經過TransportFrameDecoder進行處理，得到訊息型別和訊息體，在解析得到具體的請求資訊
最後由TransportChannelHandler處理具體的請求資訊，根據訊息型別判斷是否迴應

6 Spark的容錯機制

分散式系統常用的容錯機制

資料檢查點：成本高，耗費資源
記錄資料的更新：耗費資源較少

Spark所採用的容錯機制是記錄資料更新和資料檢查點相結合的形式。原因如下：

RDD只支援粗粒度轉換，即在大量記錄上執行的單個操作。將建立RDD的一系列Lineage（即血統）記錄下來，以便恢復丟失的分割槽。也就是說當子RDD分割槽丟失時，只要重新計算它對應的父RDD分割槽就可以進行恢復，這對於窄依賴來說不存在冗餘計算。
寬依賴也就是Shuffle Dependency，也就是發生在shuffle階段的依賴，如果子RDD分割槽丟失了，那麼重新計算的代價就比較大，因為有多個父RDD分割槽對應該子RDD分割槽，那麼重新計算時所有的父RDD分割槽都得重新計算，造成了計算冗餘

以下情況需要新增檢查點

DAG中依賴線過長，如果重算，則開銷太大
在Shuffle Dependency上做CheckPoint(檢查點)獲得的收益更大

在RDD計算中，通過檢查點機制進行容錯，傳統做檢查點有兩種方式：通過冗餘資料和日誌記錄更新操作。RDD中所採用的就是通過冗餘資料來快取資料，然後對已進行冗餘操作的RDD執行刪除該祖先的RDD依賴

官方建議，做檢查點的RDD做好先快取在記憶體中，否則需要進行重新計算

7 Spark的Shuffle機制

Shuffle中文意思就是混洗，跟MapReduce中的Shuffle的思想是相同，就是資料的重新分割槽和組合

Spark的Shuffle是在stage的承接階段完成的，前面的stage會根據後面stage的分割槽數來將資料按照一定的規則分成相應的bucket，然後寫到磁碟上。後續的stage會從元資料那裡獲得指定資料的所在節點，將資料拉取本地做進一步的操作

Shuffle分為兩個階段

Shuffle Write ：Shuffle的第一步驟，就是將前一個stage中的資料寫到磁碟，用於第二步的Fetch
- 主要是在ShuffleMapTask中執行(runTask)方法
- 如果設定了map端進行聚合的話，那麼會先執行資料在map的合併，減少網路傳輸
- Consolidate Shuffle相比普通Shuffle的優勢在：普通shuffle產生的Shuffle檔案數為map任務數*reduce任務數，而Consolidate Shuffle的理論Shuffle檔案數為Spark Core數*Reducer數，而概念上C_Shuffle引入了檔案陣列，一個Bucket不再對應一個檔案，而是對應檔案中的一個segment
Shuffle Fetch：通過本地或者遠端抓取需要的資料到本節點進行計算，完成操作如儲存資料到指定路徑或者作為下一個Shuffle的Shuffle Write

Shuffle Aggregator並不會對所有情況下的資料進行排序，所以Aggregator分為不需要外排和需要外排兩種方式

不需要外排：資料全部儲存在記憶體當中，使用AppendOnlyMap來進行資料的儲存，資料是來一個處理一個，更新到map中，所以reducer的記憶體必須足夠大，能夠儲存該分割槽的所有key和count的值
需要外排：reduce型別的操作，記憶體沒辦法存放所有的key-value對，必須藉助外部磁碟

在Reduce端，各個Task會併發啟動多個執行緒同時從多個Map Task端拉取資料。由於Reduce階段的主要任務是對資料進行按組規約。也就是說，需要將資料分成若干組，以便以組為單位進行處理。大家知道，分組的方式非常多，常見的有：Map/HashTable（key相同的，放到同一個value list中）和Sort（按key進行排序，key相同的一組，經排序後會挨在一起），這兩種方式各有優缺點，第一種複雜度低，效率高，但是需要將資料全部放到記憶體中，第二種方案複雜度高，但能夠藉助磁碟（外部排序）處理龐大的資料集。Spark前期採用了第一種方案，而在最新的版本中加入了第二種方案， MapReduce則從一開始就選用了基於sort的方案。
摘抄自董西成的文章連結如下http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/

Spark內部機制學習筆記

1 總體框架結構圖

2 各大重要元件和概念

2.1 重要概念

2.2 相關元件

3 應用的提交執行流程

3.1 執行模式

3.2 流程

3.2.1 Yarn-Client 模式

3.2.2 Yarn-Cluster 模式

4 Spark的讀寫流程

4.1 寫入流程

4.2 讀取流程

5 Spark各元件之間的通訊方式和流程

5.1 通訊框架

5.2 通訊的簡單流程

6 Spark的容錯機制

7 Spark的Shuffle機制

Spark內部機制學習筆記

201711671103《JAVA程式設計》第十二章多執行緒機制學習筆記

spark 最佳實踐學習筆記

spark 2.X學習筆記

JAVA 類載入機制學習筆記

Java Class類與反射機制學習筆記(一)

作業系統的記憶體對齊機制學習筆記

Spark MLlib 入門學習筆記

Android觸控事件傳遞機制學習筆記

第14課：spark RDD解密學習筆記

google protobuf 反射機制學習筆記

Linux下驅動:分層、分離機制學習筆記

Android非同步訊息處理機制學習筆記

Android Activity和Intent機制學習筆記

Java中的鎖機制學習筆記

Spark學習筆記4——spark執行機制

android核心剖析學習筆記：AMS（ActivityManagerService）內部原理和工作機制

大資料學習筆記——Spark工作機制以及API詳解

Spark學習筆記——文本處理技術

深入理解Java虛擬機- 學習筆記 - 虛擬機類加載機制

Spark內部機制學習筆記

1 總體框架結構圖

2 各大重要元件和概念

2.1 重要概念

2.2 相關元件

3 應用的提交執行流程

3.1 執行模式

3.2 流程

3.2.1 Yarn-Client 模式

3.2.2 Yarn-Cluster 模式

4 Spark的讀寫流程

4.1 寫入流程

4.2 讀取流程

5 Spark各元件之間的通訊方式和流程

5.1 通訊框架

5.2 通訊的簡單流程

6 Spark的容錯機制

7 Spark的Shuffle機制

相關推薦