Hadoop中job提交詳細過程

阿新 • • 發佈：2019-01-08

1）客戶端執行hadoop jar命令的時候，通過程式中的waitForCompletion(true),進行job的提交，jobPI等等，其中主要的一個工作就是和叢集建立連線，會建立一個yarnRunner（實際上是建立resMgrDelegate）代理物件，這個對提交的時候會呼叫job.submit(),方法進行提交，此方法中會進行一系列的工作，比如確定job的狀態，設定新的A象實際上是一個通訊協議的物件。由這個物件去和RM通訊。

2）客戶端向RM(先請求RM，RM再轉向applicationsManager/ASM)申請執行一個mr程式，獲取一個applicationId。

3）RM會返回給客戶端一個

applicationId和一個共享資源的路徑，用於提交程式執行所需要的共享資源

4）客戶端拿到共享資源的路徑，就開始進行將相關資源寫入到共享資源路徑中，相關資源就包括程式執行所需要的jar包及其他檔案(job.jar)、配置檔案引數job.xml(統一寫入這個配置檔案中)、切片資訊（job.split）

5）寫完之後客戶端通過resMgrDelegate.submitApplication(appContext)方法向RM報告檔案寫入完畢，帶著一個appContext的上下文並提交應用程式。

6）Rm接收到請求後，將這個請求轉給yarn的資源排程器schedule,排程器會初始化這個應用，並將此應用程式加入到排程佇列中（預設為容量排程），因為可能同時有很多應用在執行，可能沒有資源供當前的程式跑，等待分配資源

resourceManager包括兩個元件：

1、排程器：負責排程任務執行的順序，僅是排程的作用，不參與任何任務的執行

（1）FIFO先進先出排程器：先來的任務先執行，只有一個佇列

（2）Capacity容量(計算能力)排程器：有多個佇列，為每個佇列分配不同的資源，每個佇列遵循FIFO（hadoop 2中預設的排程模型）

（3）Fair公平排程器：所有任務平分共享資源

2、工作管理員applicationsManager（ASM）：負責任務啟動或停止或失敗啟動

7）等到分配到相關資源之後就排程器會先給應用程式在一個nodemanager中分配一個容器（container），然後在容器中先啟動程式的管理者，用於管理任務的執行進度和完成情況，這個管理者叫

APP MASTER（主類是MRAppMaster）。

8）MRappmaster會對作業進行初始化，初始化的過程中會建立多個簿記物件（作業簿），用來跟蹤作業的完成。

9）接下來MRAppMaster會啟動相應的maptask，但是不知道啟動幾個啊，也不知道每一個對應的資料切片資訊，怎麼辦？這時候就會去先訪問共享檔案系統中，獲取本作業的輸入切片資訊。會獲取到本job中有幾個maptask和reducetask。此時mrappmaster會首先進行一個決策，就是如果maptask的數量小於10個，而reducetask的數量只有1個，並且輸入大小小於一個塊的作業，就會選用和MRAppmaster同一個JVM中執行任務，因為此時在別的節點上重新啟動容器和銷燬容器的開銷過大不划算，這種模式就是uber模式。然後MRAppMaster會對每一個分片建立一個maptask物件。

10）如果作業不適合作為uber模式執行，此時MRAppMater就會為maptask和reducetask任務向RM申請資源，先發送maptask的請求，再發送reducetask的請求。注意maptask有資料本地化的侷限。優先資料本地化，其次機架本地化最後任意節點。請求返回相應的節點資訊。

11）RM向MRappMaster返回資源資訊，空閒的資源節點，MRAppmaster就會去相應的nodemanager節點上啟動Container

12）之後會啟動一個YarnChild程序用於執行maptask程式

13）Maptask執行之前會首先去共享檔案系統中下拷貝相應的檔案，包括jar包、job.xml檔案以及job.split分片資訊等，下載到本地

14）啟動相應的maptask任務

15）maptask進行到80%的時候，MRAppmaster會去啟動reduceTask，啟動過程同上述過程

16）資源回收和銷燬

Hadoop中job提交詳細過程

Hadoop中job提交詳細過程

centos7.3中搭建hadoop分散式叢集環境詳細過程

Centos7.3中安裝Oracle12C詳細過程

大資料Hadoop中HDFS用法詳細解析

hadoop中叢集提交任務執行

Hadoop之job提交流程原始碼簡析

Hadoop MapReduce Job提交後的互動日誌

大資料開發面試部分：Hadoop 中 job 和 task 之間的區別是什麼（大資料開發面試）

Hadoop中reduce端shuffle過程及原始碼解析

eclipse中匯入spring詳細過程

HBase中Split的詳細過程

使用ganglia 實現監控 hadoop 和 hbase（詳細過程總結）

Oracle 定時查詢數據插入新表中（job+存儲過程）

在瀏覽器中輸入網站域名並按下回車的詳細過程

Mac配置Hadoop最詳細過程

自制Hadoop偽分佈、叢集安裝詳細過程（vmware）

搭建hadoop偽分散式叢集環境過程中遇見的問題總結

在VMWare中建立Hadoop虛擬叢集的詳細步驟使用CentOS

【圖文詳細】HDFS面試題：介紹Hadoop中RPC協議，以及底層用什麼框架封裝的

大資料-Hadoop生態(13)-MapReduce框架原理--Job提交原始碼和切片原始碼解析

Hadoop中job提交詳細過程

相關推薦