Hadoop提交作業------>hadoop工作流程

阿新 • • 發佈：2019-01-17

一、需要知道的內容

1.ResourceManager ------>yarn的老大
2.NodeManager ------>yarn的小弟
3.ResourceManager排程器 a.預設排程器------>先進先出FIFO
b.公平排程器------>每個任務都有執行的機會
......
4.心跳機制 ------>NodeManager可通過心跳機制將節點健康狀況實時彙報給ResourceManager，而ResourceManager則會根據每個NodeManager的健康狀況適當調整分配的任務數目。當NodeManager認為自己的健康狀況“欠佳”時，可讓ResourceManager不再分配任務，待健康狀況好轉時，再分配新任務。

5.NodeManager子程序------>獨立於NodeManager，不在NodeManager內部

二、Hadoop工作流程：

1.Client中，客戶端提交一個mr的jar包給JobClient(提交方式：hadoop jar ...)

2.JobClient持有ResourceManager的一個代理物件，它向ResourceManager傳送一個RPC請求，告訴ResourceManager作業開始，
然後ResourceManager返回一個JobID和一個存放jar包的路徑給Client

3.Client將得到的jar包的路徑作為字首，JobID作為字尾(path = hdfs上的地址 + jobId) 拼接成一個新的hdfs的路徑，然後Client通過FileSystem向hdfs中存放jar包，預設存放10份
（NameNode和DateNode等操作）

4.開始提交任務，Client將作業的描述資訊（JobID和拼接後的存放jar包的路徑等）RPC返回給ResourceManager

5.ResourceManager進行初始化任務，然後放到一個排程器中

6.ResourceManager讀取HDFS上的要處理的檔案，開始計算輸入分片，每一個分片對應一個MapperTask，根據資料量確定起多少個mapper,多少個reducer

7.NodeManager 通過心跳機制向ResourceManager領取任務（任務的描述資訊）

8.領取到任務的NodeManager去Hdfs上下載jar包，配置檔案等

9.NodeManager啟動相應的子程序yarnchild，執行mapreduce，執行maptask或者reducetask

10.map從hdfs中讀取資料，然後傳給reduce，reduce將輸出的資料給回hdfs

Hadoop提交作業------>hadoop工作流程

Hadoop提交作業------>hadoop工作流程

hadoop提交作業------>yarn提交job的原始碼跟蹤

大資料開發之Hadoop篇----提交作業到yarn上的流程

hadoop yarn的原理和工作流程

【hadoop】MapReduce工作流程和MapTask、Shuffle、ReduceTask工作機制

本地Spark程式提交到hadoop叢集執行流程

Hadoop 提交任務執行流程總結

IDEA向hadoop叢集提交作業

Hadoop的作業提交過程

hadoop大致的工作流程

hadoop namenode datanode hdfs工作機制

hadoop大作業

Hadoop基礎-MapReduce的工作原理第二彈

hadoop之hdfs及其工作原理

MapReduce2提交到yarn上工作流程

大資料之MapReduce瞭解及MapReduce Job提交到Yarn的工作流程

MapReduce job提交到Yarn的工作流程

Hadoop 之 MapReduce 的工作原理及其倒排索引的建立

hadoop jar xxxx.jar的流程

MapReduce2架構設計（YARN工作流程（MR提交應用程式））

Hadoop提交作業------>hadoop工作流程

相關推薦