hadoop的mapreduce任務的執行流程

阿新 • • 發佈：2019-01-11

hadoop2.x的三大核心：mapreduce 、hdfs以及yarn ，其中核心之一mapreduce，利用了分而治之的思想，Map（對映）和 Reduce（歸約），分散式多處理然後進行彙總的思想，比如：清點撲克牌把裡面的花色都分開，一個人清點那麼可能耗時4分鐘，如果利用mapreduce的思想，把撲克牌分成4份，每個人對自己的那一份進行清點，然後4個人都清點完成之後把各自的相同花色放一起進行彙總，那麼這樣可能只會耗時1分鐘。這就是mapreduce的思想，其中每個人就相當於一個map，彙總就相當於是reduce，最開始的分牌就是patition分割槽（如果不均勻分配就相當於是資料傾斜），從map到reduce的過程就是shuffle。

下面就簡單說說我理解的mapreduce執行流程

這裡直接從map任務被執行說起。

1.當map任務開始執行的時候，會先根據使用者設定的FileInputFormat去讀取資料來源，預設是TextFileInputFormat讀取hdfs中的檔案（當然mapreduce內部也提供了其他的實現類，比如讀取資料庫的等等），我們也可以自己定義一個FileInputFormat，繼承FileInputFormat類就可以重寫isSplitable和createRecordReader方法並在createRecordReader方法裡面返回一個自定義的RecordReader例項就行（也是繼承RecordReader類就行，需要重寫裡面的getCurrentKey、close、getCurrentValue、getProgress、initialize、nextKeyValue這幾個方法可以參考：

http://blog.csdn.net/qq_20641565/article/details/52770522)

這裡寫圖片描述

2.當上面的處理完成後會進入到map方法，就以wordcount為例，這裡map收到的引數為檔案的一行例如資料是：“hello lijie hello word spark scala java java java”，然後對上面的一行進行split(” “)切分，然後用context.write輸出（hello ，1）（lijie ，1）（hello ，1）（word ，1）（spark ，1）（scala ，1）（java，1）（java，1）（java，1）

3.上面的輸出會先寫到一個緩衝區裡面（環形緩衝區，預設100M），當寫入百分之80的時候會對裡面的資料進行dump，dump的過程會對裡面的資料先進行分割槽然後排序，如果有combiner會進行區域性的combiner，之後寫入執行map程式的那臺伺服器的本地磁碟中，如果map一直執行，那麼會每滿百分之80又會執行上面的過程直到map執行完成

這裡寫圖片描述

3.上面的步驟走完之後產生了很多小的檔案，然後會觸發mr的檔案合併，把多個檔案進行合併，合併過程中又會進行排序和區域性的combiner，如果定義的是2個reduce，那麼最後每個map端就會生產2個分割槽檔案，並且檔案裡面的內容會已經排序且區域性combiner（前提是設定了combiner）

這裡寫圖片描述

4.map任務執行完成之後，reduce會從map端下載對應的檔案，並且又會對下載過來的檔案進行合併且排序並且會呼叫GroupComparator 物件（用來自定義哪些是一組的，mr程式預設key相同為同一組，但是可以自己定義GroupComparator，這樣不同的key也可以進入同一個reduce方法進行處理，詳情見：http://blog.csdn.net/qq_20641565/article/details/53491257）

這裡寫圖片描述

5.執行reduce方法，並且執行reduce的邏輯，執行完成之後就會呼叫FileOutputFormat，這個同FileInputFormat一樣，同樣可以自定義，也是繼承FileOutPutFormat返回一個RecordWriter,這裡就不過多介紹，預設是TextFileOutputFormat寫入到hdfs裡面

6.整個mapreduce的執行流程就完成了，如果FileOutputFormat和FileInputFormat是預設的話，那麼資料流就是：HDFS -> 本地磁碟 ->HDFS，並且多次進行IO操作，所以mr的瓶頸在於他的IO操作，只適合進行離線計算

hadoop的mapreduce任務的執行流程

Spark任務執行流程

Quartz任務排程框架--任務執行流程（二）

Spark-任務執行流程

Hadoop 提交任務執行流程總結

Spark任務執行流程解析

spark的任務執行流程解析

MapReduce之reducer任務執行流程詳解

死磕 java執行緒系列之執行緒池深入解析——普通任務執行流程

死磕 java執行緒系列之執行緒池深入解析——未來任務執行流程

死磕 java執行緒系列之執行緒池深入解析——定時任務執行流程

Spark（六）Spark任務提交方式和執行流程

Activiti 使用者任務並行動態多例項(多使用者執行流程)

hadoop的mapreduce任務的執行流程

Activiti學習筆記六流程例項任務執行物件控制流程執行

Spark任務提交方式和執行流程

宜信開源|分散式任務排程平臺SIA-TASK的架構設計與執行流程

windows 建立任務執行計劃自動執行腳本

yii開發第一部分之執行流程

《java並發編程實戰》讀書筆記5--任務執行， Executor框架

[貪心]任務執行順序

hadoop的mapreduce任務的執行流程

相關推薦