MapReduce系列之MapReduce任務處理流程

阿新 • • 發佈：2018-12-04

MapReduce處理資料的流程一般是這樣的：

1、從HDFS上讀取資料，因為是分散式與平行計算，需要將資料劃分給多個MapReduce任務。HDFS儲存檔案也是分塊的，每個MapReduce的輸入一般是和HDFS的資料塊是對應的。也就是說一個HDFS資料塊作為一個MapReduce任務的輸入。這是Hadoop預設的情況，我們也可以實現InputFormat自定義輸入格式。

2、Map進行計算：這一步和Reduce都是由使用者根據需要實現的。在WordCount例子中，對每個單詞做對映，word-->(word,1)

3、shuffle and sort：這一步是MapReduce的核心，但使用者基本不用管，可能會根據具體的需要自定義比較器和分割槽器。具體詳細過程如下：

maptask收集我們的map()方法輸出的kv對，放到記憶體緩衝區中
從記憶體緩衝區不斷溢位本地磁碟檔案，可能會溢位多個檔案
多個溢位檔案會被合併成大的溢位檔案
在溢位過程中，及合併的過程中，都要呼叫partitoner進行分組和針對key進行排序
reducetask根據自己的分割槽號，去各個maptask機器上取相應的結果分割槽資料

reducetask會取到同一個分割槽的來自不同maptask的結果檔案，reducetask會將這些檔案再進行合併（歸併排序）
合併成大檔案後，shuffle的過程也就結束了，後面進入reducetask的邏輯運算過程（從檔案中取出一個一個的鍵值對group，呼叫使用者自定義的reduce()方法）

Shuffle中的緩衝區大小會影響到mapreduce程式的執行效率，原則上說，緩衝區越大，磁碟io的次數越少，執行速度就越快

緩衝區的大小可以通過引數調整, 引數：io.sort.mb 預設100M。

4、Reduce：和Map一樣需要使用者根據具體需求實現。在WordCount例子中，對每個單詞的一系列值做加法。

5、將計算結果輸出到HDFS，可以實現OutputFormat介面自定義輸出格式。

以上就是MapReduce程式設計的一個大體流程。

附 WordCount例子程式碼:https://github.com/taowenjun/MapReduce/tree/master/cn/tao/wordcount

宣告：圖片來自網路

MapReduce系列之MapReduce任務處理流程

MapReduce處理資料的流程一般是這樣的： 1、從HDFS上讀取資料，因為是分散式與平行計算，需要將資料劃分給多個MapReduce任務。HDFS儲存檔案也是分塊的，每個MapReduce的輸入一般是和HDFS的資料塊是對應的。也就是說一個HDFS資料塊作為一個MapReduce任務的

MapReduce系列之MapReduce的輸出

針對前面介紹的輸入格式，MapReduce也有相應的輸出格式。預設情況下只有一個 Reduce，輸出只有一個檔案，預設檔名為 part-r-00000，輸出檔案的個數與 Reduce 的個數一致。如果有兩個Reduce，輸出結果就有兩個檔案，第一個為part-r-00000，第二個為part-r-

MapReduce系列之MapReduce的輸入

檔案是 MapReduce 任務資料的初始儲存地。正常情況下，輸入檔案一般是儲存在 HDFS 裡面。這些檔案的格式可以是任意的：我們可以使用基於行的日誌檔案，也可以使用二進位制格式，多行輸入記錄或者其它一些格式。這些檔案一般會很大，達到數十GB，甚至更大。那麼 MapReduce 是如何讀取這些資

MapReduce之reducer任務執行流程詳解

第一階段是 Reducer 任務會主動從 Mapper 任務複製其輸出的鍵值對。Mapper 任務可能會有很多，因此 Reducer 會複製多個 Mapper 的輸出。第二階段是把複製到 Reducer 本地資料，全部進行合併，即把分散的資料合併成一個大的資料。再對合並後的資

MapReduce系列之過濾模式

過濾模式基本有四種：過濾，布隆過濾，Top 10 和去重過濾：將不感興趣的記錄過濾掉並將需要的資料保留下來類似用法：select * from table where 條件示例：map{ if（條件true） { &

MapReduce系列之自定義Partitioner

partitioner定義：分割槽器 partitioner的作用是將mapper（如果使用了combiner的話就是combiner）輸出的key/value拆分為分片（shard），每個reducer對應一個分片。預設情況下，partitioner先計算key的雜湊值（通常為md5值）。然後

MapReduce系列之Mapper、Combiner和Reducer

Mapper類 MapReduce的Mapper類中共有四個父類的方法：setup()、map()、run()、cleanup() setup()方法：在一個任務中，此方法只在開始執行一次，適用於對相關變數和資源的初始化操作。 map()方法：任務實現的主要過程在此方法中執行，

MapReduce系列之全域性引數、資料檔案的傳遞與引用

MapReduce程式設計過程中全域性引數、資料檔案的傳遞與引用的主要有一下幾種方法。 1、讀寫HDFS檔案通過利用Hadoop的Java Apl來實現讀寫HDFS檔案，需要注意的是針對多個Map或Reduce的寫操作會產生衝突，覆蓋原有資料優點：能夠實現讀寫，也比較直觀缺點：

Hadoop系列之-MapReduce

Hadoop系列之-MapReduce MapReduce在Hadoop1.x中直接執行在HDFS上，由JobTracker和TaskTracker負責排程。在Hadoop2.x中執行在YARN上。面對大量資料的離線

大數據入門之大數據處理流程

大數據開發大數據挖掘大數據分析　　隨著互聯網的發展，大數據也在逐漸彰顯出自己的優勢特點，那麽關於大數據的處理流程，你是否了解?讓我們一起來看看大數據的處理流程。　　第一，數據采集　　定義：利用多種輕型數據庫來接收發自客戶端的數據，並且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。　　特點

Flink1.6系列之—Flink on yarn流程詳解

端口準備 -a 根據 images mas info 使用臨時本篇我們介紹下，Flink在YARN上運行流程：當開始一個新的Flink yarn 會話時，客戶端首先檢查所請求的資源（containers和內存）是否可用。如果資源夠用，之後，上傳

深入 Spring 系列之靜態資源處理

extend ada tst mar 找到方法 rman 依賴 1-43 1. 背景前一段時間，WebIDE 開源的過程中，無意間接觸到 webjars，覺得比較有趣，於是研究並整理了一下。 webjars 是將前端的庫（比如 jQuery）打包成 Jar 文件，然

ES6 系列之異步處理實戰

比較 join yqi let 我們對象獲取作者 rev 前言我們以查找指定目錄下的最大文件為例，感受從回調函數 -> Promise -> Generator -> Async 異步處理方式的改變。 API 介紹為了實現這個功能，我們需要用到

《視訊直播技術詳解》系列之二：處理

視訊或者音訊完成採集之後得到原始資料，為了增強一些現場效果或者加上一些額外的效果，我們一般會在將其編碼壓縮前進行處理，比如打上時間戳或者公司 Logo 的水印，祛斑美顏和聲音混淆等處理。在主播和觀眾連麥場景中，主播需要和某個或者多個觀眾進行對話，並將對話結果實時分享給其他所

Android面試系列之非同步訊息處理相關

我們在平時的專案開發中，肯定會遇到處理非同步任務的場景。因為Android中的UI執行緒是不安全的，我們需要更新ui的話就必須在ui執行緒上進行操作。否則就會拋異常。這個時候我們就需要用到非同步訊息處理了比如，在子執行緒中請求資料，拿到資料後告訴ui執行

Vue系列之 => webpack處理樣式檔案

處理css檔案安裝 npm i style-loader css-loader -D main.js import $ from 'jquery' //Es6中匯入模組的方式 import './css/index.css' // import './c

twemproxy原始碼分析之四：處理流程

很讚的註釋: * nc_connection.[ch] * Connection (struct conn) * + + + * |

mybatis系統學習（五）——mybatis原始碼之內部基本處理流程

mybatis使用中的模組互動在之前的學習中我們知道了，一個簡單的基礎mybatis專案基本會包含如下幾個必要的部分：從上圖中可以清晰的看到，整個資料的走向最終是指向了業務類，也就是說無論是配置還是介面，還是依賴包，最終的作用都是為了業務，為了解決實

Android進階——多執行緒系列之非同步任務AsyncTask的使用與原始碼分析

AsyncTask是什麼 AsyncTask是一種輕量級的非同步任務類，它可以線上程池中執行後臺任務，然後把執行的進度和最終結果傳遞給主執行緒並主執行緒中更新UI，通過AsyncTask可以更加方便執行後臺任務以及在主執行緒中訪問UI，但是AsyncTask並

Winphone開發之非同步任務處理

這一篇只能算是備註，非同步任務這一塊自己還要多複習作業系統。下面是XAML： <phone:PhoneApplicationPage x:Class="AsyncTask.MainP

MapReduce系列之MapReduce任務處理流程

相關推薦