從零開始學Hadoop——淺析MapReduce（一）

阿新 • • 發佈：2019-01-09

之前，我們說過Hadoop的兩個核心為HDFS和MapReduce，既然我們已經學習了Hadoop的HDFS，那麼我們就來看看MapReduce是什麼。當然，我們學習的順序還是先看看基本概念，再研究一下原理，最後做一些練習。

一、是什麼

1、概念理解

Hadoop Map/Reduce是一個使用簡易的軟體框架，基於它寫出來的應用程式能夠執行在由上千個商用機器組成的大型叢集上，並以一種可靠容錯的方式並行處理上T級別的資料集。

2、Map（對映）

“Map”:主結點讀入輸入資料，把它分成可以用相同方法解決的小資料塊（這裡是一個分而治之的思想），然後把這些小資料塊分發到不同的工作節點上(worder nodes)上，每一個工作節點(worder node)迴圈做同樣的事，這就行成了一個樹行結構（分散式計算中的很多模型都和圖論有關，pageRank也是），而每一個葉子節點有來處理每一個具體的小資料塊，再把這些處理結果返回給父節點。

3、Reduce（歸約）

“Reduce”:主結節得到所有子節點的處理結果，然後把所有結果組合並且返回到輸出。

4、個人理解

簡單的來講，map就是分，reduce就是合。怎麼理解呢？我們來看個例子。
我們將100噸磚，從山東運到北京，如果我們用一輛能裝1噸的大卡車來運，一天跑一個來回，那麼我們需要100天，可是如果我們用10輛這樣的車來做同樣的事情，那麼我們10天就可以完成了。雖然在現實生活中，我們增加了車費等一系列支出，可能不太划算，但是對於計算機來說，我們的成本是相當低的。所以在迎接大資料的到來時，MapReduce將大大提高的計算的速度，特別方便。

二、原理解析

1、圖解細說

這裡寫圖片描述

(1).客戶端提交一個mr的jar包給JobClient(提交方式：hadoop jar ...)

(2).JobClient通過RPC和JobTracker進行通訊，返回一個存放jar包的地址（HDFS）和jobId

(3).client將jar包寫入到HDFS當中(path = hdfs上的地址 + jobId)

(4).開始提交任務(任務的描述資訊，不是jar, 包括jobid，jar存放的位置，配置資訊等等)

(5).JobTracker進行初始化任務（放入排程器）

(6).讀取HDFS上的要處理的檔案，開始計算輸入分片，每一個分片對應一個MapperTask

(7).TaskTracker通過心跳機制領取任務（任務的描述資訊）

(8).下載所需的jar，配置檔案等

(9).TaskTracker啟動一個java child子程序，用來執行具體的任務（MapperTask或ReducerTask）

(10).將結果寫入到HDFS當中

經過自己的理解後，自己又畫了一張執行圖
這裡寫圖片描述

2、詳細流程

這裡寫圖片描述

map任務處理

讀取輸入檔案內容，解析成key、value對。對輸入檔案的每一行，解析成key、value對。每一個鍵值對呼叫一次map函式。

寫自己的邏輯，對輸入的key、value處理，轉換成新的key、value輸出。

對輸出的key、value進行分割槽。

對不同分割槽的資料，按照key進行排序、分組。相同key的value放到一個集合中。

(可選)分組後的資料進行歸約。

reduce任務處理

對多個map任務的輸出，按照不同的分割槽，通過網路copy到不同的reduce節點。

對多個map任務的輸出進行合併、排序。寫reduce函式自己的邏輯，對輸入的key、value處理，轉換成新的key、value輸出。

把reduce的輸出儲存到檔案中。

總結：

雖然之前學到的HDFS與今天的MapReduce是兩個完全不一樣的東西，但是通過今天的學習，我們知道了兩者是如何協同工作的，這樣對我們以後的實戰是非常有幫助的。下次我們將通過例項，來深層解析MapReduce的執行機制，請大家繼續關注。

從零開始學Hadoop——淺析MapReduce（一）

之前，我們說過Hadoop的兩個核心為HDFS和MapReduce，既然我們已經學習了Hadoop的HDFS，那麼我們就來看看MapReduce是什麼。當然，我們學習的順序還是先看看基

從零開始學Hadoop----淺析HDFS（一）

之前，我們簡單介紹了一下Hadoop，知道他是一個處理大資料的框架。今天我們來看看Hadoop的核心構成之一—-HDFS. 一、基礎概念 1、是什麼

從零開始學 Web 之 DOM（一）DOM的概念，對標簽操作

關註 1.5 pan 什麽 tin p標簽 nod text == 大家好，這裏是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關註。在這裏我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，

從零開始學 Web 之 CSS3（一）CSS3概述，選擇器

https 兼容問題 3.1 線性 web前端不同錨點 splay lock 大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔

從零開始學 Web 之 CSS（一）選擇器

大家好，這裡是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關注。在這裡我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，期間也會分享一些好玩的專案。現在就讓我們一起進入 W

從零開始學 Web 之 HTML5（一）HTML5概述，語義化標籤

一、HTML5簡介 1、什麼是html5 html5 不是一門新的語言，而是我們之前學習的 html 的第五次重大修改版本。 2、html的發展歷史超文字標記語言（第一版，不叫 HTML 1.0）——在1993年6月作為網際網路工程工作小組（IETF）工作草案發布（並非標準）； HTML 2.0——19

從零開始學 Web 之 DOM（一）DOM的概念，對標籤操作

大家好，這裡是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關注。在這裡我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，期間也會分享一些好玩的專案。現在就讓我們一起進入 Web 前端學習的冒險之旅吧！一、DOM概念 D

從零開始學 Web 之 jQuery（一）jQuery的概念，頁面載入事件

一、jQuery的概念 1、什麼是 JavaScript 庫？ JavaScript 開發的過程中，處理瀏覽器的相容很複雜而且很耗時，於是一些封裝了這些操作的庫應運而生。這些庫還會把一些常用的程式碼進行封裝。把一些常用到的方法寫到一個單獨的 js 檔案，使用的時候直接去引用這js檔案就可以了，這個 js

從零開始學 Web 之 BOM（一）BOM的概念，一些BOM物件

大家好，這裡是「從零開始學 Web 系列教程」，並在下列地址同步更新...... +------------------------------------------------------------ github：https://github.com/Daotin/Web 微信公眾號：Web前端之

從零開始學 Web 之 HTML（一）認識前端

大家好，這裡是 Daotin 從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」，歡迎大家訂閱關注。在這裡我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，期間也會分享一些好玩的專案。現在就讓我們一起進入 Web 前端學習的冒險之旅吧！ 1、什麼是前端前端對於網站來說，

從零開始學 Web 之 JavaScript（一）JavaScript概述

大家好，這裡是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關注。在這裡我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，期間也會分享一些好玩的專案。現在就讓我們一起進入 Web 前端學習的冒險之旅吧！一、JavaScr

從零開始學 Web 之 Ajax（一）伺服器相關概念

一、伺服器和客戶端伺服器和客戶端都是電腦，在硬體層面上沒有明顯的劃分，配置很差的個人電腦任然可以作為伺服器。伺服器如果想對外提供服務，必須安裝相應的軟體，所以不是伺服器這臺電腦可以提供服務，而是其安裝的軟體提供的服務。比如： HTTP網頁服務：Apache，Tomcat，IIS等檔案上傳下載服務：V

從零開始學 Web 之 ES6（一）ES5嚴格模式

一、ECMAScript 5 嚴格模式 1、概述除了正常執行模式，ECMAscript 5添加了第二種執行模式："嚴格模式"（strict mode）。顧名思義，這種模式使得Javascript在更嚴格的條件下執行。 2、目的消除Javascript語法的一些不合理、不嚴謹之處，減少一些怪異行為;

從零開始學Kotlin-控制語句（4）

系列文章 ren kcon tin else andro 格式當前 break 從零開始學Kotlin基礎篇系列文章條件控制-if var a=10 var b=20 if(a>b) print(a)

從零開始學Kotlin-枚舉（9）

emc roi 實例 list cnblogs 外部 listener ring 枚舉從零開始學Kotlin基礎篇系列文章枚舉的定義一個類的對象是有限且固定的，這種實例有限且固定的類稱為枚舉類; 枚舉常量用逗號分隔,每個枚舉常量都是一個對象; enum class

從零開始學 Web 之 DOM（四）節點

def clas scrip while p標簽設置 ner 操作 text 大家好，這裏是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關註。在這裏我會從 Web 前端零基礎開始，一步步學習 Web 相

從零開始學 Web 之 BOM（三）offset，scroll，變速動畫函數

樣式清理 java mar dde sof mov har width 大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔博客園：

從零開始學 Web 之 jQuery（二）獲取和操作元素的屬性

eight images idt 隱藏 lis 屬性 ner master lin 大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔

從零開始學 Web 之 jQuery（六）為元素綁定多個相同事件，解綁事件

png 好用添加方式執行存在區別也會地址大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔博客園：http://ww

從零開始學 Web 之 jQuery（七）事件冒泡，事件參數對象，鏈式編程原理

eval uri turn 定位 return 也會否則 ont sele 大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔博客

從零開始學Hadoop——淺析MapReduce（一）

一、是什麼

1、概念理解

2、Map（對映）

3、Reduce（歸約）

4、個人理解

二、原理解析

1、圖解細說

2、詳細流程

總結：

相關推薦