【Hadoop】MapReduce平行計算框架

阿新 • • 發佈：2018-11-27

MapReduce平行計算框架

基本知識

前言
核心概念

計算模型
系統架構
作業配置

計算流程與機制

作業提交和初始化
Mapper
Reducer
結構圖示

輸入/輸出格式(常用)
核心問題

Map和Reduce數量
作業配置
作業排程

排程過程：

有用的MapReduce特性

基本知識

前言

MapReduce計算框架是Google提出的一種平行計算框架

，是Google雲端計算模型MapReduce的java開源實現，用於大規模資料集(通常1TB級以上)的平行計算。但其實，MR不僅是一種分散式的運算技術，也是簡化的分散式程式設計模式，是用於解決問題的程式開發模型。

核心概念

計算模型

計算模型的 核心概念 是”Map(對映)”和”Reduce(歸約)”。使用者需要指定一個Map函式，用來把一組鍵值對對映成一組新的鍵值對，並指定併發的Reduce函式用來合併所有的具有相同中間key值的中間的value值。作業的輸入和輸出都會被儲存在檔案系統中。整個框架負責 任務的排程和監控，以及重新執行已經失敗的任務 。

系統架構

在系統架構上，MapReduce框架是一種主從架構，由一個單獨的JobTracker節點和多個TaskTracker節點共同組成。

1)JobTracker是MapReduce的Master，負責排程構成一個作業的所有任務，這些任務分佈在不同的TaskTracker節點上，監控它們的執行，重新執行已經失敗的任務，同時提高狀態和診斷資訊給作業客戶端。

2)TaskTracker是MapReduce的Slave，僅負責執行由Master指派的任務執行。

作業配置

對於使用者來講，我們應該在應用程式中 指明輸入和輸出的位置路徑，並通過實現合適的介面或抽象類來提供Map和Reduce函式，再加上其他作業的引數，就構成了作業配置

。

計算流程與機制

作業提交和初始化

(作業提交)命令列提交->作業上傳->產生切分檔案->提交作業到JobTracker->(作業初始化)->(Setup Task->Map Task->Reduce Task->Cleanup Task)
具體過程會在之後的文章介紹

Mapper

Mapper是MapReduce框架給使用者暴露的Map程式設計介面，使用者在實現自己的Mapper類時需要繼承這個基類。執行Map Task任務：將輸入鍵值對（key/value pair）對映到一組中間格式的鍵值對集合。

處理流程如下：

通過InputFormat介面獲得InputSplit的實現，然後對輸入的資料切分。每一個Split分塊對應一個Mapper任務。
通過RecordReader物件讀取生成<k,v>鍵值對。Map函式接受資料並處理後輸出<k1,v1>鍵值對。
通過context.collect方法寫入context物件中。當鍵值對集中被收集後，會被Partition類中的partition()函式以指定方式區分並寫入輸出緩衝區(系統預設的是HashPartitioner)，同時呼叫sort()進行排序。
如果使用者指定了Combiner，則會將鍵值對進行combine合併(相當於map端的reduce)，輸出到reduce寫入檔案。

Mapper

Reducer

Reducer將與一個key關聯的一組中間數值集歸約為一個更小的數值集。

1.Shuffle階段。框架通過HTTP協議為每個Reducer獲得所有Mapper輸出中與之相關的分塊，這一階段也稱混洗階段，所做的大量操作就是資料複製，因此也可以稱為資料複製階段。

2.Sort階段。框架按照key的值對Reducer的輸入進行分組(因為不同的Mapper輸出可能會有相同的key)。 Shuffle和Sort是同時進行的，Map的輸出也是一邊被取回一邊被合併的。如果需要改變分組方式，則需要指定一個Compartor，實現二次排序（後面會介紹）。

3.Reduce階段。呼叫Reduce()函式，對Shuffle和sort得到的<key,(list of values)>進行處理，輸出結果到DFS中。

Reducer

結構圖示

輸入/輸出格式(常用)

InputFormat
1. 檢查作業輸入的有效性。
2. 把輸入檔案切分成多個邏輯InputSplit例項，並把每個例項分發給一個Mapper（一對一）；FileSplit是預設的InputSplit，通過write（DataOutput out）和readFields（DataInput in）兩種方法進行序列化和反序列化。
3. 提供RecordReader實現。
OutputFormat
1. 檢驗作業的輸出。
2. 驗證輸出結果型別是否如在Config中所配置的。
3. 提供一個RecordWriter的實現，用來輸出作業結果。

核心問題

Map和Reduce數量

Map數量通常由 Hadoop叢集的DFS塊大小確定 ，也就是輸入檔案的總塊數。大致是每一個Node是10～100個。

Reduce的數量有3種情況：0(特殊)，1，多個。
單個Reduce：
多個Reduce
數量為0(適應於不需要歸約和處理的作業)

作業配置

作業配置的相關設定方法

作業配置方法	功能說明
setNumReduceTasks	設定reduce數目
setNumMapTasks	設定Map數目
setInputFormatClass	設定輸入檔案格式類
setOutputFormatClass	設定輸出檔案格式類
setMapperClass	輸出Map類
setCombiner	設定Combiner類
setReducerClass	設定Reduce類
setPartitionerClass	設定Partitioner類
setMapOutputKeyClass	設定Map輸出的Key類
setMapOutputValueClass	設定Map輸出的Value類
setOutputKeyClass	設定輸出key類
setCompressMapOutput	設定Map輸出是否壓縮
setOutputValueClass	設定輸出value類
setJobName	設定作業名字
setSpeculativeExecution	設定是否開啟預防性執行
setMapSpeculativeExecution	設定是否開啟Map任務的預防性執行
setReduceSpeculativeExecution	設定是否開啟Reduce任務的預防性執行

作業排程

排程的功能是將各種型別的作業在排程演算法作用下分配給Hadoop叢集中的計算節點，從而達到 分散式和平行計算 的目的。
排程演算法模組中至少涉及兩個重要流程：1.作業的選擇 2.任務的分配。

排程過程：

1）MapReduce框架中作業通常是通過JobClient.runJob(job)方法提交到JobTracker，JobTracker接收到JobClient的請求後將其加入作業排程佇列中。

2）然後JobTracker一直等待JobClient通過RPC向其提交作業，而TaskTracker則一直通過RPC向JobTracker傳送心跳訊號詢問是否有任務可執行，有則請求JobTracker派發任務給它執行。

3）如果JobTracker的作業佇列不為空，則TaskTracker傳送的心跳將會獲得JobTracker向它派發的任務。
這是一個主動請求的任務：slave的TaskTracker主動向master的JobTracker請求任務。

4）當TaskTracker接到任務後，通過自身排程在本slave建立起Task，執行任務。

常用排程器 主要包括：JobQueueTaskScheduler(FIFO排程器)，CapacityScheduler(容量排程器)，Fair Scheduler(公平排程器)等。

任務排程

有用的MapReduce特性

Counters 計數器
DistributedCache 分散式快取
Tool 工具
Compression 資料壓縮

（後面會做介紹）

【Hadoop】MapReduce平行計算框架

MapReduce平行計算框架基本知識前言核心概念計算模型系統架構作業配置計算流程與機制作業提交和初始化 Mapper Reducer

【Hadoop】MapReduce深度分析

MapReduce深度分析 MapReduce總結構分析資料流向分析處理過程分析各階段分析 MapTask Read階段 Map階段 Collector和Partitio

MapReduce平行計算框架

1.思想：分而治之 map：對每一部分資料進行處理 reduce：合併 2.資料流動的形式是<key,value> 1. Map階段由一定數量的Map Task組成 *輸入資料格式解析：InputFormat *輸入資料處理：Mapper *資料分

【hadoop】MapReduce工作流程和MapTask、Shuffle、ReduceTask工作機制

MapReduce整個工作流程：一、MapTask階段（1）Read階段：MapTask通過使用者編寫的RecordReader，從輸入InputSplit中解析出一個個key/value。（2）Map階段：該節點主要是將解析出的key/value交給使用者編寫map()函式

【Hadoop】MapReduce程式設計Demo新舊

1.wordcount。 import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.conf.Con

【hadoop】1、MapReduce進行日誌分析，並排序統計結果

1.網上很多關於搭建Hadoop叢集的知識，這裡不多做敘述，並且本機執行Hadoop程式是不需要hdfs叢集的，我們本機執行只做個demo樣式，當真的需要執行大資料的時候，才需要真正的叢集 2.還有就是詞頻統計的知識，不論是官方文件，還是網上的知識，基本都能隨意百度個幾百篇出來但是我找半天，確實是沒有找

【Hadoop】HBase框架學習之路

1 背景知識 1.1 解決問題解決HDFS不支援單條記錄的快速查詢和更新的問題。 1.2 適用情況存在億萬條記錄的資料庫，只有千萬或者百萬條記錄使用RDBMS更加合適確保你的應用不需要使用RDBMS的高階特性（第二索引，事務機制，

【Hadoop】Windows 10 在Intellij IEDA本地執行Hadoop MapReduce例項

環境：作業系統：Windows 10 Hadoop版本：2.7.3 Java版本: 1.8 前期準備： 1. 配置hadoop環境。 2. 配置maven環境。 1.下載maven部署包apache-maven-3.5.3-

【Hadoop】Yarn 框架原理及運作機制

1.1 YARN 基本架構 YARN是Hadoop 2.0中的資源管理系統，它的基本設計思想是將MRv1中的JobTracker拆分成了兩個獨立的服務：一個全域性的資源管理器ResourceManager和每個應用程式特有的ApplicationMaster。其中R

【Hadoop】HBase、HDFS和MapReduce架構異同簡解

HBase、HDFS和MapReduce架構異同 .. HBase（公司架構模型） HDFS2.0（公司架構模型） MR2.0（公司架構模型） MR1.0（公司架構模型）

【轉載】MapReduce編程(一) Intellij Idea配置MapReduce編程環境

.net class 上傳 -c word 指定 otl 輸出信息 resource 目錄(?)[-] 一軟件環境二創建maven工程三添加maven依賴四配置log4j 五啟動Hadoop 六運行WordCount從本地讀取文件七運行Word

【原創】Zend Framework 2框架之MVC

spa lov gef rst 當前 mage 匿名函數 skeleton 一個 ZendFramework 2框架之MVC作者：sys（360電商技術組）1.前言Zend Framework 2是zend官方推出的php開源框架，基於php5.3。他全然採用面向對象的代

【Hadoop】HA 場景下訪問 HDFS JAVA API Client

new mes inpu true stream node spa lba main 客戶端需要指定ns名稱，節點配置，ConfiguredFailoverProxyProvider等信息。代碼示例： package cn.itacst.hadoop.hdfs; i

【Hadoop】hiveserver2 不能啟動端口 10000 開啟服務的相關經驗總結

error: pro mon 進行 org multipl html pen exp 轉載來自http://blog.csdn.net/lsttoy/article/details/53490144。這個問題困擾了我三天，各種查資料踩坑填坑的嘗試，終於搞定了這個

【Hadoop】Combiner的本質是迷你的reducer，不能隨意使用

現在使用 article driver eight 操作類組合通過技術問題提出：眾所周知，Hadoop框架使用Mapper將數據處理成一個<key,value>鍵值對，再網絡節點間對其進行整理(shuffle)，然後使用Reducer處理數據並進行最

【quickhybrid】架構一個Hybrid框架

體系處理 cnblogs 瀏覽器導航重點自定義 android 機制前言雖然說本系列中架構篇是第一章，但實際過程中是在慢慢演化的第二版中才有這個概念，經過不斷的叠代，演化才逐步穩定明確目標首先明確需要做成一個什麽樣的框架？大致就是：一套API規範（統

python web框架【補充】自定義web框架

數據大小路徑 .py 用戶 ipa clr 接受 values 規範 http協議 HTTP簡介 HTTP協議是Hyper Text Transfer Protocol（超文本傳輸協議）的縮寫,是用於從萬維網（WWW:World Wide Web ）服務器傳輸超文本到本

【轉】dB的計算方法

方便濾波 order 意義級聯儀表宋體信噪比 car 原文地址：https://www.espressif.com/zh-hans/media/blog/%E5%A2%9E%E7%9B%8A%E6%AF%94%E5%80%BC-db-%E4%BB%A5%E5%8F

【轉】在使用實體框架（Entity Framework）的應用中加入審計信息（Audit trail）跟蹤數據的變動

要求 date ted hang ng- tar () eat code 在一些比較重要的業務系統中，通常會要求系統跟蹤數據記錄的變動情況。系統要記錄什麽時間，什麽人，對那些信息進行了變動。比較簡單的實現方式是在每個表中加入兩個字段CreatedBy和CreatedA

【原創】MapReduce運行原理和過程

文件合並 pil file 運行流程 dfs lec 線程操作合並一．Map的原理和運行流程 Map的輸入數據源是多種多樣的，我們使用hdfs作為數據源。文件在hdfs上是以block(塊，Hdfs上的存儲單元)為單位進行存儲的。 1.分片我們將

【Hadoop】MapReduce平行計算框架

MapReduce平行計算框架

基本知識

前言

核心概念

計算模型

系統架構

作業配置

計算流程與機制

作業提交和初始化

Mapper

Reducer

結構圖示

輸入/輸出格式(常用)

核心問題

Map和Reduce數量

作業配置

作業排程

排程過程 ：

有用的MapReduce特性

相關推薦

排程過程：