大資料學習筆記之分散式並行處理MapReduce

阿新 • • 發佈：2018-12-18

谷歌公司最先提出了分散式並行程式設計模型MapReduce，Hadoop MapReduce是它的開源實現，後者比前者使用門檻低很多。
MapReduce和傳統的平行計算框架的比較

傳統平行計算框架	MapReduce
叢集架構/容錯性	共享式（共享式儲存/共享記憶體）	非共享式，容錯性好
硬體/價格/擴充套件性	刀鋒伺服器、高速網、SAN、價格貴，擴充套件性差	普通PC機，便宜，擴充套件性好
程式設計/學習難度	what-how，難	what，簡單
使用場景	實時、細粒度計算、計算密集型	批處理、非實時、資料密集型

1.MapReduce模型簡介

MapReduce將複雜的、運行於大規模叢集上的平行計算過程高度地抽象到了兩個函式：Map和 Reduce

程式設計容易，不需要掌握分散式並行程式設計細節，也可以很容易把自己的程式執行在分散式系統上，完
成海量資料的計算
MapReduce採用“分而治之”策略，一個儲存在分散式檔案系統中的大規模資料集，會被切分成許多獨立的分片（split），這些分片可以被多個Map任務並行處理
MapReduce設計的一個理念就是“計算向資料靠攏”，而不是“資料向計算靠攏”，因為，移動
資料需要大量的網路傳輸開銷
MapReduce框架採用了Master/Slave架構，包括一個Master和若干個Slave。Master上執行 JobTracker，Slave上執行TaskTracker
Hadoop框架是用Java實現的，但是，MapReduce應用程式則不一定要用Java來寫

2.MapReduce體系結構

MapReduce體系結構主要由四個部分組成，分別是：Client、JobTracker、TaskTracker以及Task，如下圖：
在這裡插入圖片描述

Client 使用者編寫的MapReduce程式通過Client提交到JobTracker端,使用者可通過Client提供的一些介面檢視作業執行狀態
JobTracker 負責資源監控和作業排程 ,JobTracker會監控所有TaskTracker與Job的健康狀況，一旦發現失敗，就將相應的任務轉移到其他節點，JobTracker 會跟蹤任務的執行進度、資源使用量等資訊，並將這些資訊告訴任務排程器（TaskScheduler），而排程器會在資源出現空閒時，選擇合適的任務去使用這些資源

TaskTracker TaskTracker 會週期性地通過“心跳”將本節點上資源的使用情況和任務的執行進度彙報JobTracker，同時接收JobTracker 傳送過來的命令並執行相應的操作（如啟動新任務、殺死任務等），TaskTracker 使用“slot”等量劃分本節點上的資源量（CPU、記憶體等）。一個Task 獲取到一個slot 後才有機會執行，而Hadoop排程器的作用就是將各個TaskTracker 上的空閒slot分配給Task使用。slot 分為Map slot 和Reduce slot 兩種，分別供 MapTask 和Reduce Task 使用
Task Task 分為Map Task 和Reduce Task 兩種，均由TaskTracker 啟動

2.1 工作流程

在這裡插入圖片描述

2.2MapReduce各個執行階段

在這裡插入圖片描述

Split(分片) HDFS 以固定大小的block 為基本單位儲存資料，而對於MapReduce 而言，其處理單位是split。split 是一個邏輯概念，它只包含一些元資料資訊，比如資料起始位置、資料長度、資料所在節點等。 split的劃分方法完全由使用者自己決定。
Map任務的數量 Hadoop為每個split建立一個Map任務，split 的多少決定了Map任務的數目。大多數情況下，理想的分片大小是一個HDFS塊
Reduce任務的數量最優的Reduce任務個數取決於叢集中可用的reduce任務槽(slot)的數目，通常設定比reduce任務槽數目稍微小一些的Reduce任務個數（這樣可以預留一些系統資源處理可能發生的錯誤）

Shuffle過程詳解

shuffle過程，是指對Map輸出結果進行分割槽、排序、合併等處理並交給Reduce的過程，因此Shuffle過程可以分為Map端的操作和Reduce端的操作，
在這裡插入圖片描述

大資料學習筆記之分散式並行處理MapReduce

谷歌公司最先提出了分散式並行程式設計模型MapReduce，Hadoop MapReduce是它的開源實現，後者比前者使用門檻低很多。 MapReduce和傳統的平行計算框架的比較傳統平行計算框架 MapReduce 叢集架構/容錯性共享

大資料學習筆記之kafka----分散式訊息釋出/訂閱系統

一、kafka簡介 kafka是Linkedin於2012年12月份開源的訊息系統 kafka是一個分散式的，基於釋出/訂閱的訊息系統； kafka：一個佇列平臺，不僅支援離線，還支援線上特點： --訊息持久化：通過O(1)的磁碟資料結構提供資料的持久化；針對磁碟

大資料學習筆記之Hadoop-HDFS

HDFS的Shell操作基本語法 bin/hadoop fs 具體命令 OR bin/hdfs dfs 具體命令 dfs是fs的實現類。命令大全 bin/hadoop fs [-appendToFile <localsrc> ... <d

大資料學習筆記之ClouderaManager

Cloudera Manager的概念和功能簡單來說，Cloudera Manager是一個擁有叢集自動化安裝、中心化管理、叢集監控、報警功能的一個工具（軟體）,使得安裝叢集從幾天的時間縮短在幾個小時內，運維人員從數十人降低到幾人以內，極大的提高叢集管理的效率。管理：

大資料學習筆記之azkaban

Azakaban的安裝部署安裝前準備將Azkaban Web伺服器、Azkaban執行伺服器、Azkaban的sql執行指令碼及MySQL安裝包拷貝到hadoop102虛擬機器/opt/software目錄下 azkaban-web-server-2.5.0.tar.

大資料學習筆記之flume----日誌收集系統

一、flume基本概念 Flume是Cloudera提供的一個高可用的，高可靠的，分散式的海量日誌採集、聚合和傳輸的系統； Flume支援在日誌系統中定製各類資料傳送方，用於收集資料； Flume提供對資料進行簡單處理，並寫到各種資料接受方（可定製）的能力。總結：f

大資料學習筆記之spark及spark streaming----快速通用計算引擎

導語 spark 已經成為廣告、報表以及推薦系統等大資料計算場景中首選系統，因效率高，易用以及通用性越來越得到大家的青睞，我自己最近半年在接觸spark以及spark streaming之後，對spark技術的使用有一些自己的經驗積累以及心得體會，在此分享給大家。本文依

大資料學習筆記之三十 Spark介紹之一

Spark簡介主要用來加快資料分析的執行和讀寫速度基於MapReduce演算法實現的分散式計算，在擁有Hadoop MapReduce所有優點的基礎上，其任務的中間結果還可以儲存在記憶體中，查詢速度快處理迭代演算法（機器學習、圖挖掘演算法）和互動式資料探

大資料學習筆記3--HDFS擴充套件和mapreduce工作過程

RunJar向ResourceManager申請提交一個job ResourceManager返回jobid和一個job的提交的路徑（hdfs://） RunJar提交job任務的相關檔案（jar，配置job.xml,split.xml）到hdfs RunJar上報給ResourceManager任務已經提

大資料學習筆記——Java篇之集合框架(ArrayList)

Java集合框架學習筆記 1. Java集合框架中各介面或子類的繼承以及實現關係圖： 2. 陣列和集合類的區別整理：陣列： 1. 長度是固定的 2. 既可以存放基本資料型別又可以存放引用資料型別 3. 存放進陣列的必須是相同型別的資料 VS 集合類： 1. 長度是可變的 2. 只能存放物件的

學習筆記之——Opencv視訊處理模組

視訊訊號是重要的視覺資訊來源。視訊由一系列影象構成，這些影象稱為幀。幀以固定的時間間隔獲取（稱為幀速率，通常用幀/秒表示）。大多數計算機視覺方面的應用都是基於視訊來處理的，為此本博文作為Opencv視訊處理模組的學習筆記~ 幀的資料型別也是Mat。讀取視訊序列。要從視訊序列讀取幀，只需

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（1）

1、Zookeeper用於叢集主備切換。 2、YARN讓叢集具備更好的擴充套件性。 3、Spark沒有儲存能力。 4、Spark的Master負責叢集的資源管理，Slave用於執行計算任務。 5、Hadoop從2.x開始，把儲存和計算分離開來，形成兩個相對獨立的子叢集：HDF

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（2）

501、MapReduce計算框架中的輸入和輸出的基本資料結構是鍵-值對。 502、Hadoop神奇的一部分在於sort和shuffle過程。 503、Hive驅動計算的“語言”是一XML形式編碼的。 504、Hive通過和Jobtracker通訊來初始化MapReduce任務（Job）。 505、M