大話Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle

Shuffle本意是 混洗, 洗牌的意思, 在MapReduce過程中需要各節點上同一類資料彙集到某一節點進行計算,把這些分佈在不同節點的資料按照一定的規則聚集到一起的過程成為Shuffle.

在Hadoop的MapReduce框架中, Shuffle是連線Map和Reduce之間的橋樑, Map的資料要用到Reduce中必須經過Shuffle這個環節. 由於Shuffle涉及到磁碟的讀寫和網路的傳輸, 所以Shuffle的效能高低直接影響到整個程式的效能和吞吐量.

MapReduce中的Shuffle

這張圖是官網對Shuffle過程的描述,我們來分別看下map端和reduce端做了什麼, 如何做的.

Map端

map執行task時, 輸入資料來源於HDFS的block, 在MapReduce概念中, map的task只讀取split. split與block的對應關係可能是多對一, 預設是一對一.
map在寫磁碟之前, 會根據最終要傳給的reduce把資料劃分成相應的分割槽(partition). 每個分割槽中,後臺執行緒按鍵進行排序,如果有combiner,它在排序後的輸出上執行.(combiner可以使map的結果更緊湊,減少寫磁碟的資料和傳遞給reduce的資料[省空間和io])
map產生檔案時, 並不是簡單地將它寫到磁碟. 它利用緩衝的方式把資料寫到記憶體並處於效率的考慮進行與排序.(如圖中 buffer in memory). 每一個map都有一個環形記憶體緩衝區用於儲存任務輸出.緩衝區大小預設100MB, 一旦達到閾值(預設80%), 一個後臺執行緒便開始把內容溢位(split)到磁碟.(如果在此期間[split期間]緩衝區被填滿,map會被阻塞,直到寫磁碟過程完成.

每次記憶體緩衝區達到閾值移出,就會新建一個溢位檔案(split file)(上圖 partition,sort and split to disk). 因此在map任務最後一個記錄輸出之後,任務完成之前會把一出的多個檔案合併成一個已分割槽且已排序的輸出檔案.(上圖 merge on task)

Reduce端

map的輸出檔案在map執行的機器的本地磁碟(reduce一般不寫本地), map的輸出檔案包括多個分割槽需要的資料, reduce的輸入需要叢集上多個map的輸出. 每個map的完成時間可能不同, 因此只要有一個map任務完成, reduce就開始複製其輸出.(上圖 fetch階段) reduce有少量複製執行緒(預設5個),因此能夠並行取得map輸出(頻寬瓶頸).

reduce如何知道從哪臺機器獲取map結果? map執行完會通知master, reduce總有一個執行緒定期輪詢master(心跳)可以獲得map輸出的位置. master會等到所有reduce完成之後再通知map刪除其輸出.
如果map的輸出很小,會被複制到reduce任務jvm的記憶體.否則map輸出會被複制到磁碟(又寫磁碟)
複製完所有map輸出後,reduce任務進入排序合併階段(其實是合併階段,因為map的輸出上有序的).這個維持順序的合併過程是迴圈進行的.(比如50個map輸出,合併因子是10(預設值), 則合併將進行5次, 每次合併10個檔案, 最終有5箇中間檔案)
在最後reduce階段,直接把資料輸入reduce函式(上面的5箇中間檔案不會再合併成一個已排序的中間檔案). 輸出直接寫到檔案系統, 一般為HDFS.

map輸出為什麼要排序?

key存在combine操作,排序之後相同的key在一起方便合併.
reduce按照key讀資料時, 按照key的順序去讀, 遇到不一樣的 key時即可知道之前的key的資料是否讀取完畢. 如果沒排序,則需要把全部資料都做處理.

上面就是MapReduce的Shuffle過程, 其實Spark2.0之後的Shuffle過程與MapReduce的基本一致,都是基於排序的,早期spark版本中的shuffle是基於hash的,讓我們來一起看下.

Spark中的Shuffle

Spark有兩種Shuffle機制. 一種是基於Hash的Shuffle, 還有一種是基於Sort的Shuffle.在Shuffle機制轉變的過程中, 主要的一個優化點就是產生的小檔案個數.

以上圖為例,在Spark的運算元reduceByKey(_ + _, 2)產生的shuffle中,我們先看Shuffle Write階段.

Shuffle Write (Hash-based)

如圖所示, hash-based的Shuffle, 每個map會根據reduce的個數建立對應的bucket, 那麼bucket的總數量是: M * R (map的個數 * reduce的個數).
(假如分別有1k個map和reduce,將產生1百萬的小檔案!)
如上圖所示,2個core, 4個map task, 3個reduce task 產生了4*3 = 12個小檔案.(每個檔案中是不排序的)

Shuffle Write (Hash-based) 優化!

由於hash-based產生的小檔案太多, 對檔案系統的壓力很大, 後來做了優化.
把同一個core上的多個map輸出到同一個檔案. 這樣檔案數就變成了 core * R個.如下圖:

2個core, 4個map task, 3個 reduce task, 產生了2*3 = 6個檔案.
(每個檔案中仍然不是排序的)

Shuffle Write (Sort-based)

由於優化後的hash-based Shuffle的檔案數為: core * R, 產生的小檔案仍然過大, 所以引入了 sort-based Shuffle

sort-based Shuffle中, 一個map task 輸出一個檔案.
檔案在一些到磁碟之前, 會根據key進行排序. 排序後, 分批寫入磁碟. task完成之後會將多次溢寫的檔案合併成一個檔案. 由於一個task只對應一個磁碟檔案, 因此還會單獨寫一份索引檔案, 標識下游各個task的資料對應在檔案中的起始和結束offset.

Shuffle Read

目前,hash-based 和 sort-based寫方式公用相同的shuffle read.
如下圖所示:

shuffle read task從多個map的輸出檔案中fetch自己需要的已排序好的資料.
read task 會先從索引檔案中獲取自己需要的資料對應的索引, 在讀檔案的時候跳過對應的Block資料區, 只讀當前自己這個task需要的資料.

什麼時候開始fetch資料?

當 parent stage 的所有ShuffleMapTasks結束後再fetch(這裡和MapReduce不同). 理論上講, 一個ShuffleMapTask結束後就可以fetch, 但是為了迎合 stage 的概念(即一個stage如果其parent stages沒有執行完，自己是不能被提交執行的)，還是選擇全部ShuffleMapTasks執行完再去 etch.因為fetch來的 FileSegments要先在記憶體做緩衝(預設48MB緩衝界限), 所以一次fetch的 FileSegments總大小不能太大. 一個 softBuffer裡面一般包含多個 FileSegment,但如果某個FileSegment特別大的話, 這一個就可以填滿甚至超過 softBuffer 的界限.

邊 fetch 邊處理還是一次性 fetch 完再處理？

邊 fetch 邊處理.本質上,MapReduce shuffle階段就是邊fetch邊使用 combine()進行處理,只是combine()處理的是部分資料. MapReduce為了讓進入 reduce()的records有序, 必須等到全部資料都shuffle-sort後再開始 reduce(). 因為Spark不要求shuffle後的資料全域性有序，因此沒必要等到全部資料 shuffle完成後再處理.
那麼如何實現邊shuffle邊處理, 而且流入的records是無序的？答案是使用可以 aggregate 的資料結構, 比如 HashMap. 每從shuffle得到（從緩衝的 FileSegment中deserialize出來）一個 <key, value="">record, 直接將其放進 HashMap 裡面.如果該HashMap已經存在相應的 Key. 那麼直接進行 aggregate 也就是 func(hashMap.get(Key), Value).

Shuffle aggregate

shuffle read task拿到多個map產生的相同的key的資料後,需要對資料進行聚合,把相同key的資料放到一起,這個過程叫做aggregate.

大致過程如下圖:

task把讀來的 records 被逐個 aggreagte 到 HashMap 中，等到所有 records 都進入 HashMap，就得到最後的處理結果。

fetch 來的資料存放到哪裡？

剛 fetch 來的 FileSegment 存放在 softBuffer 緩衝區，經過處理後的資料放在記憶體 + 磁碟上。

小結:

其實MapReduce Suffle 和 Spark的Shuffle在主要方面還是基本一致的, 比如:都是基於sort的.
細節上有一些區別, 比如 mapreduce完成一個map,就開始reduce, 而spark由於stage的概念,需要等所有ShuffleMap完成再ShuffleReduce.

相關推薦

大話Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle

Shuffle本意是混洗, 洗牌的意思, 在MapReduce過程中需要各節點上同一類資料彙集到某一節點進行計算,把這些分佈在不同節點的資料按照一定的規則聚集到一起的過程成為Shuffle. 在Hadoop的MapReduce框架中, Shuffle是連線Map和Reduce之間的橋樑, Map

上帝視角一文理解JavaScript原型和原型鏈

本文呆鵝原創，原文地址：[https://juejin.im/user/307518987058686/posts](https://juejin.im/user/307518987058686/posts) ## 前言本文將從`上帝角度`講解JS的世界，在這個過程中，大家就能完全理解JS的原型和原型鏈

七、MapReduce的Shuffle和Spark的Shuffle異同？談一談各自的特點和過程。

1、MapReduce的Shuffle機制：在MapReduce框架中，shuffle是連線Map和Reduce之間的橋樑，M

一文理解Netty模型架構

本文基於Netty4.1展開介紹相關理論模型，使用場景，基本元件、整體架構，知其然且知其所以然，希望給讀者提供學習實踐參考。 1 Netty簡介 Netty是一個非同步事件驅動的網路應用程式框架，用於快速開發可維護的高效能協議伺服器和客戶端。 JDK原生NIO程式的問題 JDK原生

一文理解Tensorflow中reduce_mean() reduce_sum() reduce_max()...系列

原文medium部落格連結在Tensorflow(TF)中，常常會看到“reduce_"系列的東西，比如reduce_sum，reduce_mean…，剛剛開始我覺得，求和就sum就行，為什麼加一個reduce_字首？後來我意識到，每一次求和或者求平均值，其實都是自動的對Tens

一文理解class.getClassLoader().getResourceAsStream(file)和class.getResourceAsStream(file)區別

基礎理解都是實現獲取在classpath路徑下的資原始檔的輸入流。為什麼是classpath而不是src，因為當web專案執行時,IDE編譯器會把src下的一些資原始檔移至WEB-INF/classes，classPath目錄其實就是這個classes目錄。這個目錄下放的一般

一文理解Netty模型架構【轉】

本文基於Netty4.1展開介紹相關理論模型，使用場景，基本元件、整體架構，知其然且知其所以然，希望給讀者提供學習實踐參考。 1 Netty簡介 Netty是一個非同步事件驅動的網路應用程式框架，用於快速開發可維護的高效能協議伺服器和

一文理解：Java NIO 核心元件

背景知識同步、非同步、阻塞、非阻塞首先，這幾個概念非常容易搞混淆，但NIO中又有涉及，所以總結一下。同步：API呼叫返回時呼叫者就知道操作的結果如何了（實際讀取/寫入了多少位元組）。非同步：相對於同步，API呼叫返回時呼叫者不知道操作的結果，後面才

[java基礎]一文理解java多執行緒必備的ychronized關鍵字，從此不再混淆！

java併發程式設計中最長用到的關鍵字就是synchronized了,這裡講解一下這個關鍵字的用法和容易混淆的地方. synchronized關鍵字涉及到鎖的概念, 在java中,synchronized鎖大家又通俗的稱為:方法鎖,物件鎖和類鎖三種. 先上結論! 1 無論是修飾方法還是修飾程式碼塊都

[java基礎]一文理解java多執行緒必備的sychronized關鍵字，從此不再混淆！

java併發程式設計中最長用到的關鍵字就是synchronized了,這裡講解一下這個關鍵字的用法和容易混淆的地方.synchronized關鍵字涉及到鎖的概念, 在java中,synchronized

牛人經驗4(一文看懂國產晶片現狀（梳理2018最全版）)

來自：http://www.sohu.com/a/230162969_534679 一文看懂國產晶片現狀（梳理最全版） 2018-05-02 16:57 作者：光大證券來源：半導體行業觀察（ID:icbank）摘要週期性波動向上，市場規模超4000億

一文理解 Apache Hadoop 機架感知

背景分散式的叢集通常包含非常多的機器，由於受到機架槽位和交換機網口的限制，通常大型的分散式叢集都會跨好幾個機架，由多個機架上的機器共同組成一個分散式叢集。機架內的機器之間的網路速度通常都會高於跨機架機器之間的網路速度，並且機架之間機器的網路通訊通常受到上層交換

一文理解Tensorflow中reduce_mean reduce_sum reduce_max...系列

在Tensorflow(TF)中，常常會看到“reduce_"系列的東西，比如reduce_sum，reduce_mean…，剛剛開始我覺得，求和就sum就行，為什麼加一個reduce_字首？後來我意識到，每一次求和或者求平均值，其實都是自動的對Tensor

網路表示學習綜述：一文理解Network Embedding

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。在這個欄目裡，你會快速

神聖的NLP！一文理解詞性標註、依存分析和命名實體識別任務

詞性標註（Part-of-Speech Tagging, POS）、命名實體識別（Name Entity Recognition，NER）和依存句法分析（Dependency Parsing）是自然語言處理中常用的基本任務，本文基於SpaCy python庫，通過一個具體的程

MapReduce Shuffle 和 Spark Shuffle 原理概述

Shuffle簡介 Shuffle的本意是洗牌、混洗的意思，把一組有規則的資料儘量打亂成無規則的資料。而在MapReduce中，Shuffle更像是洗牌的逆過程，指的是將map端的無規則輸出按指定的規則“打亂”成具有一定規則的資料，以便reduce端接收處理。其在MapReduce中所處的工作階段是map輸出

.NETCore C# 中級篇2-4 一文帶你完全弄懂正則表示式

.NETCoreCSharp 中級篇2-4 本節內容為正則表示式的使用簡介有的時候，你是否有過這種需求：判斷一個Ip地址、郵箱、密碼規則是否合法。如果讓你使用if一類的傳統方法進行處理，你肯定會被逼瘋的。而對於絕大多數的程式語言而言，都有一個字串處理利器————正則表示式。它可以輕鬆的讓字串和規則匹配

推薦收藏系列：一文理解JVM虛擬機器（記憶體、垃圾回收、效能優化）解決面試中遇到問題

JVM棧（Java Virtual Machine Stacks）： Java中一個執行緒就會相應有一個執行緒棧與之對應，因為不同的執行緒執行邏輯有所不同，因此需要一個獨立的執行緒棧，因此棧儲存的資訊都是跟當前執行緒（或程式）相關資訊的，包括區域性變數、程式執行狀態、方法返回值、方法出口等等。每一個方法

一文理解java物件初始化順序

例子 Talk is cheap, Show you the code! public class ParentClass { static int parentStaticField = 1; final static int parentFinalStaticField =

MR的shuffle和Spark的shuffle之間的區別

solid combine 大量數據文件分區小文件位置 task創建 mr的shuffle mapShuffle 數據存到hdfs中是以塊進行存儲的，每一個塊對應一個分片，maptask就是從分片中獲取數據的在某個節點上啟動了map Task,map Tas