Hadoop Shuffle和Spark Shuffle的區別

阿新 • • 發佈：2018-12-25

一.MR的Shuffle
  mapShuffle
       資料存到hdfs中是以塊進行儲存的，每一個塊對應一個分片，maptask就是從分片中獲取資料的
       在某個節點上啟動了map Task,map Task讀取是通過k-v來讀取的,讀取的資料會放到環形快取區，這樣做的目的是為了防止IO的訪問次數,然後環形快取區的記憶體達到一定的閥值的
       時候會把檔案益寫到磁碟，溢位的各種小檔案會合併成一個大檔案，這個合併的過程中會進行排序，這個排序叫做歸併排序
   1.1map階段會涉及到
      1.1.1.sort排序(預設按字典排序)
      1.1.2.合併(combiner合併)
      1.1.3.檔案合併(merage 合併 總共有三種，預設是記憶體到磁碟)
      1.1.4.壓縮（設定壓縮就會執行）
  reduce Shuffle
       歸併排序完成後reduce端會拉取map端的資料，拉取的這個過程叫做copy過程，拉取的資料合併成一個檔案，GroupComparator(預設,這個我們也可以自定義)是專門對資料夾裡面的key進行分組
       然後就形成k-List(v1,v2,v3)的形式，然後reduce經過業務處理，最終輸出到hdfs，如果設定壓縮就會執行，不設定則不執行
   1.2 reduce階段會涉及到：
      1.2.1.sort排序
      1.2.2.分組（將相同的key的value放到一個容器的過程）
      1.2.3.merge檔案合併
      1.2.4.壓縮
二.spark shuffle的版本一
      2.1.rdd中一個partition對應一個shufflemapTask任務，因為某個節點上可以有多個分割槽，所以可以有多個shufflemapTask
      2.2.每一個shufflemapTask都會為每一個resultTask建立一個bucket快取(記憶體)，bucket的數量=M x R,當記憶體達到一定值的時候會益寫到shuffleblockfile檔案中
      2.3.shuffleMap task會封裝成一個叫mapStatus,這個mapstatus裡面包含了每一個resultTask拉取資料的大小
      2.4 Mapstatus： 是ShuffleMapTask返回排程器scheduler的物件，包括任務執行的塊管理器地址和對應每個reducer的輸出大小。
          如果partitions的數量大於2000，則用HighlyCompressedMapStatus，否則用CompressedMapStatus。
      2.5.每一個resultTask拉取過來的資料，就會在內部形成一個rdd,這個rdd叫做shuffleRdd,這個rdd的資料優先存放到記憶體中，記憶體中不夠然後存到磁盤裡
          如果是groupByKey運算元就結束了,下次執行ReduceByKey的時候，再進行相同key的聚合操作，這個時候會把shuffle rdd進行聚合操作生成mapPartitionRdd,就是我們執行reduceByKey之後得到的那個rdd
spark shuffle的版本二
      缺點:版本一的shuffle方式中會產生大量的小檔案，
      版本二的優點:就是為了減少這麼多小檔案的生成,bucket的數量=cpu*resultTask的個數
      版本二設計的原理:一個shuffleMapTask還是會寫入resultTask對應個數的本地檔案，但是當下一個shuffleMapTask執行的時候會直接把資料寫到之前已經建立好的本地檔案，這個檔案可以複用，這種複用機制叫做consolidation機制
      我們把這一組的shuffle檔案稱為shuffleGroup,每個檔案中都儲存了很多shuffleMapTask對應的資料，這個檔案叫做segment,這個時候因為不同的shuffleMapTask都是存在一個檔案中
      所以建立索引檔案，來標記shuffleMapTask在shuffleBlockFile的位置+偏移量，這樣就可以在一個檔案裡面把不同的shuffleMaptask資料分出來
spark shuffle的版本三
       版本三的優點：是通過排序建立索引，相比較於版本二，它只有一個臨時檔案，不管有多少個resultTask都只有一個臨時檔案，
       缺點:這個排序操作是一個消耗CPU的操作，代價是會消耗很多的cpu
       版本二佔用記憶體多，開啟檔案多，但不需排序，速度快。版本三佔用記憶體少，開啟檔案少，速度相對慢。實踐證明使用第二種方案的應用場景更多些。
三、shuffle的讀流程
       1.有一個類blockManager，封裝了臨時檔案的位置資訊,resultTask先通過blockManager,就知道我從哪個節點拿資料
       如果是遠端，它就是發起一次socket請求，建立一個socket連結。然後發起一次遠端呼叫，告訴遠端的讀取程式，讀取哪些資料。讀到的內容再通過socket傳過來。
       2.一條條讀資料和一塊塊讀資料的優缺點？
             2.1如果是一條條讀取的話，實時性好，效能低下
             2.2一塊塊讀取的話效能高，但是實時性不好
       Shuffle讀由reduce這邊發起，它需要先到臨時檔案中讀，一般這個臨時檔案和reduce不在一臺節點上，它需要跨網路去讀。但也不排除在一臺伺服器。不論如何它需要知道臨時檔案的位置，
      這個是誰來告訴它的呢？它有一個BlockManager的類。這裡就知道將來是從本地檔案中讀取，還是需要從遠端伺服器上讀取。
       讀進來後再做join或者combine的運算。
       這些臨時檔案的位置就記錄在Map結構中。
       可以這樣理解分割槽partition是RDD儲存資料的地方，實際是個邏輯單位，真正要取資料時，它就呼叫BlockManage去讀，它是以資料塊的方式來讀。
       比如一次讀取32k還是64k。它不是一條一條讀，一條一條讀肯定效能低。它讀時首先是看本地還是遠端，如果是本地就直接讀這個檔案了，
       如果是遠端，它就是發起一次socket請求，建立一個socket連結。然後發起一次遠端呼叫，告訴遠端的讀取程式，讀取哪些資料。讀到的內容再通過socket傳過來。

Hadoop Shuffle和Spark Shuffle的區別

一.MR的Shuffle mapShuffle 資料存到hdfs中是以塊進行儲存的，每一個塊對應一個分片，maptask就是從分片中獲取資料的在某個節點上啟動了map Task,map Task讀取是通過k-v來讀取的,讀取的資料會放到環形快

Hadoop shuffer 和 Spark shuffer區別

Hadoop shuffer階段分為mapshuffer階段，reduceshuffer階段兩個階段在理解之前需要知道shuffer是什麼意思，mapreduce的任務流程，大家可以先理解一下再進一步學習下一階段，圖1、2是我在網上找了兩個畫的不錯的mapreduce任

MapReduce Shuffle 和 Spark Shuffle 原理概述

Shuffle簡介 Shuffle的本意是洗牌、混洗的意思，把一組有規則的資料儘量打亂成無規則的資料。而在MapReduce中，Shuffle更像是洗牌的逆過程，指的是將map端的無規則輸出按指定的規則“打亂”成具有一定規則的資料，以便reduce端接收處理。其在MapReduce中所處的工作階段是map輸出

大話Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle

Shuffle本意是混洗, 洗牌的意思, 在MapReduce過程中需要各節點上同一類資料彙集到某一節點進行計算,把這些分佈在不同節點的資料按照一定的規則聚集到一起的過程成為Shuffle. 在Hadoop的MapReduce框架中, Shuffle是連線Map和Reduce之間的橋樑, Map

MR的shuffle和Spark的shuffle之間的區別

solid combine 大量數據文件分區小文件位置 task創建 mr的shuffle mapShuffle 數據存到hdfs中是以塊進行存儲的，每一個塊對應一個分片，maptask就是從分片中獲取數據的在某個節點上啟動了map Task,map Tas

hadoop和spark的區別介紹

比較網站 img alt 分布式叠代恢復 TE 好的學習hadoop已經有很長一段時間了，好像是二三月份的時候朋友給了一個國產Hadoop發行版下載地址，因為還是在學習階段就下載了一個三節點的學習版玩一下。在研究、學習hadoop的朋友可以去找一下看看（發行版大快

spark學習記錄（九、MasterHA和Spark shuffle）

一、zookeeper配置MasterHA 1.1修改conf下的spark-env.sh ： export SPARK_DAEMON_JAVA_OPTS="-Dspark-deploy-recoveryMode=ZOOKEEPER -Dspark.deploy.zookee

Hadoop、MapReduce、YARN和Spark的區別與聯絡

（1） Hadoop 1.0 第一代Hadoop，由分散式儲存系統HDFS和分散式計算框架MapReduce組成，其中，HDFS由一個NameNode和多個DataNode組成，MapReduce由一個JobTracker和多個TaskTracker組成，對應Hadoop版

hadoop、storm和spark的區別、比較

1、hadoop、Storm該選哪一個？為了區別hadoop和Storm，該部分將回答如下問題： 1.hadoop、Storm各是什麼運算 2.Storm為什麼被稱之為流式計算系統 3.hadoop適合什麼場景，什麼情況下使用hadoop 4.什麼是吞吐量首先

Hadoop、Storm和spark的區別

hadoop、storm和spark的區別、比較一、hadoop、Storm該選哪一個？為了區別hadoop和Storm，該部分將回答如下問題：1.hadoop、Storm各是什麼運算2.Storm為什麼被稱之為流式計算系統3.hadoop適合什麼場景，什麼情況下使用h

七、MapReduce的Shuffle和Spark的Shuffle異同？談一談各自的特點和過程。

1、MapReduce的Shuffle機制：在MapReduce框架中，shuffle是連線Map和Reduce之間的橋樑，M

談談Hadoop MapReduce和Spark MR實現

> 談談MapReduce的概念、Hadoop MapReduce和Spark基於MR的實現 ## 什麼是MapReduce？ MapReduce是一種分散式海量資料處理的程式設計模型，用於大規模資料集的並行運算。有以下幾個特點： - 分而治之，並行處理。抽象了map和reduce的計

剖析Hadoop和Spark的Shuffle過程差異（二）

開發十年，就只剩下這套架構體系了！ >>>

MapReduce和spark的shuffle過程詳解

存在位置方式傳遞第一個 2個過濾之前第三方面試常見問題，必備答案。參考：https://blog.csdn.net/u010697988/article/details/70173104 mapReducehe和Spark之間的最大區別是前者較偏向於離

Spark Shuffle原理和Shuffle的問題解決和優化

摘要： 1 shuffle原理　　1.1 mapreduce的shuffle原理　　　　1.1.1 map task端操作　　　　1.1.2 reduce task端操作　　 1.2 spark現在的SortShuffleManager 2 Shuffle操作

Spark shuffle原理和詳細圖解

shuffle 中Map任務產生的結果會根據所設定的partitioner演算法填充到當前執行任務所在機器的每個桶中。 Reduce任務啟動時時，會根據任務的ID，所依賴的Map任務ID以及MapS

Hadoop和Spark聯絡與區別

轉自：https://blog.csdn.net/vaychen/article/details/83578527 博主講解很形象，建議hadoop,spark學完後在看一遍談到大資料，相信大家對Hadoop和Apache Spark這兩個名字並不陌生。

Hadoop和Spark之間有什麼區別，現工業界都在使用何種技術?

談到大資料，相信大家對hadoop和Apache Spark這兩個名字並不陌生。然而，最近業界有一些人正在大張旗鼓的宣揚Hadoop將死，Spark將立。談到大資料，相信大家對hadoop和Apache Spark這兩個名字並不陌生。然而，最近業界有一些人正在大張旗鼓

大資料Hadoop和Spark有什麼區別？內附大資料Spark+Hadoop資料

其實這是兩種框架的區別，Hadoop框架比較側重離線大批量計算，而spark框架則側重於記憶體和實時計算。在這些基礎上，衍生出了一些常用的附屬元件，比如Hadoop生態下的HBASE、hive、HDFS等，HDFS可用於資料儲存，MR可用於分散式計算框架。同樣，在spark的基礎上也衍生出了很

秒懂Hadoop和Spark聯絡與區別

談到大資料，相信大家對Hadoop和Apache Spark這兩個名字並不陌生。但我們往往對它們的理解只是提留在字面上，並沒有對它們進行深入的思考，下面不妨跟我一塊看下它們究竟有什麼異同。解決問題的層面不一樣首先，Hadoop和Apache Spark兩者都是

Hadoop Shuffle和Spark Shuffle的區別

相關推薦