Spark 原始碼分析之ShuffleMapTask記憶體資料Spill和合並

阿新 • • 發佈：2018-12-14

前置條件

Hadoop版本: Hadoop 2.6.0-cdh5.15.0
Spark版本: SPARK 1.6.0-cdh5.15.0
JDK.1.8.0_191
scala2.10.7

技能標籤

Spark ShuffleMapTask 記憶體中的資料Spill到臨時檔案
臨時檔案中的資料是如何定入的，如何按partition升序排序，再按Key升序排序寫入(key,value)資料
每個臨時檔案，都存入對應的每個分割槽有多少個(key,value)對，有多少次流提交陣列，陣列中保留每次流的大小
如何把臨時檔案合成一個檔案
如何把記憶體中的資料和臨時檔案，進行分割槽，按key,排序後，再寫入合併檔案中

記憶體中資料Spill到磁碟

ShuffleMapTask進行當前分割槽的資料讀取(此時讀的是HDFS的當前分割槽,注意還有一個reduce分割槽，也就是ShuffleMapTask輸出檔案是已經按Reduce分割槽處理好的)
SparkEnv指定預設的SortShuffleManager,getWriter()中匹配BaseShuffleHandle物件，返回SortShuffleWriter物件
SortShuffleWriter，用的是ExternalSorter(外部排序物件進行排序處理),會把rdd.iterator(partition, context)的資料通過iterator插入到ExternalSorter中PartitionedAppendOnlyMap物件中做為記憶體中的map物件資料,每插入一條(key,value)的資料後，會對當前的記憶體中的集合進行判斷，如果滿足溢位檔案的條件，就會把記憶體中的資料寫入到SpillFile檔案中

原文連結

這裡

Spark 原始碼分析之ShuffleMapTask記憶體資料Spill和合並

前置條件 Hadoop版本: Hadoop 2.6.0-cdh5.15.0 Spark版本: SPARK 1.6.0-cdh5.15.0 JDK.1.8.0_191 scala2.10.7 技能標籤 Spark ShuffleMapTask 記憶體中的資

Spark 現金盤彩票開獎網原始碼下載原始碼分析之ShuffleMapTask記憶體資料Spill和合並

現金盤彩票開獎網原始碼下載聯絡方式：QQ：2747044651【征途原始碼論壇http://t.cn/Eyb4XkK】Spark ShuffleMapTask 記憶體中的資料Spill到臨時檔案臨時檔案中的資料是如何定入的，如何按partition升序排序，再按Key升序排序寫入(ke

Spark 原始碼分析之ShuffleMapTask處理

Spark 原始碼分析之ShuffleMapTask處理更多資源 SPARK 原始碼分析技術分享(bilibilid視訊彙總套裝視訊): https://www.bilibili.com/video/av37442139/ github: https://github.com

Spark原始碼分析之ShuffleMapTask處理

Spark原始碼分析之ShuffleMapTask處理更多資源 SPARK 原始碼分析技術分享(bilibilid視訊彙總套裝視訊): https://www.bilibili.com/video/av37442139/ github: https://github.com/opensour

spark 原始碼分析之十五 -- Spark記憶體管理剖析

本篇文章主要剖析Spark的記憶體管理體系。在上篇文章 spark 原始碼分析之十四 -- broadcast 是如何實現的？中對儲存相關的內容沒有做過多的剖析，下面計劃先剖析Spark的記憶體機制，進而進入記憶體儲存，最後再剖析磁碟儲存。本篇文章主要剖析記憶體管理機制。整體介紹 Spar

spark 原始碼分析之十六 -- Spark記憶體儲存剖析

上篇spark 原始碼分析之十五 -- Spark記憶體管理剖析講解了Spark的記憶體管理機制，主要是MemoryManager的內容。跟Spark的記憶體管理機制最密切相關的就是記憶體儲存，本篇文章主要介紹Spark記憶體儲存。總述跟記憶體儲存的相關類的關係如下：

spark 原始碼分析之二十二-- Task的記憶體管理

問題的提出本篇文章將回答如下問題： 1. spark任務在執行的時候，其記憶體是如何管理的？ 2. 堆內記憶體的定址是如何設計的？是如何避免由於JVM的GC的存在引起的記憶體地址變化的？其內部的記憶體快取池回收機制是如何設計的？ 3. 堆外和堆內記憶體分別是通過什麼來分配的？其資料的偏移

Spark原始碼分析之Spark Shell（上）

https://www.cnblogs.com/xing901022/p/6412619.html 文中分析的spark版本為apache的spark-2.1.0-bin-hadoop2.7。 bin目錄結構： -rwxr-xr-x. 1 bigdata bigdata 1089 Dec

Spark原始碼分析之ResultTask處理

Spark原始碼分析之ResultTask處理更多資源 SPARK 原始碼分析技術分享(bilibilid視訊彙總套裝視訊): https://www.bilibili.com/video/av37442139/ github: https://github.com/open

spark原始碼分析之BypassMergeSortShuffleWriter

概述 spark1.6以後，取消了基於hash的shuffle，只剩下基於sort的shuffle。現在只存在以下三種shuffle writer： BypassMergeSortShuffleWriter UnsafeShuffleWriter SortShuffl

spark原始碼分析之ShuffleExternalSorter

概述 ShuffleExternalSorter是專門用於sort-based shuffle的external sorter。傳入的record會被追加到data page。當所有的record都已經插入該sorter時，或者當前執行緒的shuffle memory已

spark原始碼分析之TaskMemoryManager

概述 TaskMemoryManager用於管理每個task分配的記憶體。在off-heap記憶體模式中，可以用64-bit的地址來表示記憶體地址。在on-heap記憶體模式中，通過base object的引用和該物件中64-bit 的偏移量來表示記憶體地址。當我

spark原始碼分析之NioBufferedFileInputStream

NioBufferedFileInputStream是spark實現的一種新的位元組流，它既支援內部緩衝區，又支援nio讀取檔案，使用direct buffer避免java堆與native記憶體之間的資料拷貝。在Java jdk中沒有可供直接使用的具備以上2個功能的位元組流。

spark原始碼分析之UnsafeShuffleWriter

概述 SortShuffleManager會判斷在滿足以下條件時呼叫UnsafeShuffleWriter，否則降級為使用SortShuffleWriter： Serializer支援relocation。這是指Serializer可以對已經序列化的物件進行排序，這種排

spark原始碼分析之ReadAheadInputStream

概述 ReadAheadInputStream實現了從當前buffer讀取的data耗盡時，切換到另外一個buffer讀取資料，並啟動任務從底層輸入流非同步預讀data，放入耗盡的buffer中。它通過2個buffer來完成——active buffer和read ah

Spark原始碼分析之三：Stage劃分

Stage劃分的大體流程如下圖所示：前面提到，對於JobSubmitted事件，我們通過呼叫DAGScheduler的handleJobSubmitted()方法來處理。那麼我們先來看下程式碼： // 處理Job提交的函式 pri

Mybatis原始碼分析之Select返回資料分析

Mybatis原始碼分析之Select返回資料分析在之前的一篇文章中分析了@Select註解的使用方法,在查詢方法中我們知可以返回Map型別，也可以返回指標，或者是list集合，或是單條記錄，今天就對這幾種返回做一個原始碼分析。 Select查詢在這裡就不需要再寫一

spark原始碼分析之Master原始碼主備切換機制分析

Master原始碼分析之主備切換機制 1.當選為leader之後的操作 //ElectedLeader 當選leader case ElectedLeader => {

Spark原始碼分析之Sort-Based Shuffle讀寫流程

override def read(): Iterator[Product2[K, C]] = { // 構造ShuffleBlockFetcherIterator，一個迭代器，它獲取多個塊，對於本地塊，從本地讀取 // 對於遠端塊，通過遠端方法讀取val blockFetcherItr = new

Spark原始碼分析之Master資源排程演算法原理

Master是通過schedule方法進行資源排程，告知worker啟動executor等。一schedule方法 1判斷master狀態，只有alive狀態的master才可以進行資源排程，sta

Spark 原始碼分析之ShuffleMapTask記憶體資料Spill和合並

前置條件

技能標籤

記憶體中資料Spill到磁碟

相關推薦