54：Spark中的Tungsten-sort Based Shuffle內幕

阿新 • • 發佈：2019-01-17

本期內容： 1. Tungsten-sort Based Shuffle原理 2. Tungsten-sort Based Shuffle原始碼 ShortShuffleManager MemoryManager ShuffleExternalSorter

Tungsten-sort Based Shuffle

今天在對鎢絲計劃思考的基礎上，講解下基於Tungsten的shuffle。

首先解釋下概念，Tungsten-sort是對普通sort的一種優化，排序的不是內容本身，而是內容序列化後位元組陣列的指標(元資料)，把資料的排序轉變為了指標陣列的排序，實現了直接對序列化後的二進位制資料進行排序。由於直接基於二進位制資料進行操作，所以在這裡面沒有序列化和反序列化的過程。記憶體的消耗大大降低，相應的，會極大的減少的gc的開銷。

Page的管理

要做到這種，jvm的記憶體管理結構無法完成，所以提出了Page的概念。

Page是由block組成的，我們先看一下Block的結構，可以看到，除了記錄page編號外，Block內部組成是MemoryLocation。

在MemoryLocation中，重要的就是記錄了物件及初始位置的定位offset。實際執行可以onheap或者offheap(用NIO或者Tachyon管理)。

在shuffle角度，都是統一在SortShuffleManager中進行構造。可以看到，在如下位置構造了UnsafeShuffleWriter，但沒有UnsafeShuffleReader，從Tungsten角度講，reader使用的是HashShuffleReader。

從註釋中，可以看到資料一旦進來，就使用shuffle write進行序列化，在序列化的二進位制基礎上進行排序，這樣就可以減少記憶體的GC。這種優化需要我們的序列化器可以在不反序列化的情況下重新排序。

資料寫入

讓我們進入UnsafeShuffleWriter

會通過MyByteArrayOutputStream直接對記憶體操作

在write方法中，會迴圈記錄，寫入Sorter。

其中，serBuffle預設大小是1M，而且已經是序列化之後的資料了。

在插入前，首先會分配記憶體，之後會根據每條資料，採用遊標的方式進行遍歷，並計算找到recordAddress，完成插入操作。

在記憶體分配時，會有兩種分配方式UNSAFE和HEAP，內部各有一套自己的記憶體評估機制

此外，recordAddress是有一套自己的編解碼方式。

最終在插入時，僅僅是存放了一個RecordPointer，也就是資料指標。

小結

在具體插入操作的時候，以Page為核心單位，從Page角度講，插入記錄的時候，本身也有location和大小，需要找到page中指標的位置。在整個記憶體中有多個Page，每個Page有限定的大小，滿了之後會分配下一個Page。從JVM角度講，最底層的資料結構是位元組陣列，所以outputStream和序列化都是對位元組陣列來操作的。進行shuffle操作的時候，實際是對指標進行操作，這是沒有序列化和反序列化的關鍵。資料量也少，所以記憶體使用率低，大大減少了GC。

最後，說明下，即使配置了Tungsten shuffle，在一些情況也會自動變成sort-based shuffle，從資料結構角度講，限制蠻多，記錄不能太大，單條記錄不能超過128M，shuffle的時候中間過程不能產生太多的小檔案，不能超過160W，aggregation或者輸出後需要排序的操作也不可以。

54：Spark中的Tungsten-sort Based Shuffle內幕

Tungsten-sort Based Shuffle

Page的管理

資料寫入

小結

54：Spark中的Tungsten-sort Based Shuffle內幕

Spark Tungsten-sort Based Shuffle 分析

Spark-1.6.0中的Sort Based Shuffle原始碼解讀

[spark] Shuffle Read解析 (Sort Based Shuffle)

Spark原始碼分析之Sort-Based Shuffle讀寫流程

[spark] Shuffle Write解析 (Sort Based Shuffle)

56：Spark中的Tungsten記憶體和CPU的優化使用

Spark部分：Spark中取交集（intersection ）和取差集（subtract ）【Java版純程式碼】

【Spark篇】---Spark中Shuffle文件的尋址

工作采坑劄記：3. Spark中es-hadoop插件異常解決

Spark中的Spark Shuffle詳解(多看幾遍)

Spark Join——Broadcast Join、Shuffle Hash Join、Sort Merge Join

40：Spark Streaming中KafkaReceiver內幕實現徹底解密

spark中shuffle的過程------不看你後悔

分享知識-快樂自己：Java中的經典算法之冒泡排序(Bubble Sort)

STL：algorithm中排序函式sort（升序排列函式）和reverse（反轉排列函式）的簡單用法

Spark 入門之十二：再看Spark中的排程策略（Standlone）

大資料IMF傳奇行動絕密課程第54課：Spark效能優化第十季之Spark統一記憶體管理

Go_16：GoLang中flag標簽使用

GO_05_2：Golang 中 panic、recover、defer 的用法

54：Spark中的Tungsten-sort Based Shuffle內幕

Tungsten-sort Based Shuffle

Page的管理

資料寫入

小結

相關推薦