大資料IMF傳奇行動絕密課程第54課：Spark效能優化第十季之Spark統一記憶體管理

阿新 • • 發佈：2019-02-16

Spark效能優化第十季之Spark統一記憶體管理

1、傳統的Spark記憶體管理的問題
2、Spark統一記憶體管理
3、展望

Spark記憶體分為三部分：Execution、Sotrage、Other；
Shuffle，當記憶體不夠的時候下，磁碟IO很大負擔

10個Task並行，則會把記憶體分為10份，實際執行時Task可能會沾滿整個空間，其他任務分配不到空間。
即使一個Task不會把記憶體用完，另外一個Task申請記憶體，它有一個演算法，如果申請的記憶體不夠，Task不會自動Spill到disk，預設放一部分資料到記憶體中，有個百分比，這樣不斷重複，既消耗CPU又消耗記憶體。

這時就要Spill到磁碟

1、分散式系統的效能殺手是Shuffle，join、aggregation可能需要用很大記憶體，但是給他分配的很少，這不是有效的記憶體使用方法
2、假設需要Spill，計算時還要從磁碟讀到記憶體，這時磁碟IO是不能承受的
3、Storage空間不夠，計算結果丟失可能需要重新計算
4、假設Task佔滿記憶體，其他Cores都在空閒狀態
5、即使Spill資料到磁碟，它還是要申請一部分百分比的空間放一部分資料的

Execution分配記憶體：
ShuffleMemoryManager、TaskMemoryManager、ExecutorMemoryManager
最安全、廉價的STORAGE_LEVEL是MEMORY_AND_DISK_SER

Iterator一條一條讀取資料叫Unroll，無法一次性把所有的資料放進去，因為可能OOM。Unroll的記憶體空間是從Storage空間中獲得的，Unroll過程中會放盡量多的資料放入Storage中，Spark給了它一個引數，spark.storage.unroll.fraction預設也是0.2；unroll失敗的話則直接放到硬碟。

UnifiedMemoryManagement：
Execution Memory可以直接訪問Storage Memory，Storage Memory可以訪問Execution Memory，這兩個可以互相借記憶體。
預設兩部分加在一起為總堆大小-300MB，300MB可配置：spark.testing.reserveMemory RESERVED_SYSTEM_MOMORY_BYTES = 3 * 1024 * 1024是保留的記憶體大小。
spark.memory.storageFraction 預設為0.5，所以其最大空間為0.75 * 0.5 = 0.375倍的，且可以找execution memory借。如果借的還不夠的話，則有不同的處理方式
Storage可以向execution借記憶體，當execution需要記憶體時，則會將Storage的記憶體drop掉，知道足夠的空間夠自己使用。
相反execution也可以向Storage借記憶體，當Storage的Memory不夠的時候不會將Execution的記憶體drop掉，這是因為計算的時候牽扯很多東西，drop後太過於複雜。
圖54-1 Spark預設的記憶體分配方式

大資料IMF傳奇行動絕密課程第54課：Spark效能優化第十季之Spark統一記憶體管理

Spark效能優化第十季之Spark統一記憶體管理

大資料IMF傳奇行動絕密課程第87課：Flume推送資料到Spark Streaming案例實戰和內幕原始碼解密

大資料IMF傳奇行動絕密課程第42課：Checkpoint內幕解密

大資料IMF傳奇行動絕密課程第54課：Spark效能優化第十季之Spark統一記憶體管理

大資料IMF傳奇行動絕密課程第63課：Spark SQL下Parquet內幕深度解密

大資料IMF傳奇行動絕密課程第64課：Spark SQL下Parquet的資料切分和壓縮內幕詳解

大資料IMF傳奇行動 java maven工程（pom.xml配置）本地模式執行詞頻統計

Scala實戰高手****第6課：零基礎實戰Scala集合操作及Spark源碼解析

第十一套.大資料企業架構師精品課程（大資料篇）無加密

大資料Spark “蘑菇雲”行動補充內容第70課： Spark SQL程式碼實戰和效能調優 4個spark sql調優技巧有用！！！！

2018年新春報喜！熱烈祝賀王家林大咖大資料經典傳奇著作《SPARK大資料商業實戰三部曲》暢銷書籍清華大學出版社發行上市!

大資料發展最快的那些省份！看看你的家鄉排第幾

Spark商業案例與效能調優實戰100課》第3課：商業案例之通過RDD分析大資料電影點評系各種型別的最喜愛電影TopN及效能優化技巧

企業大資料戰略規劃高階培訓課程

IMF 傳奇行動啟動SPARK master無法啟動記憶體不夠問題解決) failed to map 715849728 bytes for committing reserved memory.

最新大資料24期實戰專案 9天附課件原始碼分享

機器學習筆記第1課：機器學習中的資料

人工智慧第三課：資料科學中的Python

最新大資料24期實戰專案 9天附課件原始碼（完整版）

Python--Redis實戰：第四章：資料安全與效能保障：第8節：關於效能方面的注意事項

探尋大資料下一波機會的投研精品課：6個細分賽道30個案例詳解

大資料IMF傳奇行動絕密課程第54課：Spark效能優化第十季之Spark統一記憶體管理

Spark效能優化第十季之Spark統一記憶體管理

相關推薦