Spark官方調優文件翻譯（轉載）

阿新 • • 發佈：2019-01-13

Spark調優

由於大部分Spark計算都是在記憶體中完成的，所以Spark程式的瓶頸可能由叢集中任意一種資源導致，如：CPU、網路頻寬、或者記憶體等。最常見的情況是，資料能裝進記憶體，而瓶頸是網路頻寬；當然，有時候我們也需要做一些優化調整來減少記憶體佔用，例如將RDD以序列化格式儲存（storing RDDs in serialized form）。本文將主要涵蓋兩個主題：1.資料序列化（這對於優化網路效能極為重要）；2.減少記憶體佔用以及記憶體調優。同時，我們也會提及其他幾個比較小的主題。

資料序列化

序列化在任何一種分散式應用效能優化時都扮演幾位重要的角色。如果序列化格式序列化過程緩慢，或者需要佔用位元組很多，都會大大拖慢整體的計算效率。通常，序列化都是Spark應用優化時首先需要關注的地方。Spark著眼於要達到便利性（允許你在計算過程中使用任何Java型別）和效能的一個平衡。Spark主要提供了兩個序列化庫：

Java serialization: 預設情況，Spark使用Java自帶的ObjectOutputStream 框架來序列化物件，這樣任何實現了 java.io.Externalizable 來控制序列化效能。Java序列化很靈活但效能較差，同時序列化後佔用的位元組數也較多。
Kryo serialization: Spark還可以使用Kryo 庫（版本2）提供更高效的序列化格式。Kryo的序列化速度和位元組佔用都比Java序列化好很多（通常是10倍左右），但Kryo不支援所有實現了Serializable 介面的型別，它需要你在程式中 register 需要序列化的型別，以得到最佳效能。

要切換到使用 Kryo，你可以在 SparkConf 初始化的時候呼叫 conf.set(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”)。這個設定不僅控制各個worker節點之間的混洗資料序列化格式，同時還控制RDD存到磁碟上的序列化格式。目前，Kryo不是預設的序列化格式，因為它需要你在使用前註冊需要序列化的型別，不過我們還是建議在對網路敏感的應用場景下使用Kryo。

Spark對一些常用的Scala核心型別（包括在Twitter chill 庫的AllScalaRegistrar中）自動使用Kryo序列化格式。

如果你的自定義型別需要使用Kryo序列化，可以用 registerKryoClasses 方法先註冊：

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

Kryo的文件（Kryo documentation ）中有詳細描述了更多的高階選項，如：自定義序列化程式碼等。

如果你的物件很大，你可能需要增大 spark.kryoserializer.buffer 配置項（config）。其值至少需要大於最大物件的序列化長度。

最後，如果你不註冊需要序列化的自定義型別，Kryo也能工作，不過每一個物件例項的序列化結果都會包含一份完整的類名，這有點浪費空間。

記憶體調優

記憶體佔用調優主要需要考慮3點：1.資料佔用的總記憶體（你多半會希望整個資料集都能裝進記憶體吧）；2.訪問資料集中每個物件的開銷；3.垃圾回收的開銷（如果你的資料集中物件週轉速度很快的話）。

一般，Java物件的訪問時很快的，但同時Java物件會比原始資料（僅包含各個欄位值）佔用的空間多2~5倍。主要原因有：

每個Java物件都有一個物件頭（object header），物件頭大約佔用16位元組，其中包含像其對應class的指標這樣的資訊。對於一些包含較少資料的物件（比如只包含一個Int欄位），這個物件頭可能比物件資料本身還大。
Java字串（String）有大約40子節點額外開銷（Java String以Char資料的形式儲存原始資料，所以需要一些額外的欄位，如陣列長度等），並且每個字元都以兩位元組的UTF-16編碼在內部儲存。因此，10個字元的String很容易就佔了60位元組。
一些常見的集合類，如 HashMap、LinkedList，使用的是連結串列類資料結構，因此它們對每項資料都有一個包裝器。這些包裝器物件不僅其自身就有“物件頭”，同時還有指向下一個包裝器物件的連結串列指標（通常為8位元組）。
原始型別的集合通常也是以“裝箱”的形式包裝成物件（如：java.lang.Integer）。

本節只是Spark記憶體管理的一個概要，下面我們會更詳細地討論各種Spark記憶體調優的具體策略。特別地，我們會討論如何評估資料的記憶體使用量，以及如何改進 – 要麼改變你的資料結構，要麼以某種序列化格式儲存資料。最後，我們還會討論如何調整Spark的快取大小，以及如何調優Java的垃圾回收器。

記憶體管理概覽

Spark中記憶體主要用於兩類目的：執行計算和資料儲存。執行計算的記憶體主要用於混洗（Shuffle）、關聯（join）、排序（sort）以及聚合（aggregation），而資料儲存的記憶體主要用於快取和叢集內部資料傳播。Spark中執行計算和資料儲存都是共享同一個記憶體區域（M）。如果執行計算沒有佔用記憶體，那麼資料儲存可以申請佔用所有可用的記憶體，反之亦然。執行計算可能會搶佔資料儲存使用的記憶體，並將儲存於記憶體的資料逐出記憶體，直到資料儲存佔用的記憶體比例降低到一個指定的比例（R）。換句話說，R是M基礎上的一個子區域，這個區域的記憶體資料永遠不會被逐出記憶體。然而，資料儲存不會搶佔執行計算的記憶體（否則實現太複雜了）。

這樣設計主要有這麼幾個需要考慮的點。首先，不需要快取資料的應用可以把整個空間用來執行計算，從而避免頻繁地把資料吐到磁碟上。其次，需要快取資料的應用能夠有一個數據儲存比例（R）的最低保證，也避免這部分快取資料被全部逐出記憶體。最後，這個實現方式能夠在預設情況下，為大多數使用場景提供合理的效能，而不需要專家級使用者來設定記憶體使用如何劃分。

雖然有兩個記憶體劃分相關的配置引數，但一般來說，使用者不需要設定，因為預設值已經能夠適用於絕大部分的使用場景：

spark.memory.fraction 表示上面M的大小，其值為相對於JVM堆記憶體的比例（預設0.75）。剩餘的25%是為其他使用者資料結構、Spark內部元資料以及避免OOM錯誤的安全預留空間（大量稀疏資料和異常大的資料記錄）。
spark.memory.storageFraction 表示上面R的大小，其值為相對於M的一個比例（預設0.5）。R是M中專門用於快取資料塊，且這部分資料塊永遠不會因執行計算任務而逐出記憶體。

評估記憶體消耗

確定一個數據集佔用記憶體總量最好的辦法就是，建立一個RDD，並快取到記憶體中，然後再到web UI上”Storage”頁面檢視。頁面上會展示這個RDD總共佔用了多少記憶體。

要評估一個特定物件的記憶體佔用量，可以用 SizeEstimator.estimate 方法。這個方法對試驗哪種資料結構能夠裁剪記憶體佔用量比較有用，同時，也可以幫助使用者瞭解廣播變數在每個執行器堆上佔用的記憶體量。

資料結構調優

減少記憶體消耗的首要方法就是避免過多的Java封裝（減少物件頭和額外輔助欄位），比如基於指標的資料結構和包裝物件等。以下有幾條建議：

設計資料結構的時候，優先使用物件陣列和原生型別，減少對複雜集合型別（如：HashMap）的使用。fastutil 提供了一些很方便的原聲型別集合，同時相容Java標準庫。
儘可能避免巢狀大量的小物件和指標。
對應鍵值應儘量使用數值型或列舉型，而不是字串型。
如果記憶體小於32GB，可以設定JVM標誌引數 -XX:+UseCompressdOops 將指標設為4位元組而不是8位元組。你可以在

序列化RDD儲存

如果經過上面的調整後，儲存的資料物件還是太大，那麼你可以試試將這些物件以序列化格式儲存，所需要做的只是通過 RDD persistence API 設定好儲存級別，如：MEMORY_ONLY_SER。Spark會將RDD的每個分割槽以一個巨大的位元組陣列形式儲存起來。以序列化格式儲存的唯一缺點就是訪問資料會變慢一點，因為Spark需要反序列化每個被訪問的物件。如果你需要序列化快取資料，我們強烈建議你使用Kryo（using Kryo），和Java序列化相比，Kryo能大大減少序列化物件佔用的空間（當然也比原始Java物件小很多）。

垃圾回收調優

JVM的垃圾回收在某些情況下可能會造成瓶頸，比如，你的RDD儲存經常需要“換入換出”（新RDD搶佔了老RDD記憶體，不過如果你的程式沒有這種情況的話那JVM垃圾回收一般不是問題，比如，你的RDD只是載入一次，後續只是在這一個RDD上做操作）。當Java需要把老物件逐出記憶體的時候，JVM需要跟蹤所有的Java物件，並找出那些物件已經沒有用了。概括起來就是，垃圾回收的開銷和物件個數成正比，所以減少物件的個數（比如用 Int陣列取代 LinkedList），就能大大減少垃圾回收的開銷。當然，一個更好的方法就如前面所說的，以序列化形式儲存資料，這時每個RDD分割槽都只包含有一個物件了（一個巨大的位元組陣列）。在嘗試其他技術方案前，首先可以試試用序列化RDD的方式（serialized caching）評估一下GC是不是一個瓶頸。

如果你的作業中各個任務需要的工作記憶體和節點上儲存的RDD快取佔用的記憶體產生衝突，那麼GC很可能會出現問題。下面我們將討論一下如何控制好RDD快取使用的記憶體空間，以減少這種衝突。

衡量GC的影響

GC調優的第一步是統計一下，垃圾回收啟動的頻率以及GC所使用的總時間。給JVM設定一下這幾個引數（參考Spark配置指南 – configuration guide，檢視Spark作業中的Java選項引數）：-verbose:gc -XX:+PrintGCDetails，就可以在後續Spark作業的worker日誌中看到每次GC花費的時間。注意，這些日誌是在叢集worker節點上（在各節點的工作目錄下stdout檔案中），而不是你的驅動器所在節點。

高階GC調優

為了進一步調優GC，我們就需要對JVM記憶體管理有一個基本的瞭解：

Java堆記憶體可分配的空間有兩個區域：新生代（Young generation）和老生代（Old generation）。新生代用以儲存生存週期短的物件，而老生代則是儲存生存週期長的物件。
新生代區域被進一步劃分為三個子區域：Eden，Survivor1，Survivor2。
簡要描述一下垃圾回收的過程：如果Eden區滿了，則啟動一輪minor GC回收Eden中的物件，生存下來（沒有被回收掉）的Eden中的物件和Survivor1區中的物件一併複製到Survivor2中。兩個Survivor區域是互相切換使用的（就是說，下次從Eden和Survivor2中複製到Survivor1中）。如果某個物件的年齡（每次GC所有生存下來的物件長一歲）超過某個閾值，或者Survivor2（下次是Survivor1）區域滿了，則將物件移到老生代（Old區）。最終如果老生代也滿了，就會啟動full GC。

Spark GC調優的目標就是確保老生代（Old generation ）只儲存長生命週期RDD，而同時新生代（Young generation ）的空間又能足夠儲存短生命週期的物件。這樣就能在任務執行期間，避免啟動full GC。以下是GC調優的主要步驟：

從GC的統計日誌中觀察GC是否啟動太多。如果某個任務結束前，多次啟動了full GC，則意味著用以執行該任務的記憶體不夠。
如果GC統計資訊中顯示，老生代記憶體空間已經接近存滿，可以通過降低 spark.memory.storageFraction 來減少RDD快取佔用的記憶體；減少快取物件總比任務執行緩慢要強！
如果major GC比較少，但minor GC很多的話，可以多分配一些Eden記憶體。你可以把Eden的大小設為高於各個任務執行所需的工作記憶體。如果要把Eden大小設為E，則可以這樣設定新生代區域大小：-Xmn=4/3*E。（放大4/3倍，主要是為了給Survivor區域保留空間）
舉例來說，如果你的任務會從HDFS上讀取資料，那麼單個任務的記憶體需求可以用其所讀取的HDFS資料塊的大小來評估。需要特別注意的是，解壓後的HDFS塊是解壓前的2~3倍大。所以如果我們希望保留3~4個任務並行的工作記憶體，並且HDFS塊大小為64MB，那麼可以評估Eden的大小應該設為 4*3*64MB。
最後，再觀察一下垃圾回收的啟動頻率和總耗時有沒有什麼變化。

我們的很多經驗表明，GC調優的效果和你的程式程式碼以及可用的總記憶體相關。網上還有不少調優的選項說明（many more tuning options），但總體來說，就是控制好full GC的啟動頻率，就能有效減少垃圾回收開銷。

其他注意事項

並行度

一般來說叢集並不會滿負荷運轉，除非你吧每個操作的並行度都設得足夠大。Spark會自動根據對應的輸入檔案大小來設定“map”類運算元的並行度（當然你可以通過一個SparkContext.textFile等函式的可選引數來控制並行度），而對於想 groupByKey 或reduceByKey這類 “reduce” 運算元，會使用其各父RDD分割槽數的最大值。你可以將並行度作為構建RDD第二個引數（參考spark.PairRDDFunctions ），或者設定 spark.default.parallelism 這個預設值。一般來說，評估並行度的時候，我們建議2~3個任務共享一個CPU。

Reduce任務的記憶體佔用

如果RDD比記憶體要大，有時候你可能收到一個OutOfMemoryError，但其實這是因為你的任務集中的某個任務太大了，如reduce任務groupByKey。Spark的混洗（Shuffle）運算元（sortByKey，groupByKey，reduceByKey，join等）會在每個任務中構建一個雜湊表，以便在任務中對資料分組，這個雜湊表有時會很大。最簡單的修復辦法就是增大並行度，以減小單個任務的輸入集。Spark對於200ms以內的短任務支援非常好，因為Spark可以跨任務複用執行器JVM，任務的啟動開銷很小，因此把並行度增加到比叢集中總CPU核數還多是沒有任何問題的。

廣播大變數

使用SparkContext中的廣播變數相關功能（broadcast functionality）能大大減少每個任務本身序列化的大小，以及叢集中啟動作業的開銷。如果你的Spark任務正在使用驅動器（driver）程式中定義的巨大物件（比如：靜態查詢表），請考慮使用廣播變數替代之。Spark會在master上將各個任務的序列化後大小打印出來，所以你可以檢查一下各個任務是否過大；通常來說，大於20KB的任務就值得優化一下。

資料本地性

資料本地性對Spark作業往往會有較大的影響。如果程式碼和其所操作的資料在統一節點上，那麼計算速度肯定會更快一些。但如果二者不在一起，那必然需要挪動其中之一。一般來說，挪動序列化好的程式碼肯定比挪動一大堆資料要快。Spark就是基於這個一般性原則來構建資料本地性的排程。

資料本地性是指程式碼和其所處理的資料的距離。基於資料當前的位置，資料本地性可以劃分成以下幾個層次（按從近到遠排序）：

PROCESS_LOCAL 資料和執行的程式碼處於同一個JVM程序內。
NODE_LOCAL 資料和程式碼處於同一節點。例如，資料處於HDFS上某個節點，而對應的執行器（executor）也在同一個機器節點上。這會比PROCESS_LOCAL稍微慢一些，因為資料需要跨程序傳遞。
NO_PREF 資料在任何地方處理都一樣，沒有本地性偏好。
RACK_LOCAL 資料和程式碼處於同一個機架上的不同機器。這時，資料和程式碼處於不同機器上，需要通過網路傳遞，但還是在同一個機架上，一般也就通過一個交換機傳輸即可。
ANY 資料在網路中其他未知，即資料和程式碼不在同一個機架上。

Spark傾向於讓所有任務都具有最佳的資料本地性，但這並非總是可行的。某些情況下，可能會出現一些空閒的執行器（executor）沒有待處理的資料，那麼Spark可能就會犧牲一些資料本地性。有兩種可能的選項：a）等待已經有任務的CPU，待其釋放後立即在同一臺機器上啟動一個任務；b）立即在其他節點上啟動新任務，並把所需要的資料複製過去。

而通常，Spark會等待一小會，看看是否有CPU會被釋放出來。一旦等待超時，則立即在其他節點上啟動並將所需的資料複製過去。資料本地性各個級別之間的回落超時可以單獨配置，也可以在統一引數內一起設定；詳細請參考 configuration page 中的 spark.locality 相關引數。如果你的任務執行時間比較長並且資料本地性很差，你就應該試試調大這幾個引數，不過預設值一般都能適用於大多數場景了。

總結

本文是一個簡短的Spark調優指南，列舉了Spark應用調優一些比較重要的考慮點 – 最重要的就是，資料序列化和記憶體調優。對於絕大多數應用來說，用Kryo格式序列化資料能夠解決大多數的效能問題。如果您有其他關於效能調優最佳實踐的問題，歡迎郵件諮詢（Spark mailing list ）。

Spark官方調優文件翻譯（轉載）

Spark調優

資料序列化

記憶體調優

記憶體管理概覽

評估記憶體消耗

資料結構調優

序列化RDD儲存

垃圾回收調優

其他注意事項

並行度

Reduce任務的記憶體佔用

廣播大變數

資料本地性

總結

Spark官方調優文件翻譯（轉載）

Spark官方調優文檔翻譯（轉載）

Hyperledger Fabric 1.3 官方文件翻譯（三）關鍵概念 (Key Concepts)

Hyperledger Fabric 1.3 官方文件翻譯（五）教程 (Tutorials)

PureMVC 官方文件翻譯（一）

ECMAScript 2015官方文件翻譯（二）

Autofac官方文件翻譯——（一）Getting Started

Kafka官方文件翻譯（一）產品概述

Django 2.0 之Models(模型) 官方文件翻譯（一）

Pilosa文件翻譯（二）入門指南

Pilosa文件翻譯（三）示例

Vue-Analgtics 使用者文件翻譯（部分）

V4L2文件翻譯（十三）

V4L2文件翻譯（六）

Theano Tutorial文件翻譯（一）：詞彙

V4L2文件翻譯（七）

V4L2文件翻譯（二）

V4L2文件翻譯（四）

V4L2文件翻譯（十）

android開源圖表庫MPAndroidChart文件翻譯（上）

Spark官方調優文件翻譯（轉載）

Spark調優

資料序列化

記憶體調優

記憶體管理概覽

評估記憶體消耗

資料結構調優

序列化RDD儲存

垃圾回收調優

其他注意事項

並行度

Reduce任務的記憶體佔用

廣播大變數

資料本地性

總結

相關推薦