spark streaming效能優化

阿新 • • 發佈：2019-01-26

一資料接收並行度調優

通過網路接收資料的時候，比如kafka或者flume,會將資料反序列化，並存儲在在Spark記憶體中。如果資料接收成為系統的瓶頸，那麼可以考慮並行化接收資料。

1.1除了建立更多輸入DStream和Receiver

每一個InputDStream都會在某個Worker上的Executor上啟動一個Receiver，該Receiver接收一個數據流。因此可以通過建立多個InputDStream，並且配置他們接收資料來源不同的分割槽資料，達到接收多個數據流的效果。比如說,一個接收兩個kafka topic的InputDStream,可以拆分成2個InputDStream，每一個分別接收一個topic的資料。這樣就會建立2個Receiver，從而並行的接收資料，進而提升吞吐量。多個DStream可以使用union運算元進行聯合，從而形成一個新的DStream,後續的操作都可以基於聯合的DStream.

intnumStreams = 5;
List<JavaPairDStream<String,String>> kafkaStreams= new ArrayList<JavaPairDStream<String,String>>(numStreams);
for (int i= 0; i < numStreams; i++) {
kafkaStreams.add(KafkaUtils.createStream(...));
}
JavaPairDStream<String,String> unifiedStream= streamingContext.union(kafkaStreams

.get(0),kafkaStreams.subList(1,kafkaStreams.size()));
unifiedStream.print();

1.2 調整block 時間間隔

我們可以通過調整spark.streaming.blockInterval引數來設定產生一個block的時間間隔，預設是200ms。對於大多數Receiver來說，在將接收到的資料儲存到Spark的BlockManager之前，都會將資料根據設定的時間間隔分成構造成不同的block，然後推送給BlockManager儲存。每一個批次中block的數量決定了該批次對應的RDD的partition數量，以及針對該RDD執行轉換操作的時候建立的task數量,每一個batch對應的task數量大約是 = (batch 時間間隔)/(block時間間隔) ，即batch 時間間隔為1s，block時間間隔為200ms，相當於一個batch會包括5個block，即batch對應的RDD就有5個分割槽，也就決定task的數量是5.

如何認定batch對應的task數量太少呢？

如果每個batch的task數量低於每臺機器的CPU Core數量，那麼就說明batch的task數量是不夠的，因為所有的CPU資源無法完全被利用起來。

要為batch增加block的數量，那麼就減小block interval。然而，推薦的block interval最小值是50ms，如果低於這個數值，那麼大量task的啟動時間，可能會變成一個性能開銷點。

1.3 調大task數量

如果並行的task數量不是很多，那麼叢集資源無法充分利用，舉例來說對於分散式的reduce操作，比如reduceByKeyAndWindow或者reduceByKey等操作，預設的並行度是由spark.default. parallelism引數決定的，你可以在reduceByKey操作中傳入第二個引數，手動指定並行度，也可以調整全域性的spark.default.parallelism引數

如果輸入的資料流，如果你覺得分割槽數目太少，也可以對輸入的資料流重新分割槽，顯示對輸入資料流執行repartition操作，這樣調大分割槽數目，那麼task的數量也就大了

二任務啟動優化

如果每一秒鐘啟動的task數量太多，假設50個，即1s的batch時間間隔和50ms的block時間間隔。如果傳送這些task去worker上的executor，那麼效能開銷會比較大，這是很難到到毫秒級的延遲了。

2.1task序列化

使用Kryo序列化類庫來序列化task，可以減小task的大小從而減少driver傳送這些task到各個executor的傳送時間，即節省網路資源

2.2 執行模式

在standalone模式下執行spark，可以達到更少的task啟動時間

三資料序列化優化

資料序列化造成的系統開銷可以由序列化格式的優化來減小。在流式場景下，有兩種型別的資料需要序列化：

1 輸入資料：預設情況下，接收到的輸入資料，是儲存在Executor記憶體中，使用的持久化級別是MEMORY_AND_DISK_2.這就意味著資料被序列化位元組從而減小GC開銷，並且還會複製到其他節點已進行容錯。因此Receiver必須反序列化接收到的資料，然後在使用Spark的序列化格式序列化資料

2 流式計算操作生成持久化的RDD: 流式計算生成持久化RDD,可能會持久化到記憶體，這裡預設持久化級別就是MEMORY_ONLY_SER,預設就會減小GC開銷。

四 batch時間間隔優化

batch應該在生成之後就儘可能塊的處理掉，對於一個應用來說，可以通過觀察Spark UI上batch的處理時間來定。batch的處理時間必須小於batch 時間間隔，假設batch 時間間隔1s，那麼這個批次的處理時間不應超過1s

為應用計算正確batch比較好的辦法：

給定一個很保守的batch interval，比如5s-10s,以很慢的資料接受速率進行測試，要檢查應用是否你跟的上這個資料接收速率，可以檢查每一個batch的處理時間的延遲，如果處理時間與batch interval基本吻合，那麼應用就是穩定的，否則如果batch排程延遲持續增長，那麼就意味著應用無法跟得上這個速率，也就是不穩定的。記住，由於臨時性的資料增長導致的暫時的延遲增長，可以合理的，只要延遲情況可以在短時間內恢復即可。

五記憶體調優

如果想要使用一個視窗長度為10分鐘的window操作，那麼叢集就必須有足夠的記憶體來儲存10分鐘內的資料。如果想要使用updateStateByKey來維護許多key的state，那麼你的記憶體資源就必須足夠大。反過來說，如果想要做一個簡單的map-filter-store操作，那麼需要使用的記憶體就很少。

通常來說，通過Receiver接收到的資料，會使用MEMORY_AND_DISK_SER_2持久化級別來進行儲存，因此無法儲存在記憶體中的資料會溢寫到磁碟上。而溢寫到磁碟上，是會降低應用的效能的。因此，通常是建議為應用提供它需要的足夠的記憶體資源。建議在一個小規模的場景下測試記憶體的使用量，並進行評估。

記憶體調優的另外一個方面是垃圾回收。對於流式應用來說，如果要獲得低延遲，肯定不想要有因為JVM垃圾回收導致的長時間延遲。有很多引數可以幫助降低記憶體使用和GC開銷：

5.1DStream的持久化

預設持久化的時候會序列化為位元組，與非序列化的方式相比，這會降低記憶體和GC開銷。使用Kryo序列化機制可以進一步減少記憶體使用和GC開銷。如果還要進一步降低內庫存是用了，可以進行資料壓縮，spark.rdd.compress引數控制（預設false）。

但是CPU資源的消耗可能就大了。

5.2 清理舊資料

預設情況下，所有輸入資料和通過DStreamtransformation操作生成的持久化RDD，會自動被清理。Spark Streaming會決定何時清理這些資料，取決於transformation操作型別。

例如，你在使用視窗長度為10分鐘內的window操作，Spark會保持10分鐘以內的資料，時間過了以後就會清理舊資料。但是在某些特殊場景下，比如Spark SQL和Spark Streaming整合使用時，在非同步開啟的執行緒中，使用Spark SQL針對batch RDD進行執行查詢。那麼就需要讓Spark儲存更長時間的資料，直到Spark SQL查詢結束。可以使用streamingContext.remember()方法來實現。

5.3CMS垃圾回收器

使用並行的mark-sweep垃圾回收機制，被推薦使用，用來保持GC低開銷。雖然並行的GC會降低吞吐量，但是還是建議使用它，來減少batch的處理時間（降低處理過程中的GC開銷）。如果要使用，那麼要在driver端和executor端都開啟。

在spark-submit中使用--driver-java-options設定使spark.executor.extra

JavaOptions引數設定-XX:+UseConcMarkSweepGC。

spark streaming效能優化

一資料接收並行度調優

1.1除了建立更多輸入DStream和Receiver

1.2 調整block 時間間隔

1.3 調大task數量

二任務啟動優化

2.1task序列化

2.2 執行模式

三資料序列化優化

四 batch時間間隔優化

五記憶體調優

5.1DStream的持久化

5.2 清理舊資料

5.3CMS垃圾回收器

Spark Streaming效能優化: 如何在生產環境下動態應對流資料峰值

spark streaming效能優化

第124課：Spark Streaming效能優化：通過Spark Streaming進行裝置日誌監控報警及效能優化

基於Spark UI效能優化與除錯——初級篇

spark streaming效能分析經驗

[看圖說話] 基於Spark UI效能優化與除錯——初級篇

spark使用效能優化記錄

Spark Streaming效能調優詳解（轉）

spark使用效能優化記錄——二

Spark SQL 效能優化再進一步 CBO 基於代價的優化

Spark Streaming的優化之路——從Receiver到Direct模式

Spark Streaming之foreachRDD效能優化

Apache Spark on K8s的安全性和效能優化

[Spark 進階]-- 優化Spark作業以獲得最佳效能

轉 Spark效能優化：資源調優篇

Spark效能優化：開發調優篇

Spark效能優化：資源調優篇

Spark效能優化三之採用kryo序列化類庫

Spark效能優化之資料傾斜調優與shuffle調優

Spark效能優化：優化資料結構

spark streaming效能優化

一 資料接收並行度調優

1.1除了建立更多輸入DStream和Receiver

1.2 調整block 時間間隔

1.3 調大task數量

二 任務啟動優化

2.1task序列化

2.2 執行模式

三 資料序列化優化

四 batch時間間隔優化

五 記憶體調優

5.1DStream的持久化

5.2 清理舊資料

5.3CMS垃圾回收器

相關推薦

一資料接收並行度調優

二任務啟動優化

三資料序列化優化

五記憶體調優