spark效能調優 —— 為什麼慢的總是“你”

阿新 • • 發佈：2019-01-14

Spark作業效能調優 —— 為什麼慢的總是“你”

背景

業務高峰期，準實時（mini batch）資料處理作業的執行時間現有一些延遲，為了保證作業的SLA，必須及時對作業執行狀況進行排查。

異常原因排查

作業層面

平臺採用的是spark on yarn的部署方案，故直接通過spark作業的application master url進入spark application ui；
通過spark ui 查詢執行變慢的stage；
進入對應的stage之後，通過Summary Metrics可以看出task執行時間差異很大，從task的Input Size來看，輸入資料本身並不存在傾斜；
這裡寫圖片描述

接下來，我們要重點分析“拖後腿”的task, 分析它們究竟遭遇了什麼；
通過對Stage 229中的task按Duration排序，找到執行慢的tasks；通過排序結果我們可以很容易看出，慢的task執行的executor全部集中在224這臺伺服器上；
這裡寫圖片描述

至此，我們初步結論是問題出現在224這臺伺服器上。

伺服器層面

確認過是伺服器的問題後，接下來就藉助open-falcon檢視機器的健康狀況；
首先排查基本指標：

load
- load.1min
- load.5min
- load 15min
cpu.idle
cpu.iowait
disk.io.util
network
- net.if.out.errors
- net.if.in.errors

這裡寫圖片描述
到這裡基本上已經定位出了，是由於機器的eth1網絡卡異常導致這臺機器上的task執行變慢；
由於機器的配置是4塊網絡卡做bond, 所以分配到該臺伺服器上的作業並不會報錯，只是事先速度變慢。

解決方法

臨時下線掉這臺異常伺服器上的NodeManager

${HADOOP_HOME}/bin/yarn-daemon.sh stop nodemanager

下線後，作業執行時間恢復正常。

結論

在Hadoop等分佈環境中底層伺服器的健康狀況對Spark、MR等分散式作業的執行效率有著舉足輕重的影響，因此完善的底層伺服器的監控，對於保障資料平臺的SLA有著深遠的意義。

致謝

感謝平臺運維同事協助定位問題。

spark效能調優 —— 為什麼慢的總是“你”

Spark作業效能調優 —— 為什麼慢的總是“你”

背景

異常原因排查

作業層面

伺服器層面

解決方法

結論

致謝

spark效能調優 —— 為什麼慢的總是“你”

Spark效能調優之原理分析

Spark效能調優---fastutil優化資料格式

spark效能調優---Kryo序列化

spark效能調優---廣播變數的使用

Spark效能調優 troubleshooting shuffle調優 reduce端緩衝大小以避免OOM

Spark 效能調優 Rdd 之 reduceByKey 本地聚合（也就是map端聚合運算元）

spark效能調優——開發調優

spark效能調優：資源優化

Spark效能調優之廣播變數

spark效能調優：開發調優

Spark——效能調優——Shuffle

Spark效能調優 Shuffle（二）

spark效能調優（四）調節堆外記憶體和等待時長

spark效能調優（三）shuffle的map端記憶體緩衝reduce端記憶體佔比

spark效能調優之重構RDD架構，RDD持久化

Spark效能調優

Spark效能調優之廣播大變數

Spark效能調優-並行度調優

Spark效能調優之——在實際專案中重構RDD架構以及RDD持久化

spark效能調優 —— 為什麼慢的總是“你”

Spark作業效能調優 —— 為什麼慢的總是“你”

背景

異常原因排查

作業層面

伺服器層面

解決方法

結論

致謝

相關推薦