1. 程式人生 > >【圖文詳細 】Hive 優化常用手段

【圖文詳細 】Hive 優化常用手段

1、好的模型設計事半功倍

2、解決資料傾斜問題

3、減少 job 數

4、設定合理的 MapReduce 的 task 數,能有效提升效能。(比如,10w+級別的計算,用 160個 reduce,那是相當的浪費,1 個足夠) 

5、瞭解資料分佈,自己動手解決資料傾斜問題是個不錯的選擇。這是通用的演算法優化,但 演算法優化有時不能適應特定業務背景,開發人員瞭解業務,瞭解資料,可以通過業務邏輯精 確有效的解決資料傾斜問題

6、資料量較大的情況下,慎用 count(distinct),group by 容易產生傾斜問題

7、對小檔案進行合併,是行之有效的提高排程效率的方法,假如所有的作業設定合理的文 件數,對雲梯的整體排程效率也會產生積極的正向影響

8、優化時把握整體,單個作業最優不如整體最優