[Hive]從一個經典案例看優化mapred.map.tasks的重要性

阿新 • • 發佈：2019-02-16

我所在公司所使用的生產Hive環境的幾個引數配置如下：
dfs.block.size=268435456
hive.merge.mapredfiles=true
hive.merge.mapfiles=true
hive.merge.size.per.task=256000000
mapred.map.tasks=2

因為合併小檔案預設為true，而dfs.block.size與hive.merge.size.per.task的搭配使得合併後的絕大部分檔案都在300MB左右。

CASE1：

現在我們假設有3個300MB大小的檔案，那麼goalsize = min(900MB/2,256MB) = 256MB (具體如何計算

map數請參見http://blog.sina.com.cn/s/blog_6ff05a2c010178qd.html)
所以整個JOB會有6個map，其中3個map分別處理256MB的資料，還有3個map分別處理44MB的資料。這時候木桶效應就來了，整個JOB的map階段的執行時間不是看最短的1個map的執行時間，而是看最長的1個map的執行時間。所以，雖然有3個map分別只處理44MB的資料，可以很快跑完，但它們還是要等待另外3個處理256MB的map。顯然，處理256MB的3個map拖了整個JOB的後腿。

CASE2：

如果我們把mapred.map.tasks設定成6，再來看一下有什麼變化：
goalsize = min(900MB/6,256MB) = 150MB

整個JOB同樣會分配6個map來處理，每個map處理150MB的資料，非常均勻，誰都不會拖後腿，最合理地分配了資源，執行時間大約為CASE 1的59%(150/256)

案例分析：

雖然mapred.map.tasks從2調整到了6，但是CASE 2並沒有比CASE 1多用map資源，同樣都是使用6個map。而CASE 2的執行時間約為CASE 1執行時間的59%。從這個案例可以看出，對mapred.map.tasks進行自動化的優化設定其實是可以很明顯地提高作業執行效率的。

[Hive]從一個經典案例看優化mapred.map.tasks的重要性

[Hive]從一個經典案例看優化mapred.map.tasks的重要性

從一個審批需求看資料庫設計——聯合主鍵的使用

從一個小例子看貝葉斯公式的應用（學習簡單、基礎、入門的例子）

從一個橢圓積分看matlab求定積分

從一個簡單專案看java web 開發的整體佈局

從一個簡單的約束看規範性的SQL腳本對數據庫運維的影響

從一個案例窺探ORACLE的PASSWORD_VERSIONS

安全多方計算（MPC）從入門到精通：經典案例

一個成功案例讓你看懂智能養卡代還系統

經典案例那個什麼多執行緒--賣票..........................就是好像有點不對~~！先寫下來.有大哥哥，大姐姐幫看下嗎

經典案例那個什麽多線程--賣票..........................就是好像有點不對~~！先寫下來.有大哥哥，大姐姐幫看下嗎

Mysql優化經典案例

從一個例子看Java的資料初始化和類載入

Visual C++網路程式設計經典案例詳解第5章網頁瀏覽器 HTTP響應實體資料自定義一個簡單的訊息體結構

一個簡單案例，5 分鐘看懂 Java Lamdba 表示式

經典案例：利用表單（models.Model）寫一個登入註冊小例項

優化案例2-----or 等價改寫 union all 的經典案例

從一個例項看java,new一個物件時的初始化順序

從持續整合到彈性縮擴容：一個容器案例落地問題的思考

【推薦】 RAC 效能優化全攻略與經典案例剖析

[Hive]從一個經典案例看優化mapred.map.tasks的重要性

相關推薦