Hadoop MapReduce Job效能調優——修改Map和Reduce個數

阿新 • • 發佈：2019-01-16

MapReduce框架將檔案分為多個splits，併為每個splits建立一個Mapper，所以Mappers的個數直接由splits的數目決定。而Reducers的數目可以通過job.setNumReduceTasks()函式設定，預設情況只有一個Reducer。在真正的叢集環境下，如果預設，那麼所有的中間資料會發送給唯一的Reducer，導致任務變得非常緩慢。究竟設多少個Reducers合適呢？為了解決這個問題，首先來了解一下slots的概念。

slots有點類似一個資源池，每個任務（map和reduce）執行時都必須獲得一個slot才能繼續，否則只能等待。當一個任務完成後，該任務就歸還slot，這個過程有點類似釋放資源到資源池中。顯然，每一個獲得資源的任務都可以立即執行，無需等待。另一方面，mapreduce的任務由tasktracker節點負責執行的，所以slots可進一步理解為tasktrackers能夠併發執行多個任務。slots分為mapper slots和reducer slots，分別對應最大可並行執行的mapper和reducer數。使用者可以通過修改mapred-site.xml配置檔案的mapred.tasktracker.map.tasks.maxmum來設定slots的值，預設為2.

叢集中可用rducer slots 的總數等於叢集中的總結點數誠意每個節點有多少個slots。reducers 數目的最佳值和reducer slots的總數有關，通常情況下，讓reducers的數目略小於reducer slots的總數，這樣的目的：首先reducers可以並行執行，減少排隊時間；其次對於未執行reducer的slots可以在其他reducer發生故障時，立即分配給新建立的reducer，不會明顯加長任務總時間。

如果出現reducers》mappers的情況就不合理了，這樣有些mappers會工作消耗資源開銷，但是對任務沒有任何幫助。

Hadoop MapReduce Job效能調優——修改Map和Reduce個數

Hadoop MapReduce Job效能調優——修改Map和Reduce個數

Hadoop MapReduce Job效能調優——Map和Reduce個數

Hadoop實戰：MapReduce的效能調優（一）

hadoop中每個節點map和reduce個數的設定調優

mapreduce中map和reduce個數

Map和Reduce個數設定問題

Map和Reduce 個數的設定（Hive優化）經典

Hadoop效能調優全面總結

1.linux使用自帶的命令執行spoon寫好的job命令以及效能調優策略

Spark 效能調優 Rdd 之 reduceByKey 本地聚合（也就是map端聚合運算元）

Hadoop效能調優方法

spark效能調優（三）shuffle的map端記憶體緩衝reduce端記憶體佔比

linux下修改核心引數進行Tcp效能調優 -- 高併發

Tomcat併發數優化，修改service.xml效能調優增加最大併發連線數

Tomcat修改service.xml效能調優增加最大併發連線數

Cloudera Hadoop運維管理與效能調優

Hadoop作業性能指標及參數調優實例（二）Hadoop作業性能調優7個建議

1.效能調優概覽

深入理解Java虛擬機器總結一虛擬機器效能監控工具與效能調優(三)

【Big Data 每日一題】Spark開發效能調優總結

Hadoop MapReduce Job效能調優——修改Map和Reduce個數

相關推薦