1. 程式人生 > >map端和reduce端引數的調優策略

map端和reduce端引數的調優策略

原文https://blog.csdn.net/qq_26442553/article/details/78760338

使用hadoop進行大資料運算,當資料量及其大時,那麼對MapReduce效能的調優重要性不言而喻。尤其是Shuffle過程中的引數配置對作業的總執行時間影響特別大。下面基於官網和工作中的情況總結和相關的調優策略。

     1.關於map端的調優屬性   

  2.關於reduce端的調優屬性

    通常來說,在reduce端如果把中間資料全部駐留在記憶體中,那麼肯定可以獲取最佳效能,但預設情況下,不會發生。因為預設要預留很多記憶體給reduce函式進行運算。