MapReduce數據傾斜的解決方式

阿新 • • 發佈：2018-04-07

導致 multi job 自己 tin 用戶接口情況 class

數據傾斜：由於數據分布不均勻，造成數據大量的集中到一點，造成數據熱點。map /reduce程序執行時，reduce節點大部分執行完畢，但是有一個或者幾個reduce節點運行很慢，導致整個程序的處理時間很長，這是因為某一個key的條數比其他key多很多（有時是百倍或者千倍之多），這條key所在的reduce節點所處理的數據量比其他節點就大很多，從而導致某幾個節點遲遲運行不完，此稱之為數據傾斜。

Hadoop計算框架的特性：

不怕數據大，怕數據傾斜；
job數比較多的作業運行效率相對比較低，如子查詢較多；
不會發生數據傾斜的情況：sum，count，max，min

會發生數據傾斜的情況:group by，count(distinct)，小表關聯大表

MapReduce提供Partitioner接口，它的作用就是根據key或value及reduce的數量來決定當前的這對輸出數據最終應該交由哪個reduce task處理。默認對key hash後再以reduce task數量取模。默認的取模方式只是為了平均reduce的處理能力，如果用戶自己對Partitioner有需求，可以訂制並設置到job上。

用hadoop程序進行數據關聯時，常碰到數據傾斜的情況，這裏提供一種解決方法。

自己實現partition類，用key和value相加取hash值：

方式1：

源代碼：

public int getPartition(K key, V value,

                           
int numReduceTasks) {

    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

  }

修改後

public int getPartition(K key, V value,

                          int numReduceTasks) {

    return ((（key).hashCode()+value.hashCode()） & Integer.MAX_VALUE) % numReduceTasks;

  }

方式2：

public 
 class HashPartitioner<K, V> extends Partitioner<K, V> {

private int aa= 0;

  /** Use {@link Object#hashCode()} to partition. */

  public int getPartition(K key, V value,

                          int numReduceTasks) {

    return (key.hashCode()+(aa++) & Integer.MAX_VALUE) % numReduceTasks;

  }

優化常用手段：

減少job數（合並MapReduce，用Multi-group by）
設置合理的task數，能有效提升性能
數據量大，慎用count（distinct）
對小文件進行合並

MapReduce數據傾斜的解決方式

導致 multi job 自己 tin 用戶接口情況 class 數據傾斜：由於數據分布不均勻，造成數據大量的集中到一點，造成數據熱點。map /reduce程序執行時，reduce節點大部分執行完畢，但是有一個或者幾個reduce節點運行很慢，導致整個程序的處理時間很

MapReduce數據傾斜的解決方式

MapReduce數據傾斜的解決方式

spark完整的數據傾斜解決方案

【Spark調優】聚合操作數據傾斜解決方案

【Spark調優】小表join大表數據傾斜解決方案

Spark性能調優之道——解決Spark數據傾斜（Data Skew）的N種姿勢

Spark性能優化之道——解決Spark數據傾斜（Data Skew）的N種姿勢

Hadoop皇-----冠---體育源碼搭建與數據傾斜及解決辦法

Hadoop皇冠體育源碼搭建與數據傾斜及解決辦法

【轉】解決Maxwell發送Kafka消息數據傾斜問題

Hadoop數據傾斜及解決辦法

Hive數據傾斜和解決辦法

SQLServerException:將截斷字符串或二進制數據的解決方法

MyBatis參數格式化異常解決方式：MyBatisSystemException:

Python實例之抓取網易雲課堂搜索數據（post方式json型數據）並保存為TXT

JSP 插入到數據庫的數據出現 “SQLServerException: 將截斷字符串或二進制數據” 錯誤解決方案

DELL EqualLogic PS6100存儲詳解及數據恢復解決辦法

Oracle數據庫遷移方式一：impdp+dblink

java連接mysql數據庫的方式（4句語句）

關於HttpClient模擬瀏覽器請求的參數亂碼問題解決方式

關於數據傾斜

MapReduce數據傾斜的解決方式

相關推薦