1. 程式人生 > >資料傾斜解決方案之使用隨機key實現雙重聚合

資料傾斜解決方案之使用隨機key實現雙重聚合

使用隨機key實現雙重聚合

1、原理

2、使用場景
(1)groupByKey
(2)reduceByKey

比較適合使用這種方式;join,咱們通常不會這樣來做,後面會講三種,針對不同的join造成的資料傾斜的問題的解決方案。

第一輪聚合的時候,對key進行打散,將原先一樣的key,變成不一樣的key,相當於是將每個key分為多組;

先針對多個組,進行key的區域性聚合;接著,再去除掉每個key的字首,然後對所有的key,進行全域性的聚合。

對groupByKey、reduceByKey造成的資料傾斜,有比較好的效果。