1. 程式人生 > >如何使用hadoop對海量資料進行統計並排序

如何使用hadoop對海量資料進行統計並排序

下面進入正題,先來分析下散仙這個例子的需求,總共需要二步來完成,第一步就是對短語的統計,第二步就是對結果集的排序。所以如果使用MapReduce來完成的話,就得需要2個作業來完成這件事情,第一個作業來統計詞頻,第二個來負責進行排序,當然這兩者之間是有依賴關係的,第二個作業的執行,需要依賴第一個作業的結果,這就是典型的M,R,R的問題並且作業之間具有依賴關係,這種問題使用MapReduce來完成,效率可能有點低,如果使用支援DAG作業的Tez來做這件事情,那麼就很簡單了。不過本篇散仙,要演示的例子還是基於MapReduce來完成的,有興趣的朋友,可以研究一下使用Tez