1. 程式人生 > >海量數據處理:Hash映射 + Hash_map統計 + 堆/快速/歸並排序

海量數據處理:Hash映射 + Hash_map統計 + 堆/快速/歸並排序

針對 內存 value 快速 round div ack 數據處理 訪問

海量日誌數據,提取出某日訪問百度次數最多的那個IP。 既然是海量數據處理,那麽可想而知,給我們的數據那就一定是海量的。 針對這個數據的海量,我們如何著手呢?對的,無非就是分而治之/hash映射 + hash統計 + 堆/快速/歸並排序,說白了,就是先映射,而後統計,最後排序:
  1. 分而治之/hash映射:針對數據太大,內存受限,只能是:把大文件化成(取模映射)小文件,即16字方針:大而化小,各個擊破,縮小規模,逐個解決
  2. hash_map統計:當大文件轉化了小文件,那麽我們便可以采用常規的hash_map(ip,value)來進行頻率統計。
  3. 堆/快速排序:統計完了之後,便進行排序(可采取堆排序),得到次數最多的IP。

海量數據處理:Hash映射 + Hash_map統計 + 堆/快速/歸並排序