1. 程式人生 > >網宿面試——有10T的IP地址資料,記憶體只有10M,怎麼找出出現頻率最大的那個IP

網宿面試——有10T的IP地址資料,記憶體只有10M,怎麼找出出現頻率最大的那個IP

這種大資料的的題肯定是要分堆來做,再從堆中選出每個堆中最大的數,然後進行比較。

1,首先就是如何進行分堆的問題,這邊我們使用hash來分成n個10M的小檔案,10T除以10M約等於1000000,所以使用hash(IP)%1000000,來分堆。

2,從每個堆中選取出現次數最多的IP;

3,從這100000個IP中選擇出現最多的IP即可。