1. 程式人生 > >Top K演算法詳細解析—百度面試

Top K演算法詳細解析—百度面試

 

Top K演算法詳細解析—百度面試

 

問題描述:

這是在網上找到的一道百度的面試題:

搜尋引擎會通過日誌檔案把使用者每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255位元組。假設目前有一千萬個記錄,這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。一個查詢串的重複度越高,說明查詢它的使用者越多,也就是越熱門。請你統計最熱門的10個查詢串,要求使用的記憶體不能超過1G。


問題解析:

【分析】:要統計最熱門查詢,首先就是要統計每個Query出現的次數,然後根據統計結果,找出Top 10。所以我們可以基於這個思路分兩步來設計該演算法。下面分別給出這兩步的演算法:


第一步:Query統計

演算法一:直接排序法

首先我們能想到的演算法就是排序了,首先對這個日誌裡面的所有Query都進行排序,然後再遍歷排好序的Query,統計每個Query出現的次數了。但是題目中有明確要求,那就是記憶體不能超過1G,一千萬條記錄,每條記錄是225Byte,很顯然要佔據2.55G記憶體,這個條件就不滿足要求了。

讓我們回憶一下資料結構課程上的內容,當資料量比較大而且記憶體無法裝下的時候,我們可以採用外排序的方法來進行排序,這裡筆者採用歸併排序,是因為歸併排序有一個比較好的時間複雜度O(NlgN)。

排完序之後我們再對已經有序的Query檔案進行遍歷,統計每個Query出現的次數,再次寫入檔案中。

綜合分析一下,排序的時間複雜度是O(NlgN),而遍歷的時間複雜度是O(N),因此該演算法的總體時間複雜度就是O(NlgN)。

演算法二:Hash Table法

在上個方法中,我們採用了排序的辦法來統計每個Query出現的次數,時間複雜度是NlgN,那麼能不能有更好的方法來儲存,而時間複雜度更低呢?

題目中說明了,雖然有一千萬個Query,但是由於重複度比較高,因此事實上只有300萬的Query,每個Query255Byte,因此我們可以考慮把他們都放進記憶體中去,而現在只是需要一個合適的資料結構,在這裡,Hash Table絕對是我們優先的選擇,因為Hash Table的查詢速度非常的快,幾乎是O(1)的時間複雜度。

那麼,我們的演算法就有了:維護一個Key為Query字串,Value為該Query出現次數的HashTable,每次讀取一個Query,如果該字串不在Table中,那麼加入該字串,並且將Value值設為1;如果該字串在Table中,那麼將該字串的計數加一即可。最終我們在O(N)的時間複雜度內完成了對該海量資料的處理。

本方法相比演算法一:在時間複雜度上提高了一個數量級,但不僅僅是時間複雜度上的優化,該方法只需要IO資料檔案一次,而演算法一的IO次數較多的,因此該演算法比演算法一在工程上有更好的可操作性。


 

第二步:找出Top 10

演算法一:排序

我想對於排序演算法大家都已經不陌生了,這裡不在贅述,我們要注意的是排序演算法的時間複雜度是NlgN,在本題目中,三百萬條記錄,用1G記憶體是可以存下的。

演算法二:部分排序

題目要求是求出Top 10,因此我們沒有必要對所有的Query都進行排序,我們只需要維護一個10個大小的陣列,初始化放入10Query,按照每個Query的統計次數由大到小排序,然後遍歷這300萬條記錄,每讀一條記錄就和陣列最後一個Query對比,如果小於這個Query,那麼繼續遍歷,否則,將陣列中最後一條資料淘汰,加入當前的Query。最後當所有的資料都遍歷完畢之後,那麼這個陣列中的10個Query便是我們要找的Top10了。

不難分析出,這樣的演算法的時間複雜度是N*K, 其中K是指top多少。

演算法三:堆

在演算法二中,我們已經將時間複雜度由NlogN優化到NK,不得不說這是一個比較大的改進了,可是有沒有更好的辦法呢?

分析一下,在演算法二中,每次比較完成之後,需要的操作複雜度都是K,因為要把元素插入到一個線性表之中,而且採用的是順序比較。這裡我們注意一下,該陣列是有序的,一次我們每次查詢的時候可以採用二分的方法查詢,這樣操作的複雜度就降到了logK,可是,隨之而來的問題就是資料移動,因為移動資料次數增多了。不過,這個演算法還是比演算法二有了改進。

基於以上的分析,我們想想,有沒有一種既能快速查詢,又能快速移動元素的資料結構呢?回答是肯定的,那就是堆。藉助堆結構,我們可以在log量級的時間內查詢和調整/移動。因此到這裡,我們的演算法可以改進為這樣,維護一個K(該題目中是10)大小的小根堆,然後遍歷300萬的Query,分別和根元素進行對比。。。

那麼這樣,這個演算法發時間複雜度就降到了NlogK,和演算法而相比,又有了比較大的改進。


結語:

至此,我們的演算法就完全結束了,經過步驟一和步驟二的最優結合,我們最終的時間複雜度是O(N) + O(N’)logK。如果各位有什麼好的演算法,歡迎跟帖討論。