1. 程式人生 > >.有一千萬條簡訊,有重複,以文字檔案的形式保 請用5 分鐘時間,找出重複出現最多的前10 條。

.有一千萬條簡訊,有重複,以文字檔案的形式保 請用5 分鐘時間,找出重複出現最多的前10 條。

此為騰訊面試題,木有具體答案。。。

1、有一千萬條簡訊,有重複,以文字檔案的形式儲存,一行一條,有重複。 
請用5 分鐘時間,找出重複出現最多的前10 條。 

答:1000W條簡訊,每條最多140個字元,所有簡訊容量最大不會超過1.4G,符合現代大部分計算機配置要求。

所以可以用hashMap統計每條簡訊重複次數,然後用最大堆找出重複出現最多的前10條。

2、收藏了1 千萬條url,現在給你一條url,如何找出相似的url。

答:用編輯距離?求出編輯距離,用最小堆求出相似的?