大資料面試題-兩個大檔案中找出共同記錄

阿新 • • 發佈：2019-01-20

1.題目描述

給定a、b兩個檔案，各存放50億個url，每個url各佔64位元組，記憶體限制是4G，讓你找出a、b檔案共同的url?

2.思考過程

（1）首先我們最常想到的方法是讀取檔案a，建立雜湊表（為什麼要建立hash表？因為方便後面的查詢），然後再讀取檔案b，遍歷檔案b中每個url，對於每個遍歷，我們都執行查詢hash表的操作，若hash表中搜索到了，則說明兩檔案共有，存入一個集合。

（2）但上述方法有一個明顯問題，載入一個檔案的資料需要50億*64bytes = 320G遠遠大於4G記憶體，何況我們還需要分配雜湊表資料結構所使用的空間，所以不可能一次性把檔案中所有資料構建一個整體的hash表。

（3）針對上述問題，我們分治演算法

的思想。

step1：遍歷檔案a，對每個url求取hash(url)%1000，然後根據所取得的值將url分別儲存到1000個小檔案(記為a0,a1,...,a999，每個小檔案約300M)，為什麼是1000？主要根據記憶體大小和要分治的檔案大小來計算，我們就大致可以把320G大小分為1000份，每份大約300M（當然，到底能不能分佈儘量均勻，得看hash函式的設計）
step2：遍歷檔案b，採取和a相同的方式將url分別儲存到1000個小檔案(記為b0,b1,...,b999)（為什麼要這樣做? 檔案a的hash對映和檔案b的hash對映函式要保持一致，這樣的話相同的url就會儲存在對應的小檔案中，比如，如果a中有一個url記錄data1被hash到了a99檔案中，那麼如果b中也有相同url，則一定被hash到了b99中）

所以現在問題轉換成了：找出1000對小檔案中每一對相同的url（不對應的小檔案不可能有相同的url）
step3：因為每個hash大約300M，所以我們再可以採用（1）中的想法
最後對兩個新的url檔案做hadoop計數，reduce的結果中count為2的即是重複項。
也可用其他方法。

大資料面試題-兩個大檔案中找出共同記錄

1.題目描述

2.思考過程

算法系列-大資料面試題-兩個大檔案中找出共同記錄

大資料面試題-兩個大檔案中找出共同記錄

大資料學習——有兩個海量日誌檔案儲存在hdfs

30個常見的大資料面試題 --讓你的薪資更上一層

[各種面試題] 兩個陣列和的第K大

大資料面試題01

網際網路大資料面試題集錦

網易杭研大資料面試題

2019最新大資料面試題及答案整理

網際網路公司大資料面試題參考指南

大資料面試題分享之spark面試題

如何使用HBase？大資料儲存的兩個實戰場景

大資料面試題以及答案整理（一）

大資料面試題彙總版

2018年大資料面試題總結

大資料面試題必會2018.01.07

大資料面試題—7

大資料面試題—6

2019最新大資料面試題助力大家度過筆試關

學習大資料必經的兩個階段，你做到了嗎？

大資料面試題-兩個大檔案中找出共同記錄

1.題目描述

2.思考過程

相關推薦