【面試題】海量資料處理相關

阿新 • • 發佈：2018-12-25

海量資料處理思路

針對時間，可以採用巧妙的演算法搭配合適的資料結構，如Bloom filter/Hash/bit-map/堆/資料庫或倒排索引/trie/，
針對空間，無非就一個辦法：大而化小：分而治之/hash對映，
處理海量資料的幾種方法
- 分而治之/hash對映 + hash統計 + 堆/快速/歸併排序；
- 雙層桶劃分；
- Bloom filter/Bitmap；
- Trie樹/資料庫/倒排索引；
- 外排序；
- 分散式處理之hadoop/mapreduce。
- simhash 演算法；
- 布隆過濾器；

Trie 樹

Trie樹，即字典樹，又稱單詞查詢樹或鍵樹，是一種樹形結構。
典型應用是用於統計和排序大量的字串（但不僅限於字串），所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是最大限度地減少無謂的字串比較，查詢效率比較高。
Trie 的核心思想是空間換時間，利用字串的公共字首來降低查詢時間的開銷以達到提高效率的目的。
Trie 的3 個基本性質
- 根節點不包含字元，除根節點外每一個節點都只包含一個字元。
- 從根節點到某一節點，路徑上經過的字元連線起來，為該節點對應的字串。
- 每個節點的所有子節點包含的字元都不相同。
倒排索引（(Inverted index)）是一種索引方法，被用來儲存在全文搜尋下某個單詞在一個文件或者一組文件中的儲存位置的對映，常被應用於搜尋引擎和關鍵字查詢的問題中。

海量資料處理例項

1.海量日誌資料，提取出某日訪問百度次數最多的那個IP

演算法思想：分而治之+Hash+排序
具體實現：先按照IP地址的Hash(IP)%1024值，把海量IP日誌分別儲存到1024個小檔案中。這樣，每個小檔案最多包含4MB個IP地址，然後對於每一個小檔案，可以構建一個IP為key，出現次數為value的Hash map，同時記錄當前出現次數最多的那個IP地址；可得到1024個小檔案中的出現次數最多的IP，最後依據常規的排序演算法得到總體上出現次數最多的IP

2.搜尋引擎會通過日誌檔案把使用者每次檢索使用的所有檢索串都記錄下來，每個查詢串的長度為1-255位元組，統計最熱門的10個查詢串，要求使用的記憶體不能超過1G。

演算法思想：hash對映+hash統計+排序
具體實現：先對這批海量資料預處理，存入hashmap(Query，Value)，Query表示字串，而Value表示該Query出現次數的HashTable，每次讀取一個Query，如果該字串不在Table中，那麼加入該字串，並且將Value值設為1；如果該字串在Table中，那麼將該字串的計數加一即可，最終用Hash表完成了統計，O（n），最後進行堆/歸併排序。

3.一個文字檔案，大約有一萬行，每行一個詞，要求統計出其中出現次數最頻繁的10 個詞

演算法思想：利用trie樹
具體實現：用trie 樹統計每個詞出現的次數，時間複雜度是O(n  le)（le 表示單詞的平均長度），然後是找出出現最頻繁的前10 個詞。當然，也可以用堆來實現，時間複雜度是O(n lg10)。總的時間複雜度，是O(nle)與O(nlg10)中較大的一個。

未完待續…….

【面試題】海量資料處理相關

海量資料處理思路針對時間，可以採用巧妙的演算法搭配合適的資料結構，如Bloom filter/Hash/bit-map/堆/資料庫或倒排索引/trie/，針對空間，無非就一個辦法：大而化小：分而

【面試題】二叉樹相關

1.二叉樹二叉樹是每個節點最多有兩個子樹的樹結構滿二叉樹：除葉子節點外，所有節點的度都為2 完全二叉樹：葉子結點只能出現在最下兩層；最下層的葉子一定集中在左部連續位置；倒數二層，若有葉子結點，一定都在右部連續位置；如果結點度為1 ，則該結點只有左孩子，即

【面試題】二叉樹相關面試題

判斷二叉樹是否是平衡二叉樹可以分兩步實現。第一步先遍歷二叉樹中的每一個結點node，呼叫height()求出該結點的左子樹高度height(node.left) 和右子樹高度 height(node.right)。根據左右子樹的高度差是否滿足其絕對值不超

【面試題】JVM相關

1.堆和棧的區別棧記憶體是儲存方法幀和區域性變數（基本型別的變數、物件的引用變數），方法呼叫完後會釋放該棧及棧中變數。存取速度比堆要快，僅次於暫存器，棧資料可以共享，多個引用可以指向同一個地址，存

【面試題】MySQL相關

1.MySQL常用命令建立表：create table employee(id int,name varchar(20)); 修改表結構（列）：alter table employee add/m

【面試題】Netty相關

1.BIO、NIO和AIO的區別？ BIO：一個連線一個執行緒，客戶端有連線請求時伺服器端就需要啟動一個執行緒進行處理。執行緒開銷大。偽非同步IO：將請求連線放入執行緒池，一對多，但執行緒還是很寶

【面試題】演算法相關

1.氣泡排序思想：比較相鄰的元素。如果第一個比第二個大，就交換它們的值，從開始第一對到結尾的最後一對程式碼實現：O(n2)、O(n)、O(n2)、O(1)、穩定。 public

【面試題】Linux相關

1.常用命令有哪些檔案相關命令 head -n、tail、ln、locate、wc、more、less、ll、dd、df、du、tar-zxvf、ls、nl、cat、pwd、mkdir、rm 、

【面試題】設計模式相關

1.單例設計模式使用設計模式為了程式碼複用，增加可維護性。設計模式的六大原則：開閉原則、里氏代換原則、依賴倒轉原則、介面隔離原則、迪米特法則（最少知道原則）、合成/聚合複用原則 Singleto

【面試題】計算機網路相關

1.七層網路模型的功能，IP地址的分類？功能物理層：確定與傳輸媒體的介面的特性，傳輸位元流資料鏈路層：在兩個相鄰結點間的線路上無差錯地傳送以幀為單位的資料網路層：選擇合適的路由，使的分組能

【面試題】Redis相關

1.Redis與Memorycache的區別？ Redis使用單執行緒，而Memcached是多執行緒， Redis使用現場申請記憶體的方式來儲存資料，並且可以配置虛擬記憶體；Memcached使用

【面試題】Hadoop相關

1.HDFS的特點？ Hadoop是一套開源的軟體平臺，利用伺服器叢集，根據使用者的自定義業務邏輯，對海量資料進行分散式處理，核心元件分為：HDFS（分散式檔案系統）、MapRuduce（分散式運算程式設計框架）、YARN（運算資源排程系統） HDFS是Ha

【資料結構】【面試題】找N個數據中最大的K個數據

如果不限定條件的話，這個問題還是很好解決的，但是當我們要求時間複雜度為O(N)，空間複雜度為O(1)時，問題就沒那麼好解決了。簡單的思路就是，建立一個大小為K=100的小堆，調整好，然後

【面試題】統計產量資料：難點（分組彙總列轉行查詢結果插入)

題目：有一張資料產量表如下YearMonthdata2016150020162600.........201712300編寫SQL，產生如下資料，並儲存到tab2,其中S1 S2 S3 S4代表4個季度YearS1S2S3S4201612003000600080002017

【Java面試題】如何回答GC相關問題

一個面試官對面試問題的分析這個帖子的背景是今晚看到je上這張貼：大家都來說說自己最討厭的面試題目吧。，心血來潮寫下的文字，如果能拋磚引玉，能有其他面試官分析一下自己面試時問的問題，那或許是件很有意義的事情。在公司當技術面試官幾年間，從應屆生到工作十幾年的應聘者都遇到過。先表達一下我自己對面試的觀點：

【面試題】c++有哪四個型別轉換相關的關鍵字？

在C/C++語言中用 (type) value（在C++還可以採用type(value)）來進行顯式型別轉換（explicit type conversion），常常又被稱為強制轉換（cast投射/鑄模）。這種轉換的正確性完全掌握在程式設計師手中，傳統上強制轉換往往被過度使

【面試題】Netty相關（轉）

通信心跳 repeat 不錯監聽 sse 線程安全粘包生成轉自https://blog.csdn.net/baiye_xing/article/details/76735113 1.BIO、NIO和AIO的區別？ BIO：一個連接一個線程，客戶端有連接請求時服

【面試題】Python高級開發工程師面試題

http ges log com .com blog mage 回復 image 線上面試題，有空整理答案，歡迎大家回復答案【面試題】Python高級開發工程師面試題

【面試題】LRU算法及編碼實現LRU策略緩存

max 防止技術分享 nbsp pri value 概念閾值使用概念　　LRU（least recently used)就是將最近不被訪問的數據給淘汰掉，LRU基於一種假設：認為最近使用過的數據將來被使用的概率也大，最近沒有被訪問的數據將來被使用的概率比較低。

【面試題】2018年最全Java面試通關秘籍第五套！

XA 中文分詞 coo div rop 為什麽 3.2 自旋 FQ 【面試題】2018年最全Java面試通關秘籍第五套！原創 2018-04-26 徐劉根 Java後端技術第一套：《2018年最全Java面試通關秘籍第一套！》第二套：《2018年最全Java面試通

【面試題】海量資料處理相關

海量資料處理思路

海量資料處理例項

相關推薦