1. 程式人生 > >10億個數中找出最大的10000個數(top K問題)

10億個數中找出最大的10000個數(top K問題)




前兩天面試3面學長問我的這個問題(想說TEG的3個面試學長都是好和藹,希望能完成最後一面,各方面原因造成我無比想去鵝場的心已經按捺不住了),這個問題還是建立最小堆比較好一些。

先拿10000個數建堆,然後一次新增剩餘元素,如果大於堆頂的數(10000中最小的),將這個數替換堆頂,並調整結構使之仍然是一個最小堆,這樣,遍歷完後,堆中的10000個數就是所需的最大的10000個。建堆時間複雜度是O(mlogm),演算法的時間複雜度為O(nmlogm)(n為10億,m為10000)。

優化的方法:可以把所有10億個資料分組存放,比如分別放在1000個檔案中。這樣處理就可以分別在每個檔案的10^6個數據中找出最大的10000個數,合併到一起再找出最終的結果。

以上就是面試時簡單提到的內容,下面整理一下這方面的問題:

top K問題

在大規模資料處理中,經常會遇到的一類問題:在海量資料中找出出現頻率最好的前k個數,或者從海量資料中找出最大的前k個數,這類問題通常被稱為top K問題。例如,在搜尋引擎中,統計搜尋最熱門的10個查詢詞;在歌曲庫中統計下載最高的前10首歌等。

針對top K類問題,通常比較好的方案是分治+Trie樹/hash+小頂堆(就是上面提到的最小堆),即先將資料集按照Hash方法分解成多個小資料集,然後使用Trie樹或者Hash統計每個小資料集中的query詞頻,之後用小頂堆求出每個資料集中出現頻率最高的前K個數,最後在所有top K中求出最終的top K。

eg:有1億個浮點數,如何找出其中最大的10000個?

1、最容易想到的方法是將資料全部排序

然後在排序後的集合中進行查詢,最快的排序演算法的時間複雜度一般為O(nlogn),如快速排序。但是在32位的機器上,每個float型別佔4個位元組,1億個浮點數就要佔用400MB的儲存空間,對於一些可用記憶體小於400M的計算機而言,很顯然是不能一次將全部資料讀入記憶體進行排序的。其實即使記憶體能夠滿足要求(我機器記憶體都是8GB),該方法也並不高效,因為題目的目的是尋找出最大的10000個數即可,而排序卻是將所有的元素都排序了,做了很多的無用功。

2、區域性淘汰法

該方法與排序方法類似,用一個容器儲存前10000個數,然後將剩餘的所有數字——與容器內的最小數字相比,如果所有後續的元素都比容器內的10000個數還小,那麼容器內這個10000個數就是最大10000個數。如果某一後續元素比容器內最小數字大,則刪掉容器內最小元素,並將該元素插入容器,最後遍歷完這1億個數,得到的結果容器中儲存的數即為最終結果了。此時的時間複雜度為O(n+m^2),其中m為容器的大小,即10000。

3、分治法

將1億個資料分成100份,每份100萬個資料,找到每份資料中最大的10000個,最後在剩下的100*10000個數據裡面找出最大的10000個。如果100萬資料選擇足夠理想,那麼可以過濾掉1億資料裡面99%的資料。100萬個資料裡面查詢最大的10000個數據的方法如下:用快速排序的方法,將資料分為2堆,如果大的那堆個數N大於10000個,繼續對大堆快速排序一次分成2堆,如果大的那堆個數N大於10000個,繼續對大堆快速排序一次分成2堆,如果大堆個數N小於10000個,就在小的那堆裡面快速排序一次,找第10000-n大的數字;遞迴以上過程,就可以找到第1w大的數。參考上面的找出第1w大數字,就可以類似的方法找到前10000大數字了。此種方法需要每次的記憶體空間為10^6*4=4MB,一共需要101次這樣的比較。

4、Hash法。

如果這1億個數裡面有很多重複的數,先通過Hash法,把這1億個數字去重複,這樣如果重複率很高的話,會減少很大的記憶體用量,從而縮小運算空間,然後通過分治法或最小堆法查詢最大的10000個數。

5、最小堆。

首先讀入前10000個數來建立大小為10000的最小堆,建堆的時間複雜度為O(mlogm)(m為陣列的大小即為10000),然後遍歷後續的數字,並於堆頂(最小)數字進行比較。如果比最小的數小,則繼續讀取後續數字;如果比堆頂數字大,則替換堆頂元素並重新調整堆為最小堆。整個過程直至1億個數全部遍歷完為止。然後按照中序遍歷的方式輸出當前堆中的所有10000個數字。該演算法的時間複雜度為O(nmlogm),空間複雜度是10000(常數)。

實際執行:

實際上,最優的解決方案應該是最符合實際設計需求的方案,在時間應用中,可能有足夠大的記憶體,那麼直接將資料扔到記憶體中一次性處理即可,也可能機器有多個核,這樣可以採用多執行緒處理整個資料集。
下面針對不容的應用場景,分析了適合相應應用場景的解決方案。
(1)單機+單核+足夠大記憶體
如果需要查詢10億個查詢次(每個佔8B)中出現頻率最高的10個,考慮到每個查詢詞佔8B,則10億個查詢次所需的記憶體大約是10^9 * 8B=8GB記憶體。如果有這麼大記憶體,直接在記憶體中對查詢次進行排序,順序遍歷找出10個出現頻率最大的即可。這種方法簡單快速,使用。然後,也可以先用HashMap求出每個詞出現的頻率,然後求出頻率最大的10個詞。

(2)單機+多核+足夠大記憶體
這時可以直接在記憶體總使用Hash方法將資料劃分成n個partition,每個partition交給一個執行緒處理,執行緒的處理邏輯同(1)類似,最後一個執行緒將結果歸併。

該方法存在一個瓶頸會明顯影響效率,即資料傾斜。每個執行緒的處理速度可能不同,快的執行緒需要等待慢的執行緒,最終的處理速度取決於慢的執行緒。而針對此問題,解決的方法是,將資料劃分成c×n個partition(c>1),每個執行緒處理完當前partition後主動取下一個partition繼續處理,知道所有資料處理完畢,最後由一個執行緒進行歸併。

(3)單機+單核+受限記憶體
這種情況下,需要將原資料檔案切割成一個一個小檔案,如次啊用hash(x)%M,將原檔案中的資料切割成M小檔案,如果小檔案仍大於記憶體大小,繼續採用Hash的方法對資料檔案進行分割,知道每個小檔案小於記憶體大小,這樣每個檔案可放到記憶體中處理。採用(1)的方法依次處理每個小檔案。

(4)多機+受限記憶體
這種情況,為了合理利用多臺機器的資源,可將資料分發到多臺機器上,每臺機器採用(3)中的策略解決本地的資料。可採用hash+socket方法進行資料分發。

從實際應用的角度考慮,(1)(2)(3)(4)方案並不可行,因為在大規模資料處理環境下,作業效率並不是首要考慮的問題,演算法的擴充套件性和容錯性才是首要考慮的。演算法應該具有良好的擴充套件性,以便資料量進一步加大(隨著業務的發展,資料量加大是必然的)時,在不修改演算法框架的前提下,可達到近似的線性比;演算法應該具有容錯性,即當前某個檔案處理失敗後,能自動將其交給另外一個執行緒繼續處理,而不是從頭開始處理。

top K問題很適合採用MapReduce框架解決,使用者只需編寫一個Map函式和兩個Reduce 函式,然後提交到Hadoop(採用Mapchain和Reducechain)上即可解決該問題。具體而言,就是首先根據資料值或者把資料hash(MD5)後的值按照範圍劃分到不同的機器上,最好可以讓資料劃分後一次讀入記憶體,這樣不同的機器負責處理不同的數值範圍,實際上就是Map。得到結果後,各個機器只需拿出各自出現次數最多的前N個數據,然後彙總,選出所有的資料中出現次數最多的前N個數據,這實際上就是Reduce過程。對於Map函式,採用Hash演算法,將Hash值相同的資料交給同一個Reduce task對於第一個Reduce函式,採用HashMap統計出每個詞出現的頻率,對於第二個Reduce 函式,統計所有Reduce task,輸出資料中的top K即可。

直接將資料均分到不同的機器上進行處理是無法得到正確的結果的。因為一個數據可能被均分到不同的機器上,而另一個則可能完全聚集到一個機器上,同時還可能存在具有相同數目的資料。

以下是一些經常被提及的該類問題。
(1)有10000000個記錄,這些查詢串的重複度比較高,如果除去重複後,不超過3000000個。一個查詢串的重複度越高,說明查詢它的使用者越多,也就是越熱門。請統計最熱門的10個查詢串,要求使用的記憶體不能超過1GB。

(2)有10個檔案,每個檔案1GB,每個檔案的每一行存放的都是使用者的query,每個檔案的query都可能重複。按照query的頻度排序。

(3)有一個1GB大小的檔案,裡面的每一行是一個詞,詞的大小不超過16個位元組,記憶體限制大小是1MB。返回頻數最高的100個詞。

(4)提取某日訪問網站次數最多的那個IP。

(5)10億個整數找出重複次數最多的100個整數。

(6)搜尋的輸入資訊是一個字串,統計300萬條輸入資訊中最熱門的前10條,每次輸入的一個字串為不超過255B,記憶體使用只有1GB。

(7)有1000萬個身份證號以及他們對應的資料,身份證號可能重複,找出出現次數最多的身份證號。

重複問題

在海量資料中查找出重複出現的元素或者去除重複出現的元素也是常考的問題。針對此類問題,一般可以通過點陣圖法實現。例如,已知某個檔案內包含一些電話號碼,每個號碼為8位數字,統計不同號碼的個數。

本題最好的解決方法是通過使用點陣圖法來實現。8位整數可以表示的最大十進位制數值為99999999。如果每個數字對應於點陣圖中一個bit位,那麼儲存8位整數大約需要99MB。因為1B=8bit,所以99Mbit摺合成記憶體為99/8=12.375MB的記憶體,即可以只用12.375MB的記憶體表示所有的8位數電話號碼的內容


相關推薦

10個數10000個數top K問題)

        前兩天面試3面學長問我的這個問題(想說TEG的3個面試學長都是好和藹,希望能完成最後一面,各方面原因造成我無比想去鵝場的心已經按捺不住了),這個問題還是建立最小堆比較好一些。         先拿10000個數建堆,然後一次新增剩餘元素,如果大於堆頂的數(1

10個數10000個數(top K問題)

前兩天面試3面學長問我的這個問題(想說TEG的3個面試學長都是好和藹,希望能完成最後一面,各方面原因造成我無比想去鵝場的心已經按捺不住了),這個問題還是建立最小堆

100個數的前K個數(海量TopK問題)

對於這個問題,可以有以下思考: 給了多少記憶體儲存這100億個資料? 先思考:堆排序效率是nlogn,再思考:可以將這些資料切成等份,再從每一份中找出最大前k個數據,但是效率不高。那如果利用堆的性質呢? 小堆堆頂元素最小,先將前k個數建成小堆,那麼堆頂元素

從100萬個數的前100個數

1.演算法如下:根據快速排序劃分的思想 (1) 遞迴對所有資料分成[a,b)b(b,d]兩個區間,(b,d]區間內的數都是大於[a,b)區間內的數 (2) 對(b,d]重複(1)操作,直到最右邊的區間個數小於100個。注意[a,b)區間不用劃分 (3) 返回上

演算法-十數字的一萬個--9-3

十億的資料量    4G記憶體空間 1.建陣列  迴圈一萬次 找出最大的一萬個   複雜度o(n*m) n為10億  m為1萬 2.藉助快速排序    複雜度o(nlogn) 3.不想放入記憶體 佔據如此大的空間 建一個長度為1萬的陣列    將前1萬個數字放入陣列   其

100個數字10

1、首先一點,對於海量資料處理,思路基本上是:必須分塊處理,然後再合併起來。 2、對於每一塊必須找出10個最大的數,因為第一塊中10個最大數中的最小的,可能比第二塊中10最大數中的最大的還要大。 3、分塊處理,再合併。也就是Google MapReduce 的基本思想。Google有很多的伺服器,每個伺服器

從陣列的兩個數

題目:從陣列區間A[lo, hi]中找出最大的兩個整數A[x1]和A[x2],要求元素比較的次數,要求儘可能的少 迭代版1: 如圖所示,當整個掃描一遍陣列A,找出最大的數x1後,再掃描一次陣

TOP-K排序演算法,從海量不重複資料/小的K個數

如題,TOP-K排序的主要功能是找出一堆不重複資料中的最小或最大的幾個數,此處我們介紹這種型別題目的某種解法: 最大最小堆,最大堆結構裡面的每一個數不都是小於root的值麼?和我們要解決的問題很像。由此,我們可以構造一個堆,並且用它來儲存我們需要找的那幾個數。有這麼一個動態

從給定陣列的兩個數——二分遞迴

分析1:對於給定陣列找出其中最大的兩個數,很容易想到的就是遍歷陣列。首先遍歷整個陣列,找出最大的一個元素並記錄下該位置;然後分別遍歷該位置之前的區間和該位置之後的區間,分別找出這兩個子區間的最大值,然

【面試必備】如何在10前1000的數?

作者:channingbreeze | 微信公眾號:網際網路偵察小史是一個應屆生,雖然學的是電子

無序數組的兩個(K)數

數組;查找;最大;K個**給你一個整型數組,我想找出來最大的兩個數,能幫我寫一個算法嗎? **在上一遍我們已經解讀過這道題目了,包括我們能想到的問題。這裏我們按照解決算法題的一般步驟再來一起分析一下這道題: 一、確保我們理解了問題,並且嘗試一個例子,確認理解無誤。 那現在我們澄清一下問題,我們需要從這樣的數

個資料儲存在硬碟的N個。

(1)先選N個元素組成一個小根堆,然後遍歷剩下的資料,如果第i個元素M大於小根堆的根結點,就刪除這個根結點,並將元素M插入這個小根椎,最後,小根堆中的元素就是最大的N個元素。 (2)只要開闢一個稍微大一點的緩衝區存放大於某選定值的資料即可,當緩衝滿時,重新整理選定值為緩衝區

堆&&堆排序&&N個數K值&&優先順序佇列

學習二叉樹後,有一個東西需要我們來關注下,就是堆,對於堆,來說我們可以把堆看作一顆完全二叉樹。這裡我們也可以叫做二叉堆。 二叉堆滿足二個特性: 1.父結點的鍵值總是大於或等於(小於或等於)任何一個子節點的鍵值。 2.每個結點的左子樹和右子樹都是一個二叉堆(

設計一個演算法從數 A[1:n] 同時元素和小元素,只需要不超過 1.5n-2 次比較。

題目:設計一個演算法從數A[1:n]中同時找出最大元素和最小元素,只需要不超過1.5n-2次比較。 #include <stdio.h> #define MIN -1 #define MAX 65535 void find_max_min( int num[], int len ) {

設計一個算法從數 A[1:n] 同時元素和小元素,只需要不超過 1.5n-2 次比較。

number com str png 統計 最小 int 比較 技術分享 題目:設計一個算法從數A[1:n]中同時找出最大元素和最小元素,只需要不超過1.5n-2次比較。 #include <stdio.h> #define MIN -1 #define MAX

資料結構與演算法——有1個整數,的1000個,要求時間越短越好,空間佔用越少越好

有1億個整數,找出最大的1000個,要求時間越短越好,空間佔用越少越好(迅雷筆試) 首先要明白1億個整數佔用多大的記憶體,按每個整數4個位元組來算,用400000000B,大約400000KB,大約4

[面試題]海量資料處理-從10個數頻率最高的1000個數

方法一:分治思想 通常比較好的方案是分治+Trie樹/hash+小頂堆(就是上面提到的最小堆),即先將資料集按照Hash方法分解成多個小資料集,然後使用Trie樹或者Hash統計每個小資料集中的que

從十資料出現多的數以及出現次數

package org.example.bigdata; import java.util.Collections; import java.util.HashMap; import java.util.LinkedList; import java.util.List

的n個數top K問題)

前言前兩天面試3面學長問我的這個問題(想說TEG的3個面試學長都是好和藹,希望能完成最後一面,各方面原因造成我無比想去鵝場的心已經按捺不住了),這個問題還是建立最小堆比較好一些。 先拿10000個數建堆,然後一次新增剩餘元素,如果大於堆頂的數(10000中最小的