1. 程式人生 > >給定一個亂序陣列,找到其中第K大的值,要求時間複雜度最低

給定一個亂序陣列,找到其中第K大的值,要求時間複雜度最低

      今天看演算法分析是,看到一個這樣的問題,就是在一堆資料中查詢到第k個大的值。

      名稱是:設計一組N個數,確定其中第k個最大值,這是一個選擇問題,當然,解決這個問題的方法很多,本人在網上搜索了一番,查詢到以下的方式,決定很好,推薦給大家。

      所謂“第(前)k大數問題”指的是在長度為n(n>=k)的亂序陣列中S找出從大到小順序的第(前)k個數的問題。

      解法1: 我們可以對這個亂序陣列按照從大到小先行排序,然後取出前k大,總的時間複雜度為O(n*logn + k)。
      解法2: 利用選擇排序或互動排序,K次選擇後即可得到第k大的數。總的時間複雜度為O(n*k)


      解法3: 利用快速排序的思想,從陣列S中隨機找出一個元素X,把陣列分為兩部分Sa和Sb。Sa中的元素大於等於X,Sb中元素小於X。這時有兩種情況:
           1. Sa中元素的個數小於k,則Sb中的第k-|Sa|個元素即為第k大數;
           2. Sa中元素的個數大於等於k,則返回Sa中的第k大數。時間複雜度近似為O(n)
      解法4: 二分[Smin,Smax]查詢結果X,統計X在陣列中出現,且整個陣列中比X大的數目為k-1的數即為第k大數。時間複雜度平均情況為O(n*logn)
      解法5:用O(4*n)的方法對原陣列建最大堆,然後pop出k次即可。時間複雜度為O(4*n + k*logn)

      解法6:維護一個k大小的最小堆,對於陣列中的每一個元素判斷與堆頂的大小,若堆頂較大,則不管,否則,彈出堆頂,將當前值插入到堆中。時間複雜度O(n * logk)
      解法7:利用hash儲存陣列中元素Si出現的次數,利用計數排序的思想,線性從大到小掃描過程中,前面有k-1個數則為第k大數,平均情況下時間複雜度O(n)

      附註:
      1. STL中可以用nth_element求得類似的第n大的數(由謂詞決定),使用的是解法3中的思想,還可以用partial_sort對區間進行部分排序,得到類似前k大的數(由謂詞決定),它採用的是解法5的思想。
      2. 求中位數實際上是第k大數的特例。


          《程式設計之美》2.5節課後習題:
           1. 如果需要找出N個數中最大的K個不同的浮點數呢?比如,含有10個浮點數的陣列(1.5,1.5,2.5,3.5,3.5,5,0,- 1.5,3.5)中最大的3個不同的浮點數是(5,3.5,2.5)。
           解答:上面的解法均適用,需要注意的是浮點數比較時和整數不同,另外求hashkey的方法也會略有不同。
           2. 如果是找第k到第m(0<k<=m<=n)大的數呢?
           解答:如果把問題看做m-k+1個第k大問題,則前面解法均適用。但是對於類似前k大這樣的問題,最好使用解法5或者解法7,總體複雜度較低。
       3. 在搜尋引擎中,網路上的每個網頁都有“權威性”權重,如page rank。如果我們需要尋找權重最大的K個網頁,而網頁的權重會不斷地更新,那麼演算法要如何變動以達到快速更新(incremental update)並及時返回權重最大的K個網頁?
提示:堆排序?當每一個網頁權重更新的時候,更新堆。還有更好的方法嗎?
       解答:要達到快速的更新,我們可以解法5,使用對映二分堆,可以使更新的操作達到O(logn)

       4. 在實際應用中,還有一個“精確度”的問題。我們可能並不需要返回嚴格意義上的最大的K個元素,在邊界位置允許出現一些誤差。當用戶輸入一個query的時候,對於每一個文件d來說,它跟這個query之間都有一個相關性衡量權重f (query, d)。搜尋引擎需要返回給使用者的就是相關性權重最大的K個網頁。如果每頁10個網頁,使用者不會關心第1000頁開外搜尋結果的“精確度”,稍有誤差是可以接受的。比如我們可以返回相關性第10 001大的網頁,而不是第9999大的。在這種情況下,演算法該如何改進才能更快更有效率呢?網頁的數目可能大到一臺機器無法容納得下,這時怎麼辦呢?

      提示:歸併排序?如果每臺機器都返回最相關的K個文件,那麼所有機器上最相關K個文件的並集肯定包含全集中最相關的K個文件。由於邊界情況並不需要非常精確,如果每臺機器返回最好的K’個文件,那麼K’應該如何取值,以達到我們返回最相關的90%*K個文件是完全精確的,或者最終返回的最相關的K個文件精確度超過90%(最相關的K個文件中90%以上在全集中相關性的確排在前K),或者最終返回的最相關的K個文件最差的相關性排序沒有超出110%*K。
      解答:正如提示中所說,可以讓每臺機器返回最相關的K'個文件,然後利用歸併排序的思想,得到所有文件中最相關的K個。 最好的情況是這K個文件在所有機器中平均分佈,這時每臺機器只要K' = K / n (n為所有機器總數);最壞情況,所有最相關的K個文件只出現在其中的某一臺機器上,這時K'需近似等於K了。我覺得比較好的做法可以在每臺機器上維護一個堆,然後對堆頂元素實行歸併排序。

       5. 如第4點所說,對於每個文件d,相對於不同的關鍵字q1, q2, …, qm,分別有相關性權重f(d, q1),f(d, q2), …, f(d, qm)。如果使用者輸入關鍵字qi之後,我們已經獲得了最相關的K個文件,而已知關鍵字qj跟關鍵字qi相似,文件跟這兩個關鍵字的權重大小比較靠近,那麼關鍵字qi的最相關的K個文件,對尋找qj最相關的K個文件有沒有幫助呢?

解答:肯定是有幫助的。在搜尋關鍵字qj最相關的K個文件時,可以在qj的“近義詞”相關文件中搜索部分,然後在全域性的所有文件中在搜尋部分。