Python中heapq與優先佇列【詳細】

本文始發於個人公眾號：TechFlow, 原創不易，求個關注

今天的文章來介紹Python當中一個蠻有用的庫——heapq。

heapq的全寫是heap queue，是堆佇列的意思。這裡的堆和佇列都是資料結構，在後序的文章當中我們會詳細介紹，今天只介紹heapq的用法，如果不瞭解heap和queue原理的同學可以忽略，我們並不會深入太多，會在之後的文章裡詳細闡述。

在介紹用法之前，我們需要先知道優先佇列的定義。佇列大家應該都不陌生，也是非常基礎簡單的資料結構。我們可以想象成佇列裡的所有元素排成一排，新的元素只能從隊尾加入佇列，元素要出佇列只能通過隊首，不能中途從隊列當中退出。而優先佇列呢，是給隊列當中的元素每一個都設定了優先順序，使得隊伍當中的元素會自動按照優先順序排序，優先順序高的排在前面。

也就是說Python當中的heapq就是一個維護優先佇列的library，我們通過呼叫它可以輕鬆實現優先佇列的功能。

最大或最小的K個元素

我們來看一個實際的問題，假設我們當下有N個雜亂無章的元素，但是我們只關心其中最大的K個或者是最小的K個元素。我們想從整個陣列當中將這部分抽取出來，應該怎麼辦呢？

這個問題在實際當中非常常見，隨便就可以舉出例子來。比如使用者輸入了搜尋詞，我們根據使用者的搜尋詞找到了大量的內容。我們想要根據演算法篩選出使用者最有可能點選的文字來，機器學習的模型可以給每一個文字一個預測的分數。之後，我們就需要選出分數最大的K個結果。這種類似的場景還有很多，利用heapq庫裡的nlargest和nsmallest介面可以非常方便地做到這點。

我們一起來看一個例子：

import heapq

nums = [14, 20, 5, 28, 1, 21, 16, 22, 17, 28]
heapq.nlargest(3, nums)
# [28, 28, 22]
heapq.nsmallest(3, nums)
# [1, 5, 14]

heapq的nlargest和nsmallest接受兩個引數，第一個引數是K，也就是返回的元素的數量，第二個引數是傳入的陣列，heapq返回的正是傳入的陣列當中的前K大或者是前K小。

這裡有一個問題，如果我們陣列當中的元素是一個物件呢？應該怎麼辦？

其實也很簡單，有了解過Python自定義關鍵詞排序的同學應該知道，和排序一樣，我們可以通過匿名函式實現。

匿名函式

我們都知道，在Python當中通過def可以定義一個函式。通過def定義的函式都有函式名，所以稱為有名函式。除了有名函式之外，Python還支援匿名函式。顧名思義，就是沒有函式名的函式。也就是說它其他方面都和普通函式一樣，只不過沒有名字而已。

初學者可能會納悶，函式沒有名字應該怎麼呼叫呢？

會有這個疑惑很正常，這是因為習慣了面向過程的程式設計，對面向物件理解不夠深入導致的。在許多高階語言當中，一切皆物件，一個類，一個函式，一個int都是物件。既然函式也是物件，那麼函式自然也可以用來傳遞，不僅可以用來傳遞，還可以用來返回。這是函數語言程式設計的概念了，我們這裡不多做深入。

當然，普通函式也一樣可以傳遞，起到的效果一樣。只不過在程式設計當中，有些函式我們只會使用一次，沒必要再單獨定義一個函式，使用匿名函式會非常方便。

舉個例子，比方說我有一個這樣的函式：

def operate(x, func):
  return func(x)

這個operate函式它接受兩個引數，第一個引數是變數x，第二個引數是一個函式。它會在函式內部呼叫func，返回func呼叫的結果。我現在要做這樣一件事情，我希望根據x這個整數對4取餘的餘數來判斷應該用什麼樣的func。如果對4的餘數為0，我希望求一次方，如果餘數是2，我希望求平方，以此類推。如果按照正常的方法，我們需要實現4個方法，然後依次傳遞。

這當然是可以的，不過非常麻煩，如果使用匿名函式，就可以大大簡化程式碼量：

def get_result(x):
  if x % 4 == 0:
    return operate(x, lambda x: x)
  elif x % 4 == 1:
    return operate(x, lambda x: x ** 2)
  elif x % 4 == 2:
    return operate(x, lambda x: x ** 3)
  else:
    return operate(x, lambda x: x ** 4)

在上面的程式碼當中，我們通過lambda關鍵字定義了匿名函式，避免了定義四種函式用來傳遞的情況。當然，這個問題還有更簡單的寫法，可以只用一個函式解決。

我們來看lambda定義匿名函式的語法，首先是lambda關鍵字，表示我們當下定義的是一個匿名函式。之後跟的是這個匿名函式的引數，我們只用到一個變數x，所以只需要寫一個x。如果我們需要用到多個引數，通過逗號分隔，當然也可以不用引數。寫完引數之後，我們用冒號分開，冒號後面寫的是返回的結果。

我們也可以把匿名函式賦值給一個變數，之後我們就可以和呼叫普通函式一樣來呼叫了：

square = lambda x: x ** 2

print(square(3))
print(operate(3, square))

自定義排序

回到之前的內容，如果我們想要heapq排序的是一個物件。那麼heapq並不知道應該依據物件當中的哪個引數來作為排序的衡量標準，所以這個時候，需要我們自己定義一個獲取關鍵字的函式，傳遞給heapq，這樣才可以完成排序。

比如說，我們現在有一批電腦，我們希望heapq能夠根據電腦的價格排序：

laptops = [
    {'name': 'ThinkPad', 'amount': 100, 'price': 91.1},
    {'name': 'Mac', 'amount': 50, 'price': 543.22},
    {'name': 'Surface', 'amount': 200, 'price': 21.09},
    {'name': 'Alienware', 'amount': 35, 'price': 31.75},
    {'name': 'Lenovo', 'amount': 45, 'price': 16.35},
    {'name': 'Huawei', 'amount': 75, 'price': 115.65}
]

cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])

在呼叫nlargest和nsmallest的時候，我們額外傳遞了一個引數key，我們傳入的是一個匿名函式，它返回的結果是這個物件的price，也就是說我們希望heapq根據物件的price來進行排序。

優先佇列

heapq除了可以返回最大最小的K個數之外，還實現了優先佇列的介面。我們可以直接呼叫heapq.heapify方法，輸入一個數組，返回的結果是根據這個陣列生成的堆（等價於優先佇列）。

當然我們也可以從零開始，直接通過呼叫heapq的push和pop來維護這個堆。接下來，我們就通過heapq來自己動手實現一個優先佇列，程式碼非常的簡單，我想大家應該可以瞬間學會。

首先是實現優先佇列的部分：

import heapq

class PriorityQueue:
  
  def __init__(self):
    self._queue = []
    self._index =0
    
  def push(self, item, priority):
    # 傳入兩個引數，一個是存放元素的陣列，另一個是要儲存的元素，這裡是一個元組。
    # 由於heap內部預設有小到大排，所以對priority取負數
    heapq.heappush(self._queue, (-priority, self._index, item))
    self._index += 1
  
  def pop(self):
    return heapq.heappop(self._queue)[-1]

其次我們來實際看一下運用的情況：

q = PriorityQueue()

q.push('lenovo', 1)
q.push('Mac', 5)
q.push('ThinkPad', 2)
q.push('Surface', 3)

q.pop()
# Mac
q.pop()
# Surface

到這裡，關於heapq的應用方面就算是介紹完了，但是還沒有真正的結束。

我們需要分析一下heapq當中操作的複雜度，關於堆的部分我們暫時跳過，我們先來看nlargest和nsmallest。我在github當中找到了這個庫的原始碼，在方法的註釋上，作者寫下了這個方法的複雜度，和排序之後取前K個開銷五五開：

def nlargest(n, iterable, key=None):
    """Find the n largest elements in a dataset.

    Equivalent to:  sorted(iterable, key=key, reverse=True)[:n]
    """

我們都知道排序的複雜度的期望是\(O(nlogn)\)，如果你瞭解堆的話，會知道堆一次插入元素的複雜度是\(logn\)。如果我們限定堆的長度是K，我們插入n次之後也只能保留K個元素。每次插入的複雜度是\(logK\)，一共插入n次，所以整體的複雜度是\(nlogK\)。

如果K小一些，可能開銷會比排序稍小，但是程度有限。那麼有沒有什麼辦法可以不用排序並且儘可能快地篩選出前K大或者是前K小的元素呢？

我這裡先賣個關子，我們之後的文章當中再來講解。

今天的文章就到這裡，如果覺得有所收穫，請順手點個關注吧，你的舉手之勞對我很重要。

參考資料

Python CookBook Version3

維基百科

相關推薦

Python中heapq與優先佇列【詳細】

本文始發於個人公眾號：TechFlow, 原創不易，求個關注今天的文章來介紹Python當中一個蠻有用的庫——heapq。 heapq的全寫是heap queue，是堆佇列的意思。這裡的堆和佇列都是資料結構，在後序的文章當中我們會詳細介紹，今天只介紹heapq的用法，如果不瞭解heap和queue原理的同

Python中request模塊學習【深入淺出】

lencod pan 代碼傳遞參數 tro .org pro range request 安裝: pip install requests 使用： import requests HTTP請求：GET、POST、PUT、DELETE、HEAD、OPTIONS

Python中os與sys模塊的區別

mov clear maintain n) 安裝文件 join() pat 系統 os與sys模塊的官方解釋如下： os: This module provides a portable way of using operating system dependent

python中字母與ascii碼的相互轉換

需要編碼方法由於 nic 否則 python int bsp 在做python編程時，碰到了需要將字母轉換成ascii碼的，原本以為用Int()就可以直接將字符串轉換成整形了，可是int()帶了一個默認參數，base=10，這裏表示的是十進制，若出現字母，則會報錯，認

Python中os與sys兩模塊的區別

des ren 異常類函數出現輸出 func lena info <os和sys的官方解釋> ?os os: This module provides a portable way of using operating system depe

python中super與成員屬性

pre pro 類成員方法特殊方式直接 self. 通過 art super的使用直接看例子： class A(): def __init__(self, a): print(‘init A...‘) self.a = a

Python中break與continue的區別

主動 tro 開始 bubuko while 打印 .com pos 結束 1.break 結束循環 count = 0 while count < 10: print(‘hello,Jay‘, count) break count = co

python中break與continue區別

print 方法其中 dom 我們 spa strong bre 語法 1.在其他語言中break與continue也被經常使用到，其中用法稍微有些去別，下面我們使用python的語法結構來看看是否和在其他語言中的使用方法一致。 continue：是跳出本次循環，進入到下

Python中的 // 與 / 的區別

區別 best 浮點數 b- eui 精確 2.x 大於 ext 通常C/C++中，"/ " 算術運算符的計算結果是根據參與運算的兩邊的數據決定的，比如：　　6 / 3 = 2 ; 6,3都是整數，那麽結果也就是整數2;　　6.0 / 3.0 = 2.0 ; 6.0,3.0

python中sort()與sorted()的區別

title 區別 sort排序技術分享 ted tro 只有一個技術復制 Python list內置sort()方法用來排序，也可以用python內置的全局sorted()方法來對可叠代的序列排序生成新的序列一，最簡單的排序 1.使用sort排序 my_list

python 中 str與bytes的轉換

odin 拋出異常 str1 string 異常非法字符 ignore bytes nor # bytes轉字符串方式一 b=b‘\xe9\x80\x86\xe7\x81\xab‘ string=str(b,‘utf-8‘) print(string) # bytes轉

python中str與list互轉

1、list轉str 假設有一個名為test_list的list，轉換後的str名為test_str 則轉換方法： test_str = "".join(test_list) 需要注意的是該方法需要list中的元素為字元型，若是整型，則需要先轉換為字元型後再轉為str型別。

Python中的與或非以及邏輯短路

Python中的與或非以及邏輯短路 python3.7 Shawn 文件： https://docs.python.org/3/library/stdtypes.html#boolean-operations-and-or-not 文章目錄 Pyt

單調佇列與優先佇列

單調佇列與優先佇列的區別：單調佇列的長度取決於輸入資料的合法性，而優先佇列的長度始終與輸入資料的數量等同。而他們的單調性都是單調遞減或單調遞增。單調佇列單調佇列例題：https://www.luogu.org/problemnew/show/P1886 #inc

中位數（優先佇列）

中位數這種題型比較常見，所以總結下來為妙。一般暴力的方法是找到排一個序，然後輸出中間點。然後正解的方法是優先佇列。解法一個大根堆一個小根堆，用於儲存中位數左邊的數和中位數右邊的數。然後每一次插入某個數的時候，可以插入到中間，然後判斷左右兩個堆的大小，保持均等即可。 #include &l

json.decoder.JSONDecodeError: Invalid control character at: line 1 column 3，python中str與json型別轉換報錯如何解

使用json轉： json資料保密，再此不展示。 # 判斷型別 print(type(str_json)) json_dump = json.loads(str_json) 報錯如下： json.decoder.JSONDecodeError: Invalid control cha

python中函式與函數語言程式設計(二)

首先要明白為什麼要用到返回值，返回值的作用就是為了分情況來處理下面的程式（個人見解總結） 1.函式返回值 def test1(): pass def test2(): return 0 def test3(): return 0,10,'hello',['

python中函式與函數語言程式設計(一)

在學習之前，我們先去區分面對物件、面對過程、函數語言程式設計他們之間的區別，從改圖可以看出，他們之間不是完全相同的，也不是沒有任何相同點的 1.函式和過程的基本認識 def func1(): """testing1""" print('in the func1'

Python中os與sys模組區別及使用方法

1.定義 os 與 sys 模組的不同的官方解釋 os:提供一種方便的使用作業系統函式的方法 sys:提供訪問由直譯器使用或維護的變數和在與直譯器互動使用到的函式。因此， sys 模組區別於 os 模組,sys 模組提供了一系列的函式和變數,用於操控 python 的執行時環境,

python中__enter__與__exit__和with的關係及作用

有些事情，可能需要做些初始化操作，使用完成後需要收尾操作，對於此情況，with就能很好的派上用場了，舉個栗子： class CallFun(object): def __init__(self, name): print "__init__" s