1. 程式人生 > >[Python]深入理解 Python 非同步程式設計(上)

[Python]深入理解 Python 非同步程式設計(上)

前言

很多朋友對非同步程式設計都處於“聽說很強大”的認知狀態。鮮有在生產專案中使用它。而使用它的同學,則大多數都停留在知道如何使用 Tornado、Twisted、Gevent 這類非同步框架上,出現各種古怪的問題難以解決。而且使用了非同步框架的部分同學,由於用法不對,感覺它並沒牛逼到哪裡去,所以很多同學做 Web 後端服務時還是採用 Flask、Django等傳統的非非同步框架。

從上兩屆 PyCon 技術大會看來,非同步程式設計已經成了 Python 生態下一階段的主旋律。如新興的 Go、Rust、Elixir 等程式語言都將其支援非同步和高併發作為主要“賣點”,技術變化趨勢如此。Python 生態為不落人後,從2013年起由 Python 之父 Guido 親自操刀主持了Tulip(asyncio)專案的開發。

本系列教程分為上中下篇,讓讀者深入理解Python非同步程式設計,解決在使用非同步程式設計中的疑惑,深入學習Python3中新增的asyncio庫和async/await語法,盡情享受 Python 帶來的簡潔優雅和高效率。

內容安排

上篇

  • 瞭解 非同步程式設計及其緊密相關的概念,如阻塞/非阻塞、同步/非同步、併發/並行等
  • 理解 非同步程式設計是什麼,以及非同步程式設計的困難之處
  • 理解 為什麼需要非同步程式設計
  • 熟悉 如何從同步阻塞發展到非同步非阻塞的
  • 掌握epoll + Callback + Event loop是如何工作的
  • 掌握 Python 是如何逐步從回撥到生成器再到原生協程以支援非同步程式設計的
  • 掌握 asyncio 的工作原理

中篇

  • 掌握 asyncio 標準庫基本使用
  • 掌握 asyncio 的事件迴圈
  • 掌握 協程與任務如何使用與管理(如排程與取消排程)
  • 掌握 同步原語的使用(Lock、Event、Condition、Queue)
  • 掌握 asyncio 和多程序、多執行緒結合使用

下篇

  • 理解 GIL 對非同步程式設計的影響
  • 理解 asyncio 踩坑經驗
  • 理解 回撥、協程、綠程(Green-Thread)、執行緒對比總結
  • 掌握 多程序、多執行緒、協程各自的適用場景
  • 瞭解 Gevent/libev、uvloop/libuv 與asyncio的區別和聯絡
  • 掌握 Python非同步程式設計的一些指導細則

1 什麼是非同步程式設計

通過學習相關概念,我們逐步解釋非同步程式設計是什麼。

1.1 阻塞

  • 程式未得到所需計算資源時被掛起的狀態。
  • 程式在等待某個操作完成期間,自身無法繼續幹別的事情,則稱該程式在該操作上是阻塞的。
  • 常見的阻塞形式有:網路I/O阻塞、磁碟I/O阻塞、使用者輸入阻塞等。

阻塞是無處不在的,包括CPU切換上下文時,所有的程序都無法真正幹事情,它們也會被阻塞。(如果是多核CPU則正在執行上下文切換操作的核不可被利用。)

1.2 非阻塞

  • 程式在等待某操作過程中,自身不被阻塞,可以繼續執行幹別的事情,則稱該程式在該操作上是非阻塞的。
  • 非阻塞並不是在任何程式級別、任何情況下都可以存在的。
  • 僅當程式封裝的級別可以囊括獨立的子程式單元時,它才可能存在非阻塞狀態。

非阻塞的存在是因為阻塞存在,正因為某個操作阻塞導致的耗時與效率低下,我們才要把它變成非阻塞的。

1.3 同步

  • 不同程式單元為了完成某個任務,在執行過程中需靠某種通訊方式以協調一致,稱這些程式單元是同步執行的。
  • 例如購物系統中更新商品庫存,需要用“行鎖”作為通訊訊號,讓不同的更新請求強制排隊順序執行,那更新庫存的操作是同步的。
  • 簡言之,同步意味著有序

1.4 非同步

  • 為完成某個任務,不同程式單元之間過程中無需通訊協調,也能完成任務的方式。
  • 不相關的程式單元之間可以是非同步的。
  • 例如,爬蟲下載網頁。排程程式呼叫下載程式後,即可排程其他任務,而無需與該下載任務保持通訊以協調行為。不同網頁的下載、儲存等操作都是無關的,也無需相互通知協調。這些非同步操作的完成時刻並不確定。
  • 簡言之,非同步意味著無序

上文提到的“通訊方式”通常是指非同步和併發程式設計提供的同步原語,如訊號量、鎖、同步佇列等等。我們需知道,雖然這些通訊方式是為了讓多個程式在一定條件下同步執行,但正因為是非同步的存在,才需要這些通訊方式。如果所有程式都是按序執行,其本身就是同步的,又何需這些同步訊號呢?

1.5 併發

  • 併發描述的是程式的組織結構。指程式要被設計成多個可獨立執行的子任務。
  • 以利用有限的計算機資源使多個任務可以被實時或近實時執行為目的。

1.6 並行

  • 並行描述的是程式的執行狀態。指多個任務同時被執行。
  • 以利用富餘計算資源(多核CPU)加速完成多個任務為目的。

併發提供了一種程式組織結構方式,讓問題的解決方案可以並行執行,但並行執行不是必須的。

1.7 概念總結

  • 並行是為了利用多核加速多工完成的進度
  • 併發是為了讓獨立的子任務都有機會被儘快執行,但不一定能加速整體進度
  • 非阻塞是為了提高程式整體執行效率
  • 非同步是高效地組織非阻塞任務的方式

要支援併發,必須拆分為多工,不同任務相對而言才有阻塞/非阻塞、同步/非同步。所以,併發、非同步、非阻塞三個詞總是如影隨形。

1.8 非同步程式設計

  • 以程序、執行緒、協程、函式/方法作為執行任務程式的基本單位,結合回撥、事件迴圈、訊號量等機制,以提高程式整體執行效率和併發能力的程式設計方式。

如果在某程式的執行時,能根據已經執行的指令準確判斷它接下來要進行哪個具體操作,那它是同步程式,反之則為非同步程式。(無序與有序的區別)

同步/非同步、阻塞/非阻塞並非水火不容,要看討論的程式所處的封裝級別。例如購物程式在處理多個使用者的瀏覽請求可以是非同步的,而更新庫存時必須是同步的。

1.9 非同步之難(nán)

  • 控制不住“計幾”寫的程式,因為其執行順序不可預料,當下正要發生什麼事件不可預料。在並行情況下更為複雜和艱難。

所以,幾乎所有的非同步框架都將非同步程式設計模型簡化一次只允許處理一個事件。故而有關非同步的討論幾乎都集中在了單執行緒內。

  • 如果某事件處理程式需要長時間執行,所有其他部分都會被阻塞。

所以,一旦採取非同步程式設計,每個非同步呼叫必須“足夠小”,不能耗時太久。如何拆分非同步任務成了難題。

  • 程式下一步行為往往依賴上一步執行結果,如何知曉上次非同步呼叫已完成並獲取結果?
  • 回撥(Callback)成了必然選擇。那又需要面臨“回撥地獄”的折磨。
  • 同步程式碼改為非同步程式碼,必然破壞程式碼結構。
  • 解決問題的邏輯也要轉變,不再是一條路走到黑,需要精心安排非同步任務。

2 苦心非同步為哪般

如上文所述,非同步程式設計面臨諸多難點,Python 之父親自上陣打磨4年才使 asyncio 模組在Python 3.6中“轉正”,如此苦心為什麼?答案只有一個:它值得!下面我們看看為何而值得。

2.1 CPU的時間觀

01_cpu_time

我們將一個 2.6GHz 的 CPU 擬人化,假設它執行一條命令的時間,他它感覺上過了一秒鐘。CPU是計算機的處理核心,也是最寶貴的資源,如果有浪費CPU的執行時間,導致其利用率不足,那程式效率必然低下(因為實際上有資源可以使效率更高)。

如上圖所示,在千兆網上傳輸2KB資料,CPU感覺過了14個小時,如果是在10M的公網上呢?那效率會低百倍!如果在這麼長的一段時間內,CPU只是傻等結果而不能去幹其他事情,是不是在浪費CPU的青春?

魯迅說,浪費“CPU”的時間等於謀財害命。而凶手就是程式猿。

2.2 面臨的問題

  • 成本問題

如果一個程式不能有效利用一臺計算機資源,那必然需要更多的計算機通過執行更多的程式例項來彌補需求缺口。例如我前不久主導重寫的專案,使用Python非同步程式設計,改版後由原來的7臺伺服器削減至3臺,成本驟降57%。一臺AWS m4.xlarge 型通用伺服器按需付費例項一年價格約 1.2 萬人民幣。

  • 效率問題

如果不在乎錢的消耗,那也會在意效率問題。當伺服器數量堆疊到一定規模後,如果不改進軟體架構和實現,加機器是徒勞,而且運維成本會驟然增加。比如別人家的電商平臺支援6000單/秒支付,而自家在下單量才支撐2000單/秒,在雙十一這種活動的時候,錢送上門也賺不到。

  • C10k/C10M挑戰

C10k(concurrently handling 10k connections)是一個在1999年被提出來的技術挑戰,如何在一顆1GHz CPU,2G記憶體,1gbps網路環境下,讓單臺伺服器同時為1萬個客戶端提供FTP服務。而到了2010年後,隨著硬體技術的發展,這個問題被延伸為C10M,即如何利用8核心CPU,64G記憶體,在10gbps的網路上保持1000萬併發連線,或是每秒鐘處理100萬的連線。(兩種型別的計算機資源在各自的時代都約為1200美元)

成本和效率問題是從企業經營角度講,C10k/C10M問題則是從技術角度出發挑戰軟硬體極限。C10k/C10M 問題得解,成本問題和效率問題迎刃而解。

2.3 解決方案

《約束理論與企業優化》中指出:“除了瓶頸之外,任何改進都是幻覺。

CPU告訴我們,它自己很快,而上下文切換慢、記憶體讀資料慢、磁碟定址與取資料慢、網路傳輸慢……總之,離開CPU 後的一切,除了一級快取記憶體,都很慢。我們觀察計算機的組成可以知道,主要由運算器、控制器、儲存器、輸入裝置、輸出裝置五部分組成。運算器和控制器主要整合在CPU中,除此之外全是I/O,包括讀寫記憶體、讀寫磁碟、讀寫網絡卡全都是I/O。I/O成了最大的瓶頸

非同步程式可以提高效率,而最大的瓶頸在I/O,業界誕生的解決方案沒出意料:非同步I/O吧,非同步I/O吧,非同步I/O吧吧!

3 非同步I/O進化之路

如今,地球上最發達、規模最龐大的計算機程式,莫過於因特網。而從CPU的時間觀中可知,網路I/O是最大的I/O瓶頸,除了宕機沒有比它更慢的。所以,諸多非同步框架都對準的是網路I/O。

我們從一個爬蟲例子說起,從因特網上下載10篇網頁。

3.1 同步阻塞方式

最容易想到的解決方案就是依次下載,從建立socket連線到傳送網路請求再到讀取響應資料,順序進行。

02_blocking

注:總體耗時約為4.5秒。(因網路波動每次測試結果有所變動,本文取多次平均值)

如上圖所示,blocking_way() 的作用是建立 socket 連線,傳送HTTP請求,然後從 socket 讀取HTTP響應並返回資料。示例中我們請求了 example.com 的首頁。在sync_way() 執行了10次,即下載 example.com 首頁10次。

在示例程式碼中有兩個關鍵點。一是第10行的 sock.connect((‘example.com’, 80)),該呼叫的作用是向example.com主機的80埠發起網路連線請求。 二是第14行、第18行的sock.recv(4096),該呼叫的作用是從socket上讀取4K位元組資料。

我們知道,建立網路連線,多久能建立完成不是客戶端決定的,而是由網路狀況和服務端處理能力共同決定。服務端什麼時候返回了響應資料並被客戶端接收到可供程式讀取,也是不可預測的。所以sock.connect()sock.recv()這兩個呼叫在預設情況下是阻塞的。

注:sock.send()函式並不會阻塞太久,它只負責將請求資料拷貝到TCP/IP協議棧的系統緩衝區中就返回,並不等待服務端返回的應答確認。

假設網路環境很差,建立網路連線需要1秒鐘,那麼sock.connect()就得阻塞1秒鐘,等待網路連線成功。這1秒鐘對一顆2.6GHz的CPU來講,彷彿過去了83年,然而它不能幹任何事情。sock.recv()也是一樣的必須得等到服務端的響應資料已經被客戶端接收。我們下載10篇網頁,這個阻塞過程就得重複10次。如果一個爬蟲系統每天要下載1000萬篇網頁呢?!

上面說了很多,我們力圖說明一件事:同步阻塞的網路互動方式,效率低十分低下。特別是在網路互動頻繁的程式中。這種方式根本不可能挑戰C10K/C10M。

3.2 改進方式:多程序

在一個程式內,依次執行10次太耗時,那開10個一樣的程式同時執行不就行了。於是我們想到了多程序程式設計。為什麼會先想到多程序呢?發展脈絡如此。在更早的作業系統(Linux 2.4)及其以前,程序是 OS 排程任務的實體,是面向程序設計的OS。

03_multiproc

注:總體耗時約為 0.6 秒。

改善效果立竿見影。但仍然有問題。總體耗時並沒有縮減到原來的十分之一,而是九分之一左右,還有一些時間耗到哪裡去了?程序切換開銷

程序切換開銷不止像“CPU的時間觀”所列的“上下文切換”那麼低。CPU從一個程序切換到另一個程序,需要把舊程序執行時的暫存器狀態、記憶體狀態全部儲存好,再將另一個程序之前儲存的資料恢復。對CPU來講,幾個小時就乾等著。當程序數量大於CPU核心數量時,程序切換是必然需要的。

除了切換開銷,多程序還有另外的缺點。一般的伺服器在能夠穩定執行的前提下,可以同時處理的程序數在數十個到數百個規模。如果程序數量規模更大,系統執行將不穩定,而且可用記憶體資源往往也會不足。

多程序解決方案在面臨每天需要成百上千萬次下載任務的爬蟲系統,或者需要同時搞定數萬併發的電商系統來說,並不適合。

除了切換開銷大,以及可支援的任務規模小之外,多程序還有其他缺點,如狀態共享等問題,後文會有提及,此處不再細究。

3.3 繼續改進:多執行緒

由於執行緒的資料結構比程序更輕量級,同一個程序可以容納多個執行緒,從程序到執行緒的優化由此展開。後來的OS也把排程單位由程序轉為執行緒,程序只作為執行緒的容器,用於管理程序所需的資源。而且OS級別的執行緒是可以被分配到不同的CPU核心同時執行的。

04_multithread

注:總體執行時間約0.43秒。

結果符合預期,比多程序耗時要少些。從執行時間上看,多執行緒似乎已經解決了切換開銷大的問題。而且可支援的任務數量規模,也變成了數百個到數千個。

但是,多執行緒仍有問題,特別是Python裡的多執行緒。首先,Python中的多執行緒因為GIL的存在,它們並不能利用CPU多核優勢,一個Python程序中,只允許有一個執行緒處於執行狀態。那為什麼結果還是如預期,耗時縮減到了十分之一?

因為在做阻塞的系統呼叫時,例如sock.connect(),sock.recv()時,當前執行緒會釋放GIL,讓別的執行緒有執行機會。但是單個執行緒內,在阻塞呼叫上還是阻塞的。

小提示:Python中 time.sleep 是阻塞的,都知道使用它要謹慎,但在多執行緒程式設計中,time.sleep 並不會阻塞其他執行緒。

除了GIL之外,所有的多執行緒還有通病。它們是被OS排程,排程策略是搶佔式的,以保證同等優先順序的執行緒都有均等的執行機會,那帶來的問題是:並不知道下一時刻是哪個執行緒被執行,也不知道它正要執行的程式碼是什麼。所以就可能存在競態條件

例如爬蟲工作執行緒從任務佇列拿待抓取URL的時候,如果多個爬蟲執行緒同時來取,那這個任務到底該給誰?那就需要用到“鎖”或“同步佇列”來保證下載任務不會被重複執行。

而且執行緒支援的多工規模,在數百到數千的數量規模。在大規模的高頻網路互動系統中,仍然有些吃力。當然,多執行緒最主要的問題還是競態條件

3.4 非阻塞方式

終於,我們來到了非阻塞解決方案。先來看看最原始的非阻塞如何工作的。

05_nonblocking

注:總體耗時約4.3秒。

首先注意到兩點,就感覺被騙了。一是耗時與同步阻塞相當,二是程式碼更復雜。要非阻塞何用?且慢。

上圖第9行程式碼sock.setblocking(False)告訴OS,讓socket上阻塞呼叫都改為非阻塞的方式。之前我們說到,非阻塞就是在做一件事的時候,不阻礙呼叫它的程式做別的事情。上述程式碼在執行完 sock.connect() 和 sock.recv() 後的確不再阻塞,可以繼續往下執行請求準備的程式碼或者是執行下一次讀取。

程式碼變得更復雜也是上述原因所致。第11行要放在try語句內,是因為socket在傳送非阻塞連線請求過程中,系統底層也會丟擲異常。connect()被呼叫之後,立即可以往下執行第15和16行的程式碼。

需要while迴圈不斷嘗試 send(),是因為connect()已經非阻塞,在send()之時並不知道 socket 的連線是否就緒,只有不斷嘗試,嘗試成功為止,即傳送資料成功了。recv()呼叫也是同理。

雖然 connect() 和 recv() 不再阻塞主程式,空出來的時間段CPU沒有空閒著,但並沒有利用好這空閒去做其他有意義的事情,而是在迴圈嘗試讀寫 socket (不停判斷非阻塞呼叫的狀態是否就緒)。還得處理來自底層的可忽略的異常。也不能同時處理多個 socket 。

然後10次下載任務仍然按序進行。所以總體執行時間和同步阻塞相當。如果非得這樣子,那還不如同步阻塞算了。

3.5 非阻塞改進

3.5.1 epoll

判斷非阻塞呼叫是否就緒如果 OS 能做,是不是應用程式就可以不用自己去等待和判斷了,就可以利用這個空閒去做其他事情以提高效率。

所以OS將I/O狀態的變化都封裝成了事件,如可讀事件、可寫事件。並且提供了專門的系統模組讓應用程式可以接收事件通知。這個模組就是select。讓應用程式可以通過select註冊檔案描述符和回撥函式。當檔案描述符的狀態發生變化時,select 就呼叫事先註冊的回撥函式。

select因其演算法效率比較低,後來改進成了poll,再後來又有進一步改進,BSD核心改進成了kqueue模組,而Linux核心改進成了epoll模組。這四個模組的作用都相同,暴露給程式設計師使用的API也幾乎一致,區別在於kqueue 和 epoll 在處理大量檔案描述符時效率更高。

鑑於 Linux 伺服器的普遍性,以及為了追求更高效率,所以我們常常聽聞被探討的模組都是 epoll 。

3.5.2 回撥(Callback)

把I/O事件的等待和監聽任務交給了 OS,那 OS 在知道I/O狀態發生改變後(例如socket連線已建立成功可傳送資料),它又怎麼知道接下來該幹嘛呢?只能回撥

需要我們將傳送資料與讀取資料封裝成獨立的函式,讓epoll代替應用程式監聽socket狀態時,得告訴epoll:“如果socket狀態變為可以往裡寫資料(連線建立成功了),請呼叫HTTP請求傳送函式。如果socket 變為可以讀資料了(客戶端已收到響應),請呼叫響應處理函式。”

於是我們利用epoll結合回撥機制重構爬蟲程式碼:

06_callback

此處和前面稍有不同的是,我們將下載不同的10個頁面,相對URL路徑存放於urls_todo集合中。現在看看改進在哪。

首先,不斷嘗試send() 和 recv() 的兩個迴圈被消滅掉了。

其次,匯入了selectors模組,並建立了一個DefaultSelector 例項。Python標準庫提供的selectors模組是對底層select/poll/epoll/kqueue的封裝。DefaultSelector類會根據 OS 環境自動選擇最佳的模組,那在 Linux 2.5.44 及更新的版本上都是epoll了。

然後,在第25行和第31行分別註冊了socket可寫事件(EVENT_WRITE)和可讀事件(EVENT_READ)發生後應該採取的回撥函式。

雖然程式碼結構清晰了,阻塞操作也交給OS去等待和通知了,但是,我們要抓取10個不同頁面,就