1. 程式人生 > >linux 高併發網路程式設計之epoll詳解

linux 高併發網路程式設計之epoll詳解

前言

      I/O多路複用有很多種實現。在linux上,2.4核心前主要是select和poll,自Linux 2.6核心正式引入epoll以來,epoll已經成為了目前實現高效能網路伺服器的必備技術。儘管他們的使用方法不盡相同,但是本質上卻沒有什麼區別。本文將重點探討將放在EPOLL的實現與使用詳解。

為什麼會是EPOLL

select的缺陷

      高併發的核心解決方案是1個執行緒處理所有連線的“等待訊息準備好”,這一點上epoll和select是無爭議的。但select預估錯誤了一件事,當數十萬併發連線存在時,可能每一毫秒只有數百個活躍的連線,同時其餘數十萬連線在這一毫秒是非活躍的。select的使用方法是這樣的:

      返回的活躍連線 ==select(全部待監控的連線)。

      什麼時候會呼叫select方法呢?在你認為需要找出有報文到達的活躍連線時,就應該呼叫。所以,呼叫select在高併發時是會被頻繁呼叫的。這樣,這個頻繁呼叫的方法就很有必要看看它是否有效率,因為,它的輕微效率損失都會被“頻繁”二字所放大。它有效率損失嗎?顯而易見,全部待監控連線是數以十萬計的,返回的只是數百個活躍連線,這本身就是無效率的表現。被放大後就會發現,處理併發上萬個連線時,select就完全力不從心了。

      此外,在Linux核心中,select所用到的FD_SET是有限的,即核心中有個引數__FD_SETSIZE定義了每個FD_SET的控制代碼個數。
       

 View Code

      其次,核心中實現 select是用輪詢方法,即每次檢測都會遍歷所有FD_SET中的控制代碼,顯然,select函式執行時間與FD_SET中的控制代碼個數有一個比例關係,即 select要檢測的控制代碼數越多就會越費時。看到這裡,您可能要要問了,你為什麼不提poll?筆者認為select與poll在內部機制方面並沒有太大的差異。相比於select機制,poll只是取消了最大監控檔案描述符數限制,並沒有從根本上解決select存在的問題。

      接下來我們看張圖,當併發連線為較小時,select與epoll似乎並無多少差距。可是當併發連線上來以後,select就顯得力不從心了。

        圖 1.主流I/O複用機制的benchmark

 epoll高效的奧祕

      epoll精巧的使用了3個方法來實現select方法要做的事:

  1. 新建epoll描述符==epoll_create()
  2. epoll_ctrl(epoll描述符,新增或者刪除所有待監控的連線)
  3. 返回的活躍連線 ==epoll_wait( epoll描述符 )

      與select相比,epoll分清了頻繁呼叫和不頻繁呼叫的操作。例如,epoll_ctrl是不太頻繁呼叫的,而epoll_wait是非常頻繁呼叫的。這時,epoll_wait卻幾乎沒有入參,這比select的效率高出一大截,而且,它也不會隨著併發連線的增加使得入參越發多起來,導致核心執行效率下降。

      筆者在這裡不想過多貼出epoll的程式碼片段。如果大家有興趣,可以參考文末貼出的博文連結和Linux相關原始碼。

      要深刻理解epoll,首先得了解epoll的三大關鍵要素:mmap、紅黑樹、連結串列

      epoll是通過核心與使用者空間mmap同一塊記憶體實現的。mmap將使用者空間的一塊地址和核心空間的一塊地址同時對映到相同的一塊實體記憶體地址(不管是使用者空間還是核心空間都是虛擬地址,最終要通過地址對映對映到實體地址),使得這塊實體記憶體對核心和對使用者均可見,減少使用者態和核心態之間的資料交換。核心可以直接看到epoll監聽的控制代碼,效率高。

      紅黑樹將儲存epoll所監聽的套接字。上面mmap出來的記憶體如何儲存epoll所監聽的套接字,必然也得有一套資料結構,epoll在實現上採用紅黑樹去儲存所有套接字,當新增或者刪除一個套接字時(epoll_ctl),都在紅黑樹上去處理,紅黑樹本身插入和刪除效能比較好,時間複雜度O(logN)。

      

      下面幾個關鍵資料結構的定義   

 View Code

 View Code

      新增以及返回事件

      通過epoll_ctl函式新增進來的事件都會被放在紅黑樹的某個節點內,所以,重複新增是沒有用的。當把事件新增進來的時候時候會完成關鍵的一步,那就是該事件都會與相應的裝置(網絡卡)驅動程式建立回撥關係,當相應的事件發生後,就會呼叫這個回撥函式,該回調函式在核心中被稱為:ep_poll_callback,這個回撥函式其實就所把這個事件新增到rdllist這個雙向連結串列中。一旦有事件發生,epoll就會將該事件新增到雙向連結串列中。那麼當我們呼叫epoll_wait時,epoll_wait只需要檢查rdlist雙向連結串列中是否有存在註冊的事件,效率非常可觀。這裡也需要將發生了的事件複製到使用者態記憶體中即可。

     

      epoll_wait的工作流程:

  1. epoll_wait呼叫ep_poll,當rdlist為空(無就緒fd)時掛起當前程序,直到rdlist不空時程序才被喚醒。
  2. 檔案fd狀態改變(buffer由不可讀變為可讀或由不可寫變為可寫),導致相應fd上的回撥函式ep_poll_callback()被呼叫。
  3. ep_poll_callback將相應fd對應epitem加入rdlist,導致rdlist不空,程序被喚醒,epoll_wait得以繼續執行。
  4. ep_events_transfer函式將rdlist中的epitem拷貝到txlist中,並將rdlist清空。
  5. ep_send_events函式(很關鍵),它掃描txlist中的每個epitem,呼叫其關聯fd對用的poll方法。此時對poll的呼叫僅僅是取得fd上較新的events(防止之前events被更新),之後將取得的events和相應的fd傳送到使用者空間(封裝在struct epoll_event,從epoll_wait返回)。     

小結

       表 1. select、poll和epoll三種I/O複用模式的比較( 摘錄自《linux高效能伺服器程式設計》)

系統呼叫

select

poll

epoll

事件集合

用哦過戶通過3個引數分別傳入感興趣的可讀,可寫及異常等事件

核心通過對這些引數的線上修改來反饋其中的就緒事件

這使得使用者每次呼叫select都要重置這3個引數

統一處理所有事件型別,因此只需要一個事件集引數。

使用者通過pollfd.events傳入感興趣的事件,核心通過

修改pollfd.revents反饋其中就緒的事件

核心通過一個事件表直接管理使用者感興趣的所有事件。

因此每次呼叫epoll_wait時,無需反覆傳入使用者感興趣

的事件。epoll_wait系統呼叫的引數events僅用來反饋就緒的事件

應用程式索引就緒檔案

描述符的時間複雜度

O(n)

O(n)

O(1)

最大支援檔案描述符數

一般有最大值限制

65535

65535

工作模式

LT

LT

支援ET高效模式

核心實現和工作效率 採用輪詢方式檢測就緒事件,時間複雜度:O(n)

採用輪詢方式檢測就緒事件,時間複雜度:O(n)

採用回撥方式檢測就緒事件,時間複雜度:O(1)

      行文至此,想必各位都應該已經明瞭為什麼epoll會成為Linux平臺下實現高效能網路伺服器的首選I/O複用呼叫。

      需要注意的是:epoll並不是在所有的應用場景都會比select和poll高很多。尤其是當活動連線比較多的時候,回撥函式被觸發得過於頻繁的時候,epoll的效率也會受到顯著影響!所以,epoll特別適用於連線數量多,但活動連線較少的情況。

      接下來,筆者將介紹一下epoll使用方式的注意點。

 EPOLL的使用 

 檔案描述符的建立 

 View Code

      在epoll早期的實現中,對於監控檔案描述符的組織並不是使用紅黑樹,而是hash表。這裡的size實際上已經沒有意義。

  註冊監控事件

 View Code

函式說明:

     fd:要操作的檔案描述符

     op:指定操作型別

操作型別:

     EPOLL_CTL_ADD:往事件表中註冊fd上的事件

     EPOLL_CTL_MOD:修改fd上的註冊事件

     EPOLL_CTL_DEL:刪除fd上的註冊事件

     event:指定事件,它是epoll_event結構指標型別

     epoll_event定義:

 View Code

結構體說明:

     events:描述事件型別,和poll支援的事件型別基本相同(兩個額外的事件:EPOLLET和EPOLLONESHOT,高效運作的關鍵)

     data成員:儲存使用者資料

 View Code

  epoll_wait函式

1 #include <sys/epoll.h>
2 int epoll_wait ( int epfd, struct epoll_event* events, int maxevents, int timeout );

函式說明:

     返回:成功時返回就緒的檔案描述符的個數,失敗時返回-1並設定errno

     timeout:指定epoll的超時時間,單位是毫秒。當timeout為-1是,epoll_wait呼叫將永遠阻塞,直到某個時間發生。當timeout為0時,epoll_wait呼叫將立即返回。

     maxevents:指定最多監聽多少個事件

     events:檢測到事件,將所有就緒的事件從核心事件表中複製到它的第二個引數events指向的陣列中。

 EPOLLONESHOT事件

使用場合:

      一個執行緒在讀取完某個socket上的資料後開始處理這些資料,而資料的處理過程中該socket又有新資料可讀,此時另外一個執行緒被喚醒來讀取這些新的資料。

      於是,就出現了兩個執行緒同時操作一個socket的局面。可以使用epoll的EPOLLONESHOT事件實現一個socket連線在任一時刻都被一個執行緒處理。

作用:

      對於註冊了EPOLLONESHOT事件的檔案描述符,作業系統最多出發其上註冊的一個可讀,可寫或異常事件,且只能觸發一次。

使用:

      註冊了EPOLLONESHOT事件的socket一旦被某個執行緒處理完畢,該執行緒就應該立即重置這個socket上的EPOLLONESHOT事件,以確保這個socket下一次可讀時,其EPOLLIN事件能被觸發,進而讓其他工作執行緒有機會繼續處理這個sockt。

效果:

      儘管一個socket在不同事件可能被不同的執行緒處理,但同一時刻肯定只有一個執行緒在為它服務,這就保證了連線的完整性,從而避免了很多可能的競態條件。

 LT與ET模式

      在這裡,筆者強烈推薦《徹底學會使用epoll》系列博文,這是筆者看過的,對epoll的ET和LT模式講解最為詳盡和易懂的博文。下面的例項均來自該系列博文。限於篇幅原因,很多關鍵的細節,不能完全摘錄。

      話不多說,直接上程式碼。

程式一:

複製程式碼

#include <stdio.h>
#include <unistd.h>
#include <sys/epoll.h>

int main(void)
{
  int epfd,nfds;
  struct epoll_event ev,events[5]; //ev用於註冊事件,陣列用於返回要處理的事件
  epfd = epoll_create(1); //只需要監聽一個描述符——標準輸入
  ev.data.fd = STDIN_FILENO;
  ev.events = EPOLLIN|EPOLLET; //監聽讀狀態同時設定ET模式
  epoll_ctl(epfd, EPOLL_CTL_ADD, STDIN_FILENO, &ev); //註冊epoll事件
  for(;;)
  {
    nfds = epoll_wait(epfd, events, 5, -1);
    for(int i = 0; i < nfds; i++)
    {
      if(events[i].data.fd==STDIN_FILENO)
        printf("welcome to epoll's word!\n");

    }
  }
}

複製程式碼

編譯並執行,結果如下:

 

  1. 當用戶輸入一組字元,這組字元被送入buffer,字元停留在buffer中,又因為buffer由空變為不空,所以ET返回讀就緒,輸出”welcome to epoll's world!”。
  2. 之後程式再次執行epoll_wait,此時雖然buffer中有內容可讀,但是根據我們上節的分析,ET並不返回就緒,導致epoll_wait阻塞。(底層原因是ET下就緒fd的epitem只被放入rdlist一次)。
  3. 使用者再次輸入一組字元,導致buffer中的內容增多,根據我們上節的分析這將導致fd狀態的改變,是對應的epitem再次加入rdlist,從而使epoll_wait返回讀就緒,再次輸出“Welcome to epoll's world!”。

接下來我們將上面程式的第11行做如下修改:

 View Code

編譯並執行,結果如下:

 

      程式陷入死迴圈,因為使用者輸入任意資料後,資料被送入buffer且沒有被讀出,所以LT模式下每次epoll_wait都認為buffer可讀返回讀就緒。導致每次都會輸出”welcome to epoll's world!”。

程式二:

 View Code

編譯並執行,結果如下:

 

      本程式依然使用LT模式,但是每次epoll_wait返回讀就緒的時候我們都將buffer(緩衝)中的內容read出來,所以導致buffer再次清空,下次呼叫epoll_wait就會阻塞。所以能夠實現我們所想要的功能——當用戶從控制檯有任何輸入操作時,輸出”welcome to epoll's world!”

程式三:

 View Code

編譯並執行,結果如下:

 

     程式依然使用ET,但是每次讀就緒後都主動的再次MOD IN事件,我們發現程式再次出現死迴圈,也就是每次返回讀就緒。但是注意,如果我們將MOD改為ADD,將不會產生任何影響。別忘了每次ADD一個描述符都會在epitem組成的紅黑樹中新增一個項,我們之前已經ADD過一次,再次ADD將阻止新增,所以在次呼叫ADD IN事件不會有任何影響。

程式四:

 View Code

編譯並執行,結果如下:

 

      這個程式的功能是隻要標準輸出寫就緒,就輸出“welcome to epoll's world”。我們發現這將是一個死迴圈。下面具體分析一下這個程式的執行過程:

  1. 首先初始buffer為空,buffer中有空間可寫,這時無論是ET還是LT都會將對應的epitem加入rdlist,導致epoll_wait就返回寫就緒。
  2. 程式想標準輸出輸出”welcome to epoll's world”和換行符,因為標準輸出為控制檯的時候緩衝是“行緩衝”,所以換行符導致buffer中的內容清空,這就對應第二節中ET模式下寫就緒的第二種情況——當有舊資料被髮送走時,即buffer中待寫的內容變少得時候會觸發fd狀態的改變。所以下次epoll_wait會返回寫就緒。如此迴圈往復。

程式五:

 View Code

編譯並執行,結果如下:

 

      與程式四相比,程式五隻是將輸出語句的printf的換行符移除。我們看到程式成掛起狀態。因為第一次epoll_wait返回寫就緒後,程式向標準輸出的buffer中寫入“welcome to epoll's world!”,但是因為沒有輸出換行,所以buffer中的內容一直存在,下次epoll_wait的時候,雖然有寫空間但是ET模式下不再返回寫就緒。回憶第一節關於ET的實現,這種情況原因就是第一次buffer為空,導致epitem加入rdlist,返回一次就緒後移除此epitem,之後雖然buffer仍然可寫,但是由於對應epitem已經不再rdlist中,就不會對其就緒fd的events的在檢測了。

程式六:

 View Code

編譯並執行,結果如下:

 

       程式六相對程式五僅僅是修改ET模式為預設的LT模式,我們發現程式再次死迴圈。這時候原因已經很清楚了,因為當向buffer寫入”welcome to epoll's world!”後,雖然buffer沒有輸出清空,但是LT模式下只有buffer有寫空間就返回寫就緒,所以會一直輸出”welcome to epoll's world!”,當buffer滿的時候,buffer會自動刷清輸出,同樣會造成epoll_wait返回寫就緒。

程式七:

 View Code

編譯並執行,結果如下:

 

      程式七相對於程式五在每次向標準輸出的buffer輸出”welcome to epoll's world!”後,重新MOD OUT事件。所以相當於每次都會返回就緒,導致程式迴圈輸出。

      經過前面的案例分析,我們已經瞭解到,當epoll工作在ET模式下時,對於讀操作,如果read一次沒有讀盡buffer中的資料,那麼下次將得不到讀就緒的通知,造成buffer中已有的資料無機會讀出,除非有新的資料再次到達。對於寫操作,主要是因為ET模式下fd通常為非阻塞造成的一個問題——如何保證將使用者要求寫的資料寫完。

      要解決上述兩個ET模式下的讀寫問題,我們必須實現:

  1. 對於讀,只要buffer中還有資料就一直讀;
  2. 對於寫,只要buffer還有空間且使用者請求寫的資料還未寫完,就一直寫。

 ET模式下的accept問題

      請思考以下一種場景:在某一時刻,有多個連線同時到達,伺服器的 TCP 就緒佇列瞬間積累多個就緒連線,由於是邊緣觸發模式,epoll 只會通知一次,accept 只處理一個連線,導致 TCP 就緒佇列中剩下的連線都得不到處理。在這種情形下,我們應該如何有效的處理呢?

      解決的方法是:解決辦法是用 while 迴圈抱住 accept 呼叫,處理完 TCP 就緒佇列中的所有連線後再退出迴圈。如何知道是否處理完就緒佇列中的所有連線呢? accept  返回 -1 並且 errno 設定為 EAGAIN 就表示所有連線都處理完。 

      關於ET的accept問題,這篇博文的參考價值很高,如果有興趣,可以連結過去圍觀一下。

ET模式為什麼要設定在非阻塞模式下工作

      因為ET模式下的讀寫需要一直讀或寫直到出錯(對於讀,當讀到的實際位元組數小於請求位元組數時就可以停止),而如果你的檔案描述符如果不是非阻塞的,那這個一直讀或一直寫勢必會在最後一次阻塞。這樣就不能在阻塞在epoll_wait上了,造成其他檔案描述符的任務飢餓。

epoll的使用例項

      這樣的例項,網上已經有很多了(包括參考連結),筆者這裡就略過了。

小結

       LT:水平觸發,效率會低於ET觸發,尤其在大併發,大流量的情況下。但是LT對程式碼編寫要求比較低,不容易出現問題。LT模式服務編寫上的表現是:只要有資料沒有被獲取,核心就不斷通知你,因此不用擔心事件丟失的情況。

       ET:邊緣觸發,效率非常高,在併發,大流量的情況下,會比LT少很多epoll的系統呼叫,因此效率高。但是對程式設計要求高,需要細緻的處理每個請求,否則容易發生丟失事件的情況。

      從本質上講:與LT相比,ET模型是通過減少系統呼叫來達到提高並行效率的。

總結

      epoll使用的梳理與總結到這裡就告一段落了。限於篇幅原因,很多細節都被略過了。後面參考給出的連結,強烈推薦閱讀。疏謬之處,萬望斧正!   

備註

     本文有相當份量的內容參考借鑑了網路上各位網友的熱心分享,特別是一些帶有完全參考的文章,其後附帶的連結內容更直接、更豐富,筆者只是做了一下歸納&轉述,在此一併表示感謝。

參考

      《Linux高效能伺服器程式設計》