1. 程式人生 > >Linux核心中select,poll,epoll的區別詳解

Linux核心中select,poll,epoll的區別詳解

隨著2.6核心對epoll的完全支援,網路上很多的文章和示例程式碼都提供了這樣一個資訊:使用epoll代替傳統的poll能給網路服務應用帶來效能上的提升。但大多文章裡關於效能提升的原因解釋的較少,這裡我將試分析一下核心(2.6.21.1)程式碼中poll與epoll的工作原理,然後再通過一些測試資料來對比具體效果。

poll:

先說poll,poll或select為大部分Unix/Linux程式設計師所熟悉,這倆個東西原理類似,效能上也不存在明顯差異,但select對所監控的檔案描述符數量有限制,所以這裡選用poll做說明。

poll是一個系統呼叫,其核心入口函式為sys_poll,sys_poll幾乎不做任何處理直接呼叫do_sys_poll,do_sys_poll的執行過程可以分為三個部分:

1,將使用者傳入的pollfd陣列拷貝到核心空間,因為拷貝操作和陣列長度相關,時間上這是一個O(n)操作,這一步的程式碼在do_sys_poll中包括從函式開始到呼叫do_poll前的部分。

2,查詢每個檔案描述符對應裝置的狀態,如果該裝置尚未就緒,則在該裝置的等待佇列中加入一項並繼續查詢下一裝置的狀態。查詢完所有裝置後如果沒有一個裝置就緒,這時則需要掛起當前程序等待,直到裝置就緒或者超時,掛起操作是通過呼叫schedule_timeout執行的。裝置就緒後進程被通知繼續執行,這時再次遍歷所有裝置,以查詢就緒裝置。這一步因為兩次遍歷所有裝置,時間複雜度也是O(n),這裡面不包括等待時間。相關程式碼在do_poll函式中。

3,將獲得的資料傳送到使用者空間並執行釋放記憶體和剝離等待佇列等善後工作,向用戶空間拷貝資料與剝離等待佇列等操作的的時間複雜度同樣是O(n),具體程式碼包括do_sys_poll函式中呼叫do_poll後到結束的部分。

EPOLL:

接下來分析epoll,與poll/select不同,epoll不再是一個單獨的系統呼叫,而是由epoll_create/epoll_ctl/epoll_wait三個系統呼叫組成,後面將會看到這樣做的好處。

先來看sys_epoll_create(epoll_create對應的核心函式),這個函式主要是做一些準備工作,比如建立資料結構,初始化資料並最終返回一個檔案描述符(表示新建立的虛擬epoll檔案),這個操作可以認為是一個固定時間的操作。

epoll是做為一個虛擬檔案系統來實現的,這樣做至少有以下兩個好處:

1,可以在核心裡維護一些資訊,這些資訊在多次epoll_wait間是保持的,比如所有受監控的檔案描述符。

2, epoll本身也可以被poll/epoll;

具體epoll的虛擬檔案系統的實現和效能分析無關,不再贅述。

在sys_epoll_create中還能看到一個細節,就是epoll_create的引數size在現階段是沒有意義的,只要大於零就行。

接著是sys_epoll_ctl(epoll_ctl對應的核心函式),需要明確的是每次呼叫sys_epoll_ctl只處理一個檔案描述符,這裡主要描述當op為EPOLL_CTL_ADD時的執行過程,sys_epoll_ctl做一些安全性檢查後進入ep_insert,ep_insert裡將 ep_poll_callback做為回掉函式加入裝置的等待佇列(假定這時裝置尚未就緒),由於每次poll_ctl只操作一個檔案描述符,因此也可以認為這是一個O(1)操作

ep_poll_callback函式很關鍵,它在所等待的裝置就緒後被系統回掉,執行兩個操作:

1,將就緒裝置加入就緒佇列,這一步避免了像poll那樣在裝置就緒後再次輪詢所有裝置找就緒者,降低了時間複雜度,由O(n)到O(1);

2,喚醒虛擬的epoll檔案;

最後是sys_epoll_wait,這裡實際執行操作的是ep_poll函式。該函式等待將程序自身插入虛擬epoll檔案的等待佇列,直到被喚醒(見上面ep_poll_callback函式描述),最後執行ep_events_transfer將結果拷貝到使用者空間。由於只拷貝就緒裝置資訊,所以這裡的拷貝是一個O(1)操作。

還有一個讓人關心的問題就是epoll對EPOLLET的處理,即邊沿觸發的處理,粗略看程式碼就是把一部分水平觸發模式下核心做的工作交給使用者來處理,直覺上不會對效能有太大影響,感興趣的朋友歡迎討論。

POLL/EPOLL對比:

表面上poll的過程可以看作是由一次epoll_create/若干次epoll_ctl/一次epoll_wait/一次close等系統呼叫構成,實際上epoll將poll分成若干部分實現的原因正是因為伺服器軟體中使用poll的特點(比如Web伺服器):

1,需要同時poll大量檔案描述符;

2,每次poll完成後就緒的檔案描述符只佔所有被poll的描述符的很少一部分。

3,前後多次poll呼叫對檔案描述符陣列(ufds)的修改只是很小;

傳統的poll函式相當於每次呼叫都重起爐灶,從使用者空間完整讀入ufds,完成後再次完全拷貝到使用者空間,另外每次poll都需要對所有裝置做至少做一次加入和刪除等待佇列操作,這些都是低效的原因。

epoll將以上情況都細化考慮,不需要每次都完整讀入輸出ufds,只需使用epoll_ctl調整其中一小部分,不需要每次epoll_wait都執行一次加入刪除等待佇列操作,另外改進後的機制使的不必在某個裝置就緒後搜尋整個裝置陣列進行查詢,這些都能提高效率。另外最明顯的一點,從使用者的使用來說,使用epoll不必每次都輪詢所有返回結果已找出其中的就緒部分,O(n)變O(1),對效能也提高不少。

此外這裡還發現一點,是不是將epoll_ctl改成一次可以處理多個fd(像semctl那樣)會提高些許效能呢?特別是在假設系統呼叫比較耗時的基礎上。不過關於系統呼叫的耗時問題還會在以後分析。

select()系統呼叫提供一個機制來實現同步多元I/O:

#include <sys/time.h>
#include <sys/types.h>
#include <unistd.h>

int select (int n,
fd_set *readfds,
fd_set *writefds,
fd_set *exceptfds,
struct timeval *timeout);

FD_CLR(int fd, fd_set *set);
FD_ISSET(int fd, fd_set *set);
FD_SET(int fd, fd_set *set);
FD_ZERO(fd_set *set);

呼叫select()將阻塞,直到指定的檔案描述符準備好執行I/O,或者可選引數timeout指定的時間已經過去。
監視的檔案描述符分為三類set,每一種對應等待不同的事件。readfds中列出的檔案描述符被監視是否有資料可供讀取(如果讀取操作完成則不會阻塞)。writefds中列出的檔案描述符則被監視是否寫入操作完成而不阻塞。最後,exceptfds中列出的檔案描述符則被監視是否發生異常,或者無法控制的資料是否可用(這些狀態僅僅應用於套接字)。這三類set可以是NULL,這種情況下select()不監視這一類事件。
select()成功返回時,每組set都被修改以使它只包含準備好I/O的檔案描述符。例如,假設有兩個檔案描述符,值分別是7和9,被放在readfds中。當select()返回時,如果7仍然在set中,則這個檔案描述符已經準備好被讀取而不會阻塞。如果9已經不在set中,則讀取它將可能會阻塞(我說可能是因為資料可能正好在select返回後就可用,這種情況下,下一次呼叫select()將返回檔案描述符準備好讀取)。
第一個引數n,等於所有set中最大的那個檔案描述符的值加1。因此,select()的呼叫者負責檢查哪個檔案描述符擁有最大值,並且把這個值加1再傳遞給第一個引數。

timeout引數是一個指向timeval結構體的指標,timeval定義如下:

#include <sys/time.h>
struct timeval {
long tv_sec; /* seconds */
long tv_usec; /* 10E-6 second */
};

如果這個引數不是NULL,則即使沒有檔案描述符準備好I/O,select()也會在經過tv_sec秒和tv_usec微秒後返回。當select()返回時,timeout引數的狀態在不同的系統中是未定義的,因此每次呼叫select()之前必須重新初始化timeout和檔案描述符set。實際上,當前版本的Linux會自動修改timeout引數,設定它的值為剩餘時間。因此,如果timeout被設定為5秒,然後在檔案描述符準備好之前經過了3秒,則這一次呼叫select()返回時tv_sec將變為2。
如果timeout中的兩個值都設定為0,則呼叫select()將立即返回,報告呼叫時所有未決的事件,但不等待任何隨後的事件。
檔案描述符set不會直接操作,一般使用幾個助手巨集來管理。這允許Unix系統以自己喜歡的方式來實現檔案描述符set。但大多數系統都簡單地實現set為位陣列。FD_ZERO移除指定set中的所有檔案描述符。每一次呼叫select()之前都應該先呼叫它。

fd_set writefds;
FD_ZERO(&writefds);

FD_SET新增一個檔案描述符到指定的set中,FD_CLR則從指定的set中移除一個檔案描述符:

FD_SET(fd, &writefds); /* add 'fd' to the set */
FD_CLR(fd, &writefds); /* oops, remove 'fd' from the set */

設計良好的程式碼應該永遠不使用FD_CLR,而且實際情況中它也確實很少被使用。
FD_ISSET測試一個檔案描述符是否指定set的一部分。如果檔案描述符在set中則返回一個非0整數,不在則返回0。FD_ISSET在呼叫select()返回之後使用,測試指定的檔案描述符是否準備好相關動作:

if (FD_ISSET(fd, &readfds))
/* 'fd' is readable without blocking! */

因為檔案描述符set是靜態建立的,它們對檔案描述符的最大數目強加了一個限制,能夠放進set中的最大檔案描述符的值由FD_SETSIZE指定。在Linux中,這個值是1024。本章後面我們還將看到這個限制的衍生物。

返回值和錯誤程式碼
select()成功時返回準備好I/O的檔案描述符數目,包括所有三個set。如果提供了timeout,返回值可能是0;錯誤時返回-1,並且設定errno為下面幾個值之一:

EBADF     給某個set提供了無效檔案描述符。
EINTR     等待時捕獲到訊號,可以重新發起呼叫。
EINVAL    引數n為負數,或者指定的timeout非法。
ENOMEM    不夠可用記憶體來完成請求。

poll()系統呼叫是System V的多元I/O解決方案。

它解決了select()的幾個不足,儘管select()仍然經常使用(多數還是出於習慣,或者打著可移植的名義):

#include <sys/poll.h>
int poll (struct pollfd *fds, unsigned int nfds, int timeout);
和select()不一樣,poll()沒有使用低效的三個基於位的檔案描述符set,而是採用了一個單獨的結構體pollfd陣列,由fds指標指向這個組。

pollfd結構體定義如下:

#include <sys/poll.h>

struct pollfd {
int fd; /* file descriptor */
short events; /* requested events to watch */
short revents; /* returned events witnessed */
};

每一個pollfd結構體指定了一個被監視的檔案描述符,可以傳遞多個結構體,指示poll()監視多個檔案描述符。每個結構體的events域是監視該檔案描述符的事件掩碼,由使用者來設定這個域。revents域是檔案描述符的操作結果事件掩碼。核心在呼叫返回時設定這個域。events域中請求的任何事件都可能在revents域中返回。合法的事件如下:

* POLLIN      有資料可讀。
  POLLRDNORM  有普通資料可讀。
  POLLRDBAND  有優先資料可讀。
  POLLPRI     有緊迫資料可讀。
* POLLOUT     寫資料不會導致阻塞。
  POLLWRNORM  寫普通資料不會導致阻塞。
  POLLWRBAND  寫優先資料不會導致阻塞。
  POLLMSG     SIGPOLL訊息可用。

此外,revents域中還可能返回下列事件:

POLLER    指定的檔案描述符發生錯誤。
POLLHUP   指定的檔案描述符掛起事件。
POLLNVAL  指定的檔案描述符非法。

這些事件在events域中無意義,因為它們在合適的時候總是會從revents中返回。使用poll()和select()不一樣,你不需要顯式地請求異常情況報告。

POLLIN | POLLPRI等價於select()的讀事件,POLLOUT | POLLWRBAND等價於select()的寫事件。POLLIN等價於POLLRDNORM | POLLRDBAND,而POLLOUT則等價於POLLWRNORM。

例如,要同時監視一個檔案描述符是否可讀和可寫,我們可以設定events為POLLIN | POLLOUT。在poll返回時,我們可以檢查revents中的標誌,對應於檔案描述符請求的events結構體。如果POLLIN事件被設定,則檔案描述符可以被讀取而不阻塞。如果POLLOUT被設定,則檔案描述符可以寫入而不導致阻塞。這些標誌並不是互斥的:它們可能被同時設定,表示這個檔案描述符的讀取和寫入操作都會正常返回而不阻塞。

timeout引數指定等待的毫秒數,無論I/O是否準備好,poll都會返回。timeout指定為負數值表示無限超時;timeout為0指示poll呼叫立即返回並列出準備好I/O的檔案描述符,但並不等待其它的事件。這種情況下,poll()就像它的名字那樣,一旦選舉出來,立即返回。

`返回值和錯誤程式碼

成功時,poll()返回結構體中revents域不為0的檔案描述符個數;如果在超時前沒有任何事件發生,poll()返回0;失敗時,poll()返回-1,並設定errno為下列值之一:

EBADF
一個或多個結構體中指定的檔案描述符無效。
EFAULT
fds指標指向的地址超出程序的地址空間。
EINTR
請求的事件之前產生一個訊號,呼叫可以重新發起。
EINVAL
nfds引數超出PLIMIT_NOFILE值。
ENOMEM
可用記憶體不足,無法完成請求。

epoll的優點:

1.支援一個程序開啟大數目的socket描述符(FD)

select 最不能忍受的是一個程序所開啟的FD是有一定限制的,由FD_SETSIZE設定,預設值是2048。對於那些需要支援的上萬連線數目的IM伺服器來說顯然太少了。這時候你一是可以選擇修改這個巨集然後重新編譯核心,不過資料也同時指出這樣會帶來網路效率的下降,二是可以選擇多程序的解決方案(傳統的 Apache方案),不過雖然linux上面建立程序的代價比較小,但仍舊是不可忽視的,加上程序間資料同步遠比不上執行緒間同步的高效,所以也不是一種完美的方案。不過 epoll則沒有這個限制,它所支援的FD上限是最大可以開啟檔案的數目,這個數字一般遠大於2048,舉個例子,在1GB記憶體的機器上大約是10萬左右,具體數目可以cat /proc/sys/fs/file-max察看,一般來說這個數目和系統記憶體關係很大。

2.IO效率不隨FD數目增加而線性下降

傳統的select/poll另一個致命弱點就是當你擁有一個很大的socket集合,不過由於網路延時,任一時間只有部分的socket是”活躍”的,但是select/poll每次呼叫都會線性掃描全部的集合,導致效率呈現線性下降。但是epoll不存在這個問題,它只會對”活躍”的socket進行操作—這是因為在核心實現中epoll是根據每個fd上面的callback函式實現的。那麼,只有”活躍”的socket才會主動的去呼叫 callback函式,其他idle狀態socket則不會,在這點上,epoll實現了一個”偽”AIO,因為這時候推動力在os核心。在一些 benchmark中,如果所有的socket基本上都是活躍的—比如一個高速LAN環境,epoll並不比select/poll有什麼效率,相反,如果過多使用epoll_ctl,效率相比還有稍微的下降。但是一旦使用idle connections模擬WAN環境,epoll的效率就遠在select/poll之上了。

3.使用mmap加速核心與使用者空間的訊息傳遞。

這點實際上涉及到epoll的具體實現了。無論是select,poll還是epoll都需要核心把FD訊息通知給使用者空間,如何避免不必要的記憶體拷貝就很重要,在這點上,epoll是通過核心於使用者空間mmap同一塊記憶體實現的。而如果你想我一樣從2.5核心就關注epoll的話,一定不會忘記手工 mmap這一步的。

4.核心微調

這一點其實不算epoll的優點了,而是整個linux平臺的優點。也許你可以懷疑linux平臺,但是你無法迴避linux平臺賦予你微調核心的能力。比如,核心TCP/IP協議棧使用記憶體池管理sk_buff結構,那麼可以在執行時期動態調整這個記憶體pool(skb_head_pool)的大小— 通過echo XXXX>/proc/sys/net/core/hot_list_length完成。再比如listen函式的第2個引數(TCP完成3次握手的資料包佇列長度),也可以根據你平臺記憶體大小動態調整。更甚至在一個數據包面數目巨大但同時每個資料包本身大小卻很小的特殊系統上嘗試最新的NAPI網絡卡驅動架構。