Linux中select poll和epoll的區別

阿新 • • 發佈：2018-12-20

也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

select的本質是採用32個整數的32位，即32*32= 1024來標識，fd值為1-1024。當fd的值超過1024限制時，就必須修改FD_SETSIZE的大小。這個時候就可以標識32*max值範圍的fd。

對於單程序多執行緒，每個執行緒處理多個fd的情況，select是不適合的。

1.所有的執行緒均是從1-32*max進行掃描，每個執行緒處理的均是一段fd值，這樣做有點浪費

2.1024上限問題，一個處理多個使用者的程序，fd值遠遠大於1024

所以這個時候應該採用poll，

poll傳遞的是陣列頭指標和該陣列的長度，只要陣列的長度不是很長，效能還是很不錯的，因為poll一次在核心中申請4K（一個頁的大小來存放fd），儘量控制在4K以內

epoll還是poll的一種優化，返回後不需要對所有的fd進行遍歷，在核心中維持了fd的列表。select和poll是將這個核心列表維持在使用者態，然後傳遞到核心中。但是隻有在2.6的核心才支援。

epoll更適合於處理大量的fd ，且活躍fd不是很多的情況，畢竟fd較多還是一個序列的操作

對select、poll、epoll瞭解得不多，下面是從《構建高效能Web站點》摘錄下來的介紹，等以後真正接觸到select、poll和epoll方面的開發再詳細寫一下使用上的區別。

select

select最早於1983年出現在4.2BSD中，它通過一個select()系統呼叫來監視多個檔案描述符的陣列，當select()返回後，該陣列中就緒的檔案描述符便會被核心修改標誌位，使得程序可以獲得這些檔案描述符從而進行後續的讀寫操作。

select目前幾乎在所有的平臺上支援，其良好跨平臺支援也是它的一個優點，事實上從現在看來，這也是它所剩不多的優點之一。

select的一個缺點在於單個程序能夠監視的檔案描述符的數量存在最大限制，在Linux上一般為1024，不過可以通過修改巨集定義甚至重新編譯核心的方式提升這一限制。

另外，select()所維護的儲存大量檔案描述符的資料結構，隨著檔案描述符數量的增大，其複製的開銷也線性增長。同時，由於網路響應時間的延遲使得大量TCP連線處於非活躍狀態，但呼叫select()會對所有socket進行一次線性掃描，所以這也浪費了一定的開銷。

poll

poll在1986年誕生於System V Release 3，它和select在本質上沒有多大差別，但是poll沒有最大檔案描述符數量的限制。

poll和select同樣存在一個缺點就是，包含大量檔案描述符的陣列被整體複製於使用者態和核心的地址空間之間，而不論這些檔案描述符是否就緒，它的開銷隨著檔案描述符數量的增加而線性增大。

另外，select()和poll()將就緒的檔案描述符告訴程序後，如果程序沒有對其進行IO操作，那麼下次呼叫select()和poll()的時候將再次報告這些檔案描述符，所以它們一般不會丟失就緒的訊息，這種方式稱為水平觸發（Level Triggered）。

epoll

直到Linux2.6才出現了由核心直接支援的實現方法，那就是epoll，它幾乎具備了之前所說的一切優點，被公認為Linux2.6下效能最好的多路I/O就緒通知方法。

epoll可以同時支援水平觸發和邊緣觸發（Edge Triggered，只告訴程序哪些檔案描述符剛剛變為就緒狀態，它只說一遍，如果我們沒有采取行動，那麼它將不會再次告知，這種方式稱為邊緣觸發），理論上邊緣觸發的效能要更高一些，但是程式碼實現相當複雜。

epoll同樣只告知那些就緒的檔案描述符，而且當我們呼叫epoll_wait()獲得就緒檔案描述符時，返回的不是實際的描述符，而是一個代表就緒描述符數量的值，你只需要去epoll指定的一個數組中依次取得相應數量的檔案描述符即可，這裡也使用了記憶體對映（mmap）技術，這樣便徹底省掉了這些檔案描述符在系統呼叫時複製的開銷。

另一個本質的改進在於epoll採用基於事件的就緒通知方式。在select/poll中，程序只有在呼叫一定的方法後，核心才對所有監視的檔案描述符進行掃描，而epoll事先通過epoll_ctl()來註冊一個檔案描述符，一旦基於某個檔案描述符就緒時，核心會採用類似callback的回撥機制，迅速啟用這個檔案描述符，當程序呼叫epoll_wait()時便得到通知。

=====================================================================

select()系統呼叫提供一個機制來實現同步多元I/O：

#include <sys/time.h>#include <sys/types.h>#include <unistd.h>int select (int n,fd_set *readfds,fd_set *writefds,fd_set *exceptfds,struct timeval *timeout);FD_CLR(int fd, fd_set *set);FD_ISSET(int fd, fd_set *set);FD_SET(int fd, fd_set *set);FD_ZERO(fd_set *set);

呼叫select()將阻塞，直到指定的檔案描述符準備好執行I/O，或者可選引數timeout指定的時間已經過去。監視的檔案描述符分為三類set，每一種對應等待不同的事件。readfds中列出的檔案描述符被監視是否有資料可供讀取（如果讀取操作完成則不會阻塞）。writefds中列出的檔案描述符則被監視是否寫入操作完成而不阻塞。最後，exceptfds中列出的檔案描述符則被監視是否發生異常，或者無法控制的資料是否可用（這些狀態僅僅應用於套接字）。這三類set可以是NULL，這種情況下select()不監視這一類事件。select()成功返回時，每組set都被修改以使它只包含準備好I/O的檔案描述符。例如，假設有兩個檔案描述符，值分別是7和9，被放在readfds中。當select()返回時，如果7仍然在set中，則這個檔案描述符已經準備好被讀取而不會阻塞。如果9已經不在set中，則讀取它將可能會阻塞（我說可能是因為資料可能正好在select返回後就可用，這種情況下，下一次呼叫select()將返回檔案描述符準備好讀取）。第一個引數n，等於所有set中最大的那個檔案描述符的值加1。因此，select()的呼叫者負責檢查哪個檔案描述符擁有最大值，並且把這個值加1再傳遞給第一個引數。timeout引數是一個指向timeval結構體的指標，timeval定義如下：

#include <sys/time.h>struct timeval {long tv_sec; /* seconds */long tv_usec; /* 10E-6 second */};

如果這個引數不是NULL，則即使沒有檔案描述符準備好I/O，select()也會在經過tv_sec秒和tv_usec微秒後返回。當select()返回時，timeout引數的狀態在不同的系統中是未定義的，因此每次呼叫select()之前必須重新初始化timeout和檔案描述符set。實際上，當前版本的Linux會自動修改timeout引數，設定它的值為剩餘時間。因此，如果timeout被設定為5秒，然後在檔案描述符準備好之前經過了3秒，則這一次呼叫select()返回時tv_sec將變為2。如果timeout中的兩個值都設定為0，則呼叫select()將立即返回，報告呼叫時所有未決的事件，但不等待任何隨後的事件。檔案描述符set不會直接操作，一般使用幾個助手巨集來管理。這允許Unix系統以自己喜歡的方式來實現檔案描述符set。但大多數系統都簡單地實現set為位陣列。FD_ZERO移除指定set中的所有檔案描述符。每一次呼叫select()之前都應該先呼叫它。fd_set writefds;FD_ZERO(&writefds);FD_SET新增一個檔案描述符到指定的set中，FD_CLR則從指定的set中移除一個檔案描述符：FD_SET(fd, &writefds); /* add 'fd' to the set */FD_CLR(fd, &writefds); /* oops, remove 'fd' from the set */設計良好的程式碼應該永遠不使用FD_CLR，而且實際情況中它也確實很少被使用。FD_ISSET測試一個檔案描述符是否指定set的一部分。如果檔案描述符在set中則返回一個非0整數，不在則返回0。FD_ISSET在呼叫select()返回之後使用，測試指定的檔案描述符是否準備好相關動作：if (FD_ISSET(fd, &readfds))/* 'fd' is readable without blocking! */因為檔案描述符set是靜態建立的，它們對檔案描述符的最大數目強加了一個限制，能夠放進set中的最大檔案描述符的值由FD_SETSIZE指定。在Linux中，這個值是1024。本章後面我們還將看到這個限制的衍生物。返回值和錯誤程式碼select()成功時返回準備好I/O的檔案描述符數目，包括所有三個set。如果提供了timeout，返回值可能是0；錯誤時返回-1，並且設定errno為下面幾個值之一：EBADF給某個set提供了無效檔案描述符。EINTR等待時捕獲到訊號，可以重新發起呼叫。EINVAL引數n為負數，或者指定的timeout非法。ENOMEM不夠可用記憶體來完成請求。--------------------------------------------------------------------------------------------------------------

poll()系統呼叫是System V的多元I/O解決方案。它解決了select()的幾個不足，儘管select()仍然經常使用（多數還是出於習慣，或者打著可移植的名義）：

#include <sys/poll.h>int poll (struct pollfd *fds, unsigned int nfds, int timeout);

和select()不一樣，poll()沒有使用低效的三個基於位的檔案描述符set，而是採用了一個單獨的結構體pollfd陣列，由fds指標指向這個組。pollfd結構體定義如下：

#include <sys/poll.h>struct pollfd {int fd; /* file descriptor */short events; /* requested events to watch */short revents; /* returned events witnessed */};

每一個pollfd結構體指定了一個被監視的檔案描述符，可以傳遞多個結構體，指示poll()監視多個檔案描述符。每個結構體的events域是監視該檔案描述符的事件掩碼，由使用者來設定這個域。revents域是檔案描述符的操作結果事件掩碼。核心在呼叫返回時設定這個域。events域中請求的任何事件都可能在revents域中返回。合法的事件如下：POLLIN有資料可讀。POLLRDNORM有普通資料可讀。POLLRDBAND有優先資料可讀。POLLPRI有緊迫資料可讀。POLLOUT寫資料不會導致阻塞。POLLWRNORM寫普通資料不會導致阻塞。POLLWRBAND寫優先資料不會導致阻塞。POLLMSGSIGPOLL訊息可用。此外，revents域中還可能返回下列事件：POLLER指定的檔案描述符發生錯誤。POLLHUP指定的檔案描述符掛起事件。POLLNVAL指定的檔案描述符非法。這些事件在events域中無意義，因為它們在合適的時候總是會從revents中返回。使用poll()和select()不一樣，你不需要顯式地請求異常情況報告。POLLIN | POLLPRI等價於select()的讀事件，POLLOUT | POLLWRBAND等價於select()的寫事件。POLLIN等價於POLLRDNORM | POLLRDBAND，而POLLOUT則等價於POLLWRNORM。例如，要同時監視一個檔案描述符是否可讀和可寫，我們可以設定events為POLLIN | POLLOUT。在poll返回時，我們可以檢查revents中的標誌，對應於檔案描述符請求的events結構體。如果POLLIN事件被設定，則檔案描述符可以被讀取而不阻塞。如果POLLOUT被設定，則檔案描述符可以寫入而不導致阻塞。這些標誌並不是互斥的：它們可能被同時設定，表示這個檔案描述符的讀取和寫入操作都會正常返回而不阻塞。timeout引數指定等待的毫秒數，無論I/O是否準備好，poll都會返回。timeout指定為負數值表示無限超時；timeout為0指示poll呼叫立即返回並列出準備好I/O的檔案描述符，但並不等待其它的事件。這種情況下，poll()就像它的名字那樣，一旦選舉出來，立即返回。返回值和錯誤程式碼成功時，poll()返回結構體中revents域不為0的檔案描述符個數；如果在超時前沒有任何事件發生，poll()返回0；失敗時，poll()返回-1，並設定errno為下列值之一：EBADF一個或多個結構體中指定的檔案描述符無效。EFAULTfds指標指向的地址超出程序的地址空間。EINTR請求的事件之前產生一個訊號，呼叫可以重新發起。EINVALnfds引數超出PLIMIT_NOFILE值。ENOMEM可用記憶體不足，無法完成請求。

=====================================================================

epoll的優點：

1.支援一個程序開啟大數目的socket描述符(FD) select 最不能忍受的是一個程序所開啟的FD是有一定限制的，由FD_SETSIZE設定，預設值是2048。對於那些需要支援的上萬連線數目的IM伺服器來說顯然太少了。這時候你一是可以選擇修改這個巨集然後重新編譯核心，不過資料也同時指出這樣會帶來網路效率的下降，二是可以選擇多程序的解決方案(傳統的 Apache方案)，不過雖然linux上面建立程序的代價比較小，但仍舊是不可忽視的，加上程序間資料同步遠比不上執行緒間同步的高效，所以也不是一種完美的方案。不過 epoll則沒有這個限制，它所支援的FD上限是最大可以開啟檔案的數目，這個數字一般遠大於2048,舉個例子,在1GB記憶體的機器上大約是10萬左右，具體數目可以cat /proc/sys/fs/file-max察看,一般來說這個數目和系統記憶體關係很大。

2.IO效率不隨FD數目增加而線性下降 傳統的select/poll另一個致命弱點就是當你擁有一個很大的socket集合，不過由於網路延時，任一時間只有部分的socket是"活躍"的，但是select/poll每次呼叫都會線性掃描全部的集合，導致效率呈現線性下降。但是epoll不存在這個問題，它只會對"活躍"的socket進行操作---這是因為在核心實現中epoll是根據每個fd上面的callback函式實現的。那麼，只有"活躍"的socket才會主動的去呼叫 callback函式，其他idle狀態socket則不會，在這點上，epoll實現了一個"偽"AIO，因為這時候推動力在os核心。在一些 benchmark中，如果所有的socket基本上都是活躍的---比如一個高速LAN環境，epoll並不比select/poll有什麼效率，相反，如果過多使用epoll_ctl,效率相比還有稍微的下降。但是一旦使用idle connections模擬WAN環境,epoll的效率就遠在select/poll之上了。

3.使用mmap加速核心與使用者空間的訊息傳遞。 這點實際上涉及到epoll的具體實現了。無論是select,poll還是epoll都需要核心把FD訊息通知給使用者空間，如何避免不必要的記憶體拷貝就很重要，在這點上，epoll是通過核心於使用者空間mmap同一塊記憶體實現的。而如果你想我一樣從2.5核心就關注epoll的話，一定不會忘記手工 mmap這一步的。

4.核心微調 這一點其實不算epoll的優點了，而是整個linux平臺的優點。也許你可以懷疑linux平臺，但是你無法迴避linux平臺賦予你微調核心的能力。比如，核心TCP/IP協議棧使用記憶體池管理sk_buff結構，那麼可以在執行時期動態調整這個記憶體pool(skb_head_pool)的大小--- 通過echo XXXX>/proc/sys/net/core/hot_list_length完成。再比如listen函式的第2個引數(TCP完成3次握手的資料包佇列長度)，也可以根據你平臺記憶體大小動態調整。更甚至在一個數據包面數目巨大但同時每個資料包本身大小卻很小的特殊系統上嘗試最新的NAPI網絡卡驅動架構

你好！這是你第一次使用 **Markdown編輯器** 所展示的歡迎頁。如果你想學習如何使用Markdown編輯器, 可以仔細閱讀這篇文章，瞭解一下Markdown的基本語法知識。

新的改變

我們對Markdown編輯器進行了一些功能拓展與語法支援，除了標準的Markdown編輯器功能，我們增加了如下幾點新功能，幫助你用它寫部落格：

全新的介面設計 ，將會帶來全新的寫作體驗；
在創作中心設定你喜愛的程式碼高亮樣式，Markdown 將程式碼片顯示選擇的高亮樣式 進行展示；
增加了 圖片拖拽 功能，你可以將本地的圖片直接拖拽到編輯區域直接展示；
全新的 KaTeX數學公式 語法；
增加了支援甘特圖的mermaid語法¹ 功能；
增加了 多螢幕編輯 Markdown文章功能；
增加了 焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定 等功能，功能按鈕位於編輯區域與預覽區域中間；
增加了 檢查列表 功能。

功能快捷鍵

撤銷：Ctrl/Command + Z 重做：Ctrl/Command + Y 加粗：Ctrl/Command + B 斜體：Ctrl/Command + I 標題：Ctrl/Command + Shift + H 無序列表：Ctrl/Command + Shift + U 有序列表：Ctrl/Command + Shift + O 檢查列表：Ctrl/Command + Shift + C 插入程式碼：Ctrl/Command + Shift + K 插入連結：Ctrl/Command + Shift + L 插入圖片：Ctrl/Command + Shift + G

合理的建立標題，有助於目錄的生成

直接輸入1次#，並按下space後，將生成1級標題。輸入2次#，並按下space後，將生成2級標題。以此類推，我們支援6級標題。有助於使用TOC語法後生成一個完美的目錄。

如何改變文字的樣式

強調文字 強調文字

加粗文字 加粗文字

標記文字

~~刪除文字~~

引用文字

H₂O is是液體。

2¹⁰ 運算結果是 1024.

插入連結與圖片

連結: link.

圖片:

帶尺寸的圖片:

當然，我們為了讓使用者更加便捷，我們增加了圖片拖拽功能。

如何插入一段漂亮的程式碼片

去部落格設定頁面，選擇一款你喜歡的程式碼片高亮樣式，下面展示同樣高亮的 程式碼片.

// An highlighted block var foo = 'bar';

生成一個適合你的列表

專案
- 專案
  - 專案

專案1
專案2
專案3

計劃任務
完成任務

建立一個表格

一個簡單的表格是這麼建立的：

專案	Value
電腦	$1600
手機	$12
導管	$1

設定內容居中、居左、居右

使用:---------:居中使用:----------居左使用----------:居右

第一列	第二列	第三列
第一列文字居中	第二列文字居右	第三列文字居左

SmartyPants

SmartyPants將ASCII標點字元轉換為“智慧”印刷標點HTML實體。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash

建立一個自定義列表

Markdown: Text-to-HTML conversion tool
Authors: John; Luke

如何建立一個註腳

一個具有註腳的文字。²

註釋也是必不可少的

Markdown將文字轉換為 HTML。

KaTeX數學公式

您可以使用渲染LaTeX數學表示式 KaTeX:

Gamma公式展示 $\Gamma(n) = (n-1)!\quad\forall n\in\mathbb N$ 是通過尤拉積分

$\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,.$

你可以找到更多關於的資訊 LaTeX 數學表示式here.

新的甘特圖功能，豐富你的文章

gantt
        dateFormat  YYYY-MM-DD
        title Adding GANTT diagram functionality to mermaid
        section 現有任務
        已完成               :done,    des1, 2014-01-06,2014-01-08
        進行中               :active,  des2, 2014-01-09, 3d
        計劃一               :         des3, after des2, 5d
        計劃二               :         des4, after des3, 5d

關於 甘特圖 語法，參考這兒,

UML 圖表

可以使用UML圖表進行渲染。 Mermaid. 例如下面產生的一個序列圖：:

這將產生一個流程圖。:

關於 Mermaid 語法，參考這兒,

FLowchart流程圖

我們依舊會支援flowchart的流程圖：

關於 Flowchart流程圖 語法，參考這兒.

匯出與匯入

匯出

如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到 文章匯出 ，生成一個.md檔案或者.html檔案進行本地儲存。

匯入

如果你想載入一篇你寫過的.md檔案或者.html檔案，在上方工具欄可以選擇匯入功能進行對應副檔名的檔案匯入，繼續你的創作。