1. 程式人生 > >poll兩種模式淺析(ET or LT)

poll兩種模式淺析(ET or LT)

linux非同步IO淺析 
http://hi.baidu.com/_kouu/blog/item/e225f67b337841f42f73b341.html 

epoll有兩種模式,Edge Triggered(簡稱ET) 和 Level Triggered(簡稱LT).在採用這兩種模式時要注意的是,如果採用ET模式,那麼僅當狀態發生變化時才會通知,而採用LT模式類似於原來的select/poll操作,只要還有沒有處理的事件就會一直通知. 

以程式碼來說明問題: 
首先給出server的程式碼,需要說明的是每次accept的連線,加入可讀集的時候採用的都是ET模式,而且接收緩衝區是5位元組的,也就是每次只接收5位元組的資料: 

Java程式碼  收藏程式碼

  1. #include <iostream>  
  2. #include <sys/socket.h>  
  3. #include <sys/epoll.h>  
  4. #include <netinet/in.h>  
  5. #include <arpa/inet.h>  
  6. #include <fcntl.h>  
  7. #include <unistd.h>  
  8. #include <stdio.h>  
  9. #include <errno.h>  
  10. using namespace std;  
  11. #define MAXLINE 5  
  12. #define OPEN_MAX 100  
  13. #define LISTENQ 20  
  14. #define SERV_PORT 5000  
  15. #define INFTIM 1000  
  16. void setnonblocking(int sock)  
  17. {  
  18.     int opts;  
  19.     opts=fcntl(sock,F_GETFL);  
  20.     if(opts<0)  
  21.     {  
  22.         perror("fcntl(sock,GETFL)");  
  23.         exit(1);  
  24.     }  
  25.     opts = opts|O_NONBLOCK;  
  26.     if(fcntl(sock,F_SETFL,opts)<0)  
  27.     {  
  28.         perror("fcntl(sock,SETFL,opts)");  
  29.         exit(1);  
  30.     }     
  31. }  
  32. int main()  
  33. {  
  34.     int i, maxi, listenfd, connfd, sockfd,epfd,nfds;  
  35.     ssize_t n;  
  36.     char line[MAXLINE];  
  37.     socklen_t clilen;  
  38.     //宣告epoll_event結構體的變數,ev用於註冊事件,陣列用於回傳要處理的事件  
  39.     struct epoll_event ev,events[20];  
  40.     //生成用於處理accept的epoll專用的檔案描述符  
  41.     epfd=epoll_create(256);  
  42.     struct sockaddr_in clientaddr;  
  43.     struct sockaddr_in serveraddr;  
  44.     listenfd = socket(AF_INET, SOCK_STREAM, 0);  
  45.     //把socket設定為非阻塞方式  
  46.     //setnonblocking(listenfd);  
  47.     //設定與要處理的事件相關的檔案描述符  
  48.     ev.data.fd=listenfd;  
  49.     //設定要處理的事件型別  
  50.     ev.events=EPOLLIN|EPOLLET;  
  51.     //ev.events=EPOLLIN;  
  52.     //註冊epoll事件  
  53.     epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);  
  54.     bzero(&serveraddr, sizeof(serveraddr));  
  55.     serveraddr.sin_family = AF_INET;  
  56.     char *local_addr="127.0.0.1";  
  57.     inet_aton(local_addr,&(serveraddr.sin_addr));//htons(SERV_PORT);  
  58.     serveraddr.sin_port=htons(SERV_PORT);  
  59.     bind(listenfd,(sockaddr *)&serveraddr, sizeof(serveraddr));  
  60.     listen(listenfd, LISTENQ);  
  61.     maxi = 0;  
  62.     for ( ; ; ) {  
  63.         //等待epoll事件的發生  
  64.         nfds=epoll_wait(epfd,events,20,500);  
  65.         //處理所發生的所有事件       
  66.         for(i=0;i<nfds;++i)  
  67.         {  
  68.             if(events[i].data.fd==listenfd)  
  69.             {  
  70.                 connfd = accept(listenfd,(sockaddr *)&clientaddr, &clilen);  
  71.                 if(connfd<0){  
  72.                     perror("connfd<0");  
  73.                     exit(1);  
  74.                 }  
  75.                 //setnonblocking(connfd);  
  76.                 char *str = inet_ntoa(clientaddr.sin_addr);  
  77.                 cout << "accapt a connection from " << str << endl;  
  78.                 //設定用於讀操作的檔案描述符  
  79.                 ev.data.fd=connfd;  
  80.                 //設定用於注測的讀操作事件  
  81.                 ev.events=EPOLLIN|EPOLLET;  
  82.                 //ev.events=EPOLLIN;  
  83.                 //註冊ev  
  84.                 epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev);  
  85.             }  
  86.             else if(events[i].events&EPOLLIN)  
  87.             {  
  88.                 cout << "EPOLLIN" << endl;  
  89.                 if ( (sockfd = events[i].data.fd) < 0)   
  90.                     continue;  
  91.                 if ( (n = read(sockfd, line, MAXLINE)) < 0) {  
  92.                     if (errno == ECONNRESET) {  
  93.                         close(sockfd);  
  94.                         events[i].data.fd = -1;  
  95.                     } else  
  96.                         std::cout<<"readline error"<<std::endl;  
  97.                 } else if (n == 0) {  
  98.                     close(sockfd);  
  99.                     events[i].data.fd = -1;  
  100.                 }  
  101.                 line[n] = '\0';  
  102.                 cout << "read " << line << endl;  
  103.                 //設定用於寫操作的檔案描述符  
  104.                 ev.data.fd=sockfd;  
  105.                 //設定用於注測的寫操作事件  
  106.                 ev.events=EPOLLOUT|EPOLLET;  
  107.                 //修改sockfd上要處理的事件為EPOLLOUT  
  108.                 //epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);  
  109.             }  
  110.             else if(events[i].events&EPOLLOUT)  
  111.             {     
  112.                 sockfd = events[i].data.fd;  
  113.                 write(sockfd, line, n);  
  114.                 //設定用於讀操作的檔案描述符  
  115.                 ev.data.fd=sockfd;  
  116.                 //設定用於注測的讀操作事件  
  117.                 ev.events=EPOLLIN|EPOLLET;  
  118.                 //修改sockfd上要處理的事件為EPOLIN  
  119.                 epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);  
  120.             }  
  121.         }  
  122.     }  
  123.     return 0;  
  124. }  



下面給出測試所用的Perl寫的client端,在client中傳送10位元組的資料,同時讓client在傳送完資料之後進入死迴圈, 也就是在傳送完之後連線的狀態不發生改變--既不再發送資料, 也不關閉連線,這樣才能觀察出server的狀態: 

Java程式碼  收藏程式碼

  1. #!/usr/bin/perl  
  2. use IO::Socket;  
  3. my $host = "127.0.0.1";  
  4. my $port = 5000;  
  5. my $socket = IO::Socket::INET->new("$host:$port") or die "create socket error [email protected]";  
  6. my $msg_out = "1234567890";  
  7. print $socket $msg_out;  
  8. print "now send over, go to sleep \n";  
  9. while (1)  
  10. {  
  11.     sleep(1);  
  12. }  


執行server和client發現,server僅僅讀取了5位元組的資料,而client其實發送了10位元組的資料,也就是說,server僅當第一次監聽到了EPOLLIN事件,由於沒有讀取完資料,而且採用的是ET模式,狀態在此之後不發生變化,因此server再也接收不到EPOLLIN事件了. 
(友情提示:上面的這個測試客戶端,當你關閉它的時候會再次出發IO可讀事件給server,此時server就會去讀取剩下的5位元組資料了,但是這一事件與前面描述的ET性質並不矛盾.) 

如果我們把client改為這樣: 

Java程式碼  收藏程式碼

  1. #!/usr/bin/perl  
  2. use IO::Socket;  
  3. my $host = "127.0.0.1";  
  4. my $port = 5000;  
  5. my $socket = IO::Socket::INET->new("$host:$port") or die "create socket error [email protected]";  
  6. my $msg_out = "1234567890";  
  7. print $socket $msg_out;  
  8. print "now send over, go to sleep \n";  
  9. sleep(5);  
  10. print "5 second gone send another line\n";  
  11. print $socket $msg_out;  
  12. while (1)  
  13. {  
  14.     sleep(1);  
  15. }  



可以發現,在server接收完5位元組的資料之後一直監聽不到client的事件,而當client休眠5秒之後重新發送資料,server再次監聽到了變化,只不過因為只是讀取了5個位元組,仍然有10個位元組的資料(client第二次傳送的資料)沒有接收完. 

如果上面的實驗中,對accept的socket都採用的是LT模式,那麼只要還有資料留在buffer中,server就會繼續得到通知,讀者可以自行改動程式碼進行實驗. 

基於這兩個實驗,可以得出這樣的結論:ET模式僅當狀態發生變化的時候才獲得通知,這裡所謂的狀態的變化並不包括緩衝區中還有未處理的資料,也就是說,如果要採用ET模式,需要一直read/write直到出錯為止,很多人反映為什麼採用ET模式只接收了一部分資料就再也得不到通知了,大多因為這樣;而LT模式是隻要有資料沒有處理就會一直通知下去的. 
補充說明一下這裡一直強調的"狀態變化"是什麼: 

1)對於監聽可讀事件時,如果是socket是監聽socket,那麼當有新的主動連線到來為狀態發生變化;對一般的socket而言,協議棧中相應的緩衝區有新的資料為狀態發生變化.但是,如果在一個時間同時接收了N個連線(N>1),但是監聽socket只accept了一個連線,那麼其它未 accept的連線將不會在ET模式下給監聽socket發出通知,此時狀態不發生變化;對於一般的socket,就如例子中而言,如果對應的緩衝區本身已經有了N位元組的資料,而只取出了小於N位元組的資料,那麼殘存的資料不會造成狀態發生變化. 

2)對於監聽可寫事件時,同理可推,不再詳述. 

而不論是監聽可讀還是可寫,對方關閉socket連線都將造成狀態發生變化,比如在例子中,如果強行中斷client指令碼,也就是主動中斷了socket連線,那麼都將造成server端發生狀態的變化,從而server得到通知,將已經在本方緩衝區中的資料讀出. 

把前面的描述可以總結如下:僅當對方的動作(發出資料,關閉連線等)造成的事件才能導致狀態發生變化,而本方協議棧中已經處理的事件(包括接收了對方的資料,接收了對方的主動連線請求)並不是造成狀態發生變化的必要條件,狀態變化一定是對方造成的.所以在ET模式下的,必須一直處理到出錯或者完全處理完畢,才能進行下一個動作,否則可能會發生錯誤. 

另外,從這個例子中,也可以闡述一些基本的網路程式設計概念.首先,連線的兩端中,一端傳送成功並不代表著對方上層應用程式接收成功, 就拿上面的client測試程式來說,10位元組的資料已經發送成功,但是上層的server並沒有呼叫read讀取資料,因此傳送成功僅僅說明了資料被對方的協議棧接收存放在了相應的buffer中,而上層的應用程式是否接收了這部分資料不得而知;同樣的,讀取資料時也只代表著本方協議棧的對應buffer中有資料可讀,而此時時候在對端是否在傳送資料也不得而知. 




epoll精髓 
在linux的網路程式設計中,很長的時間都在使用select來做事件觸發。在linux新的核心中,有了一種替換它的機制,就是epoll。 
相比於select,epoll最大的好處在於它不會隨著監聽fd數目的增長而降低效率。因為在核心中的select實現中,它是採用輪詢來處理的,輪詢的fd數目越多,自然耗時越多。並且,在linux/posix_types.h標頭檔案有這樣的宣告: 
#define __FD_SETSIZE    1024 
表示select最多同時監聽1024個fd,當然,可以通過修改標頭檔案再重編譯核心來擴大這個數目,但這似乎並不治本。 

epoll的介面非常簡單,一共就三個函式: 
1. int epoll_create(int size); 
建立一個epoll的控制代碼,size用來告訴核心這個監聽的數目一共有多大。這個引數不同於select()中的第一個引數,給出最大監聽的fd+1的值。需要注意的是,當建立好epoll控制代碼後,它就是會佔用一個fd值,在linux下如果檢視/proc/程序id/fd/,是能夠看到這個fd的,所以在使用完epoll後,必須呼叫close()關閉,否則可能導致fd被耗盡。 


2. int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event); 
epoll的事件註冊函式,它不同與select()是在監聽事件時告訴核心要監聽什麼型別的事件,而是在這裡先註冊要監聽的事件型別。第一個引數是epoll_create()的返回值,第二個引數表示動作,用三個巨集來表示: 
EPOLL_CTL_ADD:註冊新的fd到epfd中; 
EPOLL_CTL_MOD:修改已經註冊的fd的監聽事件; 
EPOLL_CTL_DEL:從epfd中刪除一個fd; 
第三個引數是需要監聽的fd,第四個引數是告訴核心需要監聽什麼事,struct epoll_event結構如下: 

Java程式碼  收藏程式碼

  1. struct epoll_event {  
  2.   __uint32_t events;  /* Epoll events */  
  3.   epoll_data_t data;  /* User data variable */  
  4. };  



events可以是以下幾個巨集的集合: 
EPOLLIN :表示對應的檔案描述符可以讀(包括對端SOCKET正常關閉); 
EPOLLOUT:表示對應的檔案描述符可以寫; 
EPOLLPRI:表示對應的檔案描述符有緊急的資料可讀(這裡應該表示有帶外資料到來); 
EPOLLERR:表示對應的檔案描述符發生錯誤; 
EPOLLHUP:表示對應的檔案描述符被結束通話; 
EPOLLET: 將EPOLL設為邊緣觸發(Edge Triggered)模式,這是相對於水平觸發(Level Triggered)來說的。 
EPOLLONESHOT:只監聽一次事件,當監聽完這次事件之後,如果還需要繼續監聽這個socket的話,需要再次把這個socket加入到EPOLL佇列裡 


3. int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout); 
等待事件的產生,類似於select()呼叫。引數events用來從核心得到事件的集合,maxevents告之核心這個events有多大,這個maxevents的值不能大於建立epoll_create()時的size,引數timeout是超時時間(毫秒,0會立即返回,-1將不確定,也有說法說是永久阻塞)。該函式返回需要處理的事件數目,如返回0表示已超時。 

-------------------------------------------------------------------------------------------- 

從man手冊中,得到ET和LT的具體描述如下 

EPOLL事件有兩種模型: 
Edge Triggered (ET) 
Level Triggered (LT) 

假如有這樣一個例子: 
1. 我們已經把一個用來從管道中讀取資料的檔案控制代碼(RFD)新增到epoll描述符 
2. 這個時候從管道的另一端被寫入了2KB的資料 
3. 呼叫epoll_wait(2),並且它會返回RFD,說明它已經準備好讀取操作 
4. 然後我們讀取了1KB的資料 
5. 呼叫epoll_wait(2)...... 

Edge Triggered 工作模式: 
如果我們在第1步將RFD新增到epoll描述符的時候使用了EPOLLET標誌,那麼在第5步呼叫epoll_wait(2)之後將有可能會掛起,因為剩餘的資料還存在於檔案的輸入緩衝區內,而且資料發出端還在等待一個針對已經發出資料的反饋資訊。只有在監視的檔案控制代碼上發生了某個事件的時候 ET 工作模式才會彙報事件。因此在第5步的時候,呼叫者可能會放棄等待仍在存在於檔案輸入緩衝區內的剩餘資料。在上面的例子中,會有一個事件產生在RFD控制代碼上,因為在第2步執行了一個寫操作,然後,事件將會在第3步被銷燬。因為第4步的讀取操作沒有讀空檔案輸入緩衝區內的資料,因此我們在第5步呼叫 epoll_wait(2)完成後,是否掛起是不確定的。epoll工作在ET模式的時候,必須使用非阻塞套介面,以避免由於一個檔案控制代碼的阻塞讀/阻塞寫操作把處理多個檔案描述符的任務餓死。最好以下面的方式呼叫ET模式的epoll介面,在後面會介紹避免可能的缺陷。 
   i    基於非阻塞檔案控制代碼 
   ii   只有當read(2)或者write(2)返回EAGAIN時才需要掛起,等待。但這並不是說每次read()時都需要迴圈讀,直到讀到產生一個EAGAIN才認為此次事件處理完成,當read()返回的讀到的資料長度小於請求的資料長度時,就可以確定此時緩衝中已沒有資料了,也就可以認為此事讀事件已處理完成。 

Level Triggered 工作模式 
相反的,以LT方式呼叫epoll介面的時候,它就相當於一個速度比較快的poll(2),並且無論後面的資料是否被使用,因此他們具有同樣的職能。因為即使使用ET模式的epoll,在收到多個chunk的資料的時候仍然會產生多個事件。呼叫者可以設定EPOLLONESHOT標誌,在 epoll_wait(2)收到事件後epoll會與事件關聯的檔案控制代碼從epoll描述符中禁止掉。因此當EPOLLONESHOT設定後,使用帶有 EPOLL_CTL_MOD標誌的epoll_ctl(2)處理檔案控制代碼就成為呼叫者必須作的事情。 


然後詳細解釋ET, LT: 

LT(level triggered)是預設的工作方式,並且同時支援block和no-block socket.在這種做法中,核心告訴你一個檔案描述符是否就緒了,然後你可以對這個就緒的fd進行IO操作。如果你不作任何操作,核心還是會繼續通知你的,所以,這種模式程式設計出錯誤可能性要小一點。傳統的select/poll都是這種模型的代表. 

ET(edge-triggered)是高速工作方式,只支援no-block socket。在這種模式下,當描述符從未就緒變為就緒時,核心通過epoll告訴你。然後它會假設你知道檔案描述符已經就緒,並且不會再為那個檔案描述符傳送更多的就緒通知,直到你做了某些操作導致那個檔案描述符不再為就緒狀態了(比如,你在傳送,接收或者接收請求,或者傳送接收的資料少於一定量時導致了一個EWOULDBLOCK 錯誤)。但是請注意,如果一直不對這個fd作IO操作(從而導致它再次變成未就緒),核心不會發送更多的通知(only once),不過在TCP協議中,ET模式的加速效用仍需要更多的benchmark確認(這句話不理解)。 

在許多測試中我們會看到如果沒有大量的idle -connection或者dead-connection,epoll的效率並不會比select/poll高很多,但是當我們遇到大量的idle- connection(例如WAN環境中存在大量的慢速連線),就會發現epoll的效率大大高於select/poll。(未測試) 



另外,當使用epoll的ET模型來工作時,當產生了一個EPOLLIN事件後, 
讀資料的時候需要考慮的是當recv()返回的大小如果等於請求的大小,那麼很有可能是緩衝區還有資料未讀完,也意味著該次事件還沒有處理完,所以還需要再次讀取: 

Java程式碼  收藏程式碼

  1. while(rs)  
  2. {  
  3.   buflen = recv(activeevents[i].data.fd, buf, sizeof(buf), 0);  
  4.   if(buflen < 0)  
  5.   {  
  6.     // 由於是非阻塞的模式,所以當errno為EAGAIN時,表示當前緩衝區已無資料可讀  
  7.     // 在這裡就當作是該次事件已處理處.  
  8.     if(errno == EAGAIN)  
  9.      break;  
  10.     else  
  11.      return;  
  12.    }  
  13.    else if(buflen == 0)  
  14.    {  
  15.      // 這裡表示對端的socket已正常關閉.  
  16.    }  
  17.    if(buflen == sizeof(buf)  
  18.      rs = 1;   // 需要再次讀取  
  19.    else  
  20.      rs = 0;  
  21. }  




還有,假如傳送端流量大於接收端的流量(意思是epoll所在的程式讀比轉發的socket要快),由於是非阻塞的socket,那麼send()函式雖然返回,但實際緩衝區的資料並未真正發給接收端,這樣不斷的讀和發,當緩衝區滿後會產生EAGAIN錯誤(參考man send),同時,不理會這次請求傳送的資料.所以,需要封裝socket_send()的函式用來處理這種情況,該函式會盡量將資料寫完再返回,返回-1表示出錯。在socket_send()內部,當寫緩衝已滿(send()返回-1,且errno為EAGAIN),那麼會等待後再重試.這種方式並不很完美,在理論上可能會長時間的阻塞在socket_send()內部,但暫沒有更好的辦法. 
 

Java程式碼  收藏程式碼

  1. ssize_t socket_send(int sockfd, const char* buffer, size_t buflen)  
  2. {  
  3.   ssize_t tmp;  
  4.   size_t total = buflen;  
  5.   const char *p = buffer;  
  6.   while(1)  
  7.   {  
  8.     tmp = send(sockfd, p, total, 0);  
  9.     if(tmp < 0)  
  10.     {  
  11.       // 當send收到訊號時,可以繼續寫,但這裡返回-1.  
  12.       if(errno == EINTR)  
  13.         return -1;  
  14.       // 當socket是非阻塞時,如返回此錯誤,表示寫緩衝佇列已滿,  
  15.       // 在這裡做延時後再重試.  
  16.       if(errno == EAGAIN)  
  17.       {  
  18.         usleep(1000);  
  19.         continue;  
  20.       }  
  21.       return -1;  
  22.     }  
  23.     if((size_t)tmp == total)  
  24.       return buflen;  
  25.     total -= tmp;  
  26.     p += tmp;  
  27.   }  
  28.   return tmp;  
  29. }  








在linux的網路程式設計中,很長的時間都在使用select來做事件觸發。在linux新的核心中,有了一種替換它的機制,就是epoll。 
相比於select,epoll最大的好處在於它不會隨著監聽fd數目的增長而降低效率。因為在核心中的select實現中,它是採用輪詢來處理的,輪詢的fd數目越多,自然耗時越多。並且,在linux/posix_types.h標頭檔案有這樣的宣告: 
#define __FD_SETSIZE    1024 
表示select最多同時監聽1024個fd,當然,可以通過修改標頭檔案再重編譯核心來擴大這個數目,但這似乎並不治本。 

epoll的介面非常簡單,一共就三個函式: 
1. int epoll_create(int size); 
建立一個epoll的控制代碼,size用來告訴核心這個監聽的數目一共有多大。這個引數不同於select()中的第一個引數,給出最大監聽的fd+1的值。需要注意的是,當建立好epoll控制代碼後,它就是會佔用一個fd值,在linux下如果檢視/proc/程序id/fd/,是能夠看到這個fd的,所以在使用完epoll後,必須呼叫close()關閉,否則可能導致fd被耗盡。 


2. int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event); 
epoll的事件註冊函式,它不同與select()是在監聽事件時告訴核心要監聽什麼型別的事件,而是在這裡先註冊要監聽的事件型別。第一個引數是epoll_create()的返回值,第二個引數表示動作,用三個巨集來表示: 
EPOLL_CTL_ADD:註冊新的fd到epfd中; 
EPOLL_CTL_MOD:修改已經註冊的fd的監聽事件; 
EPOLL_CTL_DEL:從epfd中刪除一個fd; 
第三個引數是需要監聽的fd,第四個引數是告訴核心需要監聽什麼事,struct epoll_event結構如下: 

Java程式碼  收藏程式碼

  1. struct epoll_event {   
  2.   __uint32_t events;  /* Epoll events */   
  3.   epoll_data_t data;  /* User data variable */   
  4. };   



events可以是以下幾個巨集的集合: 
EPOLLIN :表示對應的檔案描述符可以讀(包括對端SOCKET正常關閉); 
EPOLLOUT:表示對應的檔案描述符可以寫; 
EPOLLPRI:表示對應的檔案描述符有緊急的資料可讀(這裡應該表示有帶外資料到來); 
EPOLLERR:表示對應的檔案描述符發生錯誤; 
EPOLLHUP:表示對應的檔案描述符被結束通話; 
EPOLLET: 將EPOLL設為邊緣觸發(Edge Triggered)模式,這是相對於水平觸發(Level Triggered)來說的。 
EPOLLONESHOT:只監聽一次事件,當監聽完這次事件之後,如果還需要繼續監聽這個socket的話,需要再次把這個socket加入到EPOLL佇列裡 


3. int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout); 
等待事件的產生,類似於select()呼叫。引數events用來從核心得到事件的集合,maxevents告之核心這個events有多大,這個maxevents的值不能大於建立epoll_create()時的size,引數timeout是超時時間(毫秒,0會立即返回,-1將不確定,也有說法說是永久阻塞)。該函式返回需要處理的事件數目,如返回0表示已超時。 

-------------------------------------------------------------------------------------------- 

從man手冊中,得到ET和LT的具體描述如下 

EPOLL事件有兩種模型: 
Edge Triggered (ET) 
Level Triggered (LT) 

假如有這樣一個例子: 
1. 我們已經把一個用來從管道中讀取資料的檔案控制代碼(RFD)新增到epoll描述符 
2. 這個時候從管道的另一端被寫入了2KB的資料 
3. 呼叫epoll_wait(2),並且它會返回RFD,說明它已經準備好讀取操作 
4. 然後我們讀取了1KB的資料 
5. 呼叫epoll_wait(2)...... 

Edge Triggered 工作模式: 
如果我們在第1步將RFD新增到epoll描述符的時候使用了EPOLLET標誌,那麼在第5步呼叫epoll_wait(2)之後將有可能會掛起,因為剩餘的資料還存在於檔案的輸入緩衝區內,而且資料發出端還在等待一個針對已經發出資料的反饋資訊。只有在監視的檔案控制代碼上發生了某個事件的時候 ET 工作模式才會彙報事件。因此在第5步的時候,呼叫者可能會放棄等待仍在存在於檔案輸入緩衝區內的剩餘資料。在上面的例子中,會有一個事件產生在RFD控制代碼上,因為在第2步執行了一個寫操作,然後,事件將會在第3步被銷燬。因為第4步的讀取操作沒有讀空檔案輸入緩衝區內的資料,因此我們在第5步呼叫 epoll_wait(2)完成後,是否掛起是不確定的。epoll工作在ET模式的時候,必須使用非阻塞套介面,以避免由於一個檔案控制代碼的阻塞讀/阻塞寫操作把處理多個檔案描述符的任務餓死。最好以下面的方式呼叫ET模式的epoll介面,在後面會介紹避免可能的缺陷。 
   i    基於非阻塞檔案控制代碼 
   ii   只有當read(2)或者write(2)返回EAGAIN時才需要掛起,等待。但這並不是說每次read()時都需要迴圈讀,直到讀到產生一個EAGAIN才認為此次事件處理完成,當read()返回的讀到的資料長度小於請求的資料長度時,就可以確定此時緩衝中已沒有資料了,也就可以認為此事讀事件已處理完成。 

Level Triggered 工作模式 
相反的,以LT方式呼叫epoll介面的時候,它就相當於一個速度比較快的poll(2),並且無論後面的資料是否被使用,因此他們具有同樣的職能。因為即使使用ET模式的epoll,在收到多個chunk的資料的時候仍然會產生多個事件。呼叫者可以設定EPOLLONESHOT標誌,在 epoll_wait(2)收到事件後epoll會與事件關聯的檔案控制代碼從epoll描述符中禁止掉。因此當EPOLLONESHOT設定後,使用帶有 EPOLL_CTL_MOD標誌的epoll_ctl(2)處理檔案控制代碼就成為呼叫者必須作的事情。 


然後詳細解釋ET, LT: 

LT(level triggered)是預設的工作方式,並且同時支援block和no-block socket.在這種做法中,核心告訴你一個檔案描述符是否就緒了,然後你可以對這個就緒的fd進行IO操作。如果你不作任何操作,核心還是會繼續通知你的,所以,這種模式程式設計出錯誤可能性要小一點。傳統的select/poll都是這種模型的代表. 

ET(edge-triggered)是高速工作方式,只支援no-block socket。在這種模式下,當描述符從未就緒變為就緒時,核心通過epoll告訴你。然後它會假設你知道檔案描述符已經就緒,並且不會再為那個檔案描述符傳送更多的就緒通知,直到你做了某些操作導致那個檔案描述符不再為就緒狀態了(比如,你在傳送,接收或者接收請求,或者傳送接收的資料少於一定量時導致了一個EWOULDBLOCK 錯誤)。但是請注意,如果一直不對這個fd作IO操作(從而導致它再次變成未就緒),核心不會發送更多的通知(only once),不過在TCP協議中,ET模式的加速效用仍需要更多的benchmark確認(這句話不理解)。 

在許多測試中我們會看到如果沒有大量的idle -connection或者dead-connection,epoll的效率並不會比select/poll高很多,但是當我們遇到大量的idle- connection(例如WAN環境中存在大量的慢速連線),就會發現epoll的效率大大高於select/poll。(未測試) 



另外,當使用epoll的ET模型來工作時,當產生了一個EPOLLIN事件後, 
讀資料的時候需要考慮的是當recv()返回的大小如果等於請求的大小,那麼很有可能是緩衝區還有資料未讀完,也意味著該次事件還沒有處理完,所以還需要再次讀取: 

Java程式碼  收藏程式碼

  1. while(rs)   
  2. {   
  3.   buflen = recv(activeevents[i].data.fd, buf, sizeof(buf), 0);   
  4.   if(buflen < 0)   
  5.   {   
  6.     // 由於是非阻塞的模式,所以當errno為EAGAIN時,表示當前緩衝區已無資料可讀   
  7.     // 在這裡就當作是該次事件已處理處.   
  8.     if(errno == EAGAIN)   
  9.      break;   
  10.     else   
  11.      return;   
  12.    }   
  13.    else if(buflen == 0)   
  14.    {   
  15.      // 這裡表示對端的socket已正常關閉.   
  16.    }   
  17.    if(buflen == sizeof(buf)   
  18.      rs = 1;   // 需要再次讀取   
  19.    else   
  20.      rs = 0;   
  21. }   




還有,假如傳送端流量大於接收端的流量(意思是epoll所在的程式讀比轉發的socket要快),由於是非阻塞的socket,那麼send()函式雖然返回,但實際緩衝區的資料並未真正發給接收端,這樣不斷的讀和發,當緩衝區滿後會產生EAGAIN錯誤(參考man send),同時,不理會這次請求傳送的資料.所以,需要封裝socket_send()的函式用來處理這種情況,該函式會盡量將資料寫完再返回,返回-1表示出錯。在socket_send()內部,當寫緩衝已滿(send()返回-1,且errno為EAGAIN),那麼會等待後再重試.這種方式並不很完美,在理論上可能會長時間的阻塞在socket_send()內部,但暫沒有更好的辦法. 
 

Java程式碼  收藏程式碼

  1. ssize_t socket_send(int sockfd, const char* buffer, size_t buflen)   
  2. {   
  3.   ssize_t tmp;   
  4.   size_t total = buflen;   
  5.   const char *p = buffer;   
  6.   while(1)   
  7.   {   
  8.     tmp = send(sockfd, p, total, 0);   
  9.     if(tmp < 0)   
  10.     {   
  11.       // 當send收到訊號時,可以繼續寫,但這裡返回-1.   
  12.       if(errno == EINTR)   
  13.         return -1;   
  14.       // 當socket是非阻塞時,如返回此錯誤,表示寫緩衝佇列已滿,   
  15.       // 在這裡做延時後再重試.   
  16.       if(errno == EAGAIN)   
  17.       {   
  18.         usleep(1000);   
  19.         continue;   
  20.       }   
  21.       return -1;   
  22.     }   
  23.     if((size_t)tmp == total)   
  24.       return buflen;   
  25.     total -= tmp;   
  26.     p += tmp;   
  27.   }   
  28.   return tmp;   
  29. }   



epoll有兩種模式,Edge Triggered(簡稱ET) 和 Level Triggered(簡稱LT).在採用這兩種模式時要注意的是,如果採用ET模式,那麼僅當狀態發生變化時才會通知,而採用LT模式類似於原來的select/poll操作,只要還有沒有處理的事件就會一直通知. 
以程式碼來說明問題: 
首先給出server的程式碼,需要說明的是每次accept的連線,加入可讀集的時候採用的都是ET模式,而且接收緩衝區是5位元組的,也就是每次只接收5位元組的資料: 

Java程式碼  收藏程式碼

  1. #include <iostream>  
  2. #include <sys/socket.h>  
  3. #include <sys/epoll.h>  
  4. #include <netinet/in.h>  
  5. #include <arpa/inet.h>  
  6. #include <fcntl.h>  
  7. #include <unistd.h>  
  8. #include <stdio.h>  
  9. #include <errno.h>  
  10. using namespace std;  
  11. #define MAXLINE 5  
  12. #define OPEN_MAX 100  
  13. #define LISTENQ 20  
  14. #define SERV_PORT 5000  
  15. #define INFTIM 1000  
  16. void setnonblocking(int sock)  
  17. {  
  18.     int opts;  
  19.     opts=fcntl(sock,F_GETFL);  
  20.     if(opts<0)  
  21.     {  
  22.         perror("fcntl(sock,GETFL)");  
  23.         exit(1);  
  24.     }  
  25.     opts = opts|O_NONBLOCK;  
  26.     if(fcntl(sock,F_SETFL,opts)<0)  
  27.     {  
  28.         perror("fcntl(sock,SETFL,opts)");  
  29.         exit(1);  
  30.     }     
  31. }  
  32. int main()  
  33. {  
  34.     int i, maxi, listenfd, connfd, sockfd,epfd,nfds;  
  35.     ssize_t n;  
  36.     char line[MAXLINE];  
  37.     socklen_t clilen;  
  38.     //宣告epoll_event結構體的變數,ev用於註冊事件,陣列用於回傳要處理的事件  
  39.     struct epoll_event ev,events[20];  
  40.     //生成用於處理accept的epoll專用的檔案描述符  
  41.     epfd=epoll_create(256);  
  42.     struct sockaddr_in clientaddr;  
  43.     struct sockaddr_in serveraddr;  
  44.     listenfd = socket(AF_INET, SOCK_STREAM, 0);  
  45.     //把socket設定為非阻塞方式  
  46.     //setnonblocking(listenfd);  
  47.     //設定與要處理的事件相關的檔案描述符  
  48.     ev.data.fd=listenfd;  
  49.     //設定要處理的事件型別  
  50.     ev.events=EPOLLIN|EPOLLET;  
  51.     //ev.events=EPOLLIN;  
  52.     //註冊epoll事件  
  53.     epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);  
  54.     bzero(&serveraddr, sizeof(serveraddr));  
  55.     serveraddr.sin_family = AF_INET;  
  56.     char *local_addr="127.0.0.1";  
  57.     inet_aton(local_addr,&(serveraddr.sin_addr));//htons(SERV_PORT);  
  58.     serveraddr.sin_port=htons(SERV_PORT);  
  59.     bind(listenfd,(sockaddr *)&serveraddr, sizeof(serveraddr));  
  60.     listen(listenfd, LISTENQ);  
  61.     maxi = 0;  
  62.     for ( ; ; ) {  
  63.         //等待epoll事件的發生  
  64.         nfds=epoll_wait(epfd,events,20,500);  
  65.         //處理所發生的所有事件       
  66.         for(i=0;i<nfds;++i)  
  67.         {  
  68.             if(events[i].data.fd==listenfd)  
  69.             {  
  70.                 connfd = accept(listenfd,(sockaddr *)&clientaddr, &clilen);  
  71.                 if(connfd<0){  
  72.                     perror("connfd<0");  
  73.                     exit(1);  
  74.                 }  
  75.                 //setnonblocking(connfd);  
  76.                 char *str = inet_ntoa(clientaddr.sin_addr);  
  77.                 cout << "accapt a connection from " << str << endl;  
  78.                 //設定用於讀操作的檔案描述符  
  79.                 ev.data.fd=connfd;  
  80.                 //設定用於注測的讀操作事件  
  81.                 ev.events=EPOLLIN|EPOLLET;  
  82.                 //ev.events=EPOLLIN;  
  83.                 //註冊ev  
  84.                 epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev);  
  85.             }  
  86.             else if(events[i].events&EPOLLIN)  
  87.             {  
  88.                 cout << "EPOLLIN" << endl;  
  89.                 if ( (sockfd = events[i].data.fd) < 0)   
  90.                     continue;  
  91.                 if ( (n = read(sockfd, line, MAXLINE)) < 0) {  
  92.                     if (errno == ECONNRESET) {  
  93.                         close(sockfd);  
  94.                         events[i].data.fd = -1;  
  95.                     } else  
  96.                         std::cout<<"readline error"<<std::endl;  
  97.                 } else if (n == 0) {  
  98.                     close(sockfd);  
  99.                     events[i].data.fd = -1;  
  100.                 }  
  101.                 line[n] = '\0';  
  102.                 cout << "read " << line << endl;  
  103.                 //設定用於寫操作的檔案描述符  
  104.                 ev.data.fd=sockfd;  
  105.                 //設定用於注測的寫操作事件  
  106.                 ev.events=EPOLLOUT|EPOLLET;  
  107.                 //修改sockfd上要處理的事件為EPOLLOUT  
  108.                 //epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);  
  109.             }  
  110.             else if(events[i].events&EPOLLOUT)  
  111.             {     
  112.                 sockfd = events[i].data.fd;  
  113.                 write(sockfd, line, n);  
  114.                 //設定用於讀操作的檔案描述符  
  115.                 ev.data.fd=sockfd;  
  116.                 //設定用於注測的讀操作事件  
  117.                 ev.events=EPOLLIN|EPOLLET;  
  118.                 //修改sockfd上要處理的事件為EPOLIN  
  119.                 epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);  
  120.             }  
  121.         }  
  122.     }  
  123.     return 0;  
  124. }  


下面給出測試所用的Perl寫的client端,在client中傳送10位元組的資料,同時讓client在傳送完資料之後進入死迴圈, 也就是在傳送完之後連線的狀態不發生改變--既不再發送資料, 也不關閉連線,這樣才能觀察出server的狀態: 

Java程式碼  收藏程式碼

  1. #!/usr/bin/perl   
  2. use IO::Socket;   
  3. my $host = "127.0.0.1";   
  4. my $port = 5000;   
  5. my $socket = IO::Socket::INET->new("$host:$port") or die "create socket error [email protected]";   
  6. my $msg_out = "1234567890";   
  7. print $socket $msg_out;   
  8. print "now send over, go to sleep\n";   
  9. while (1)   
  10. {   
  11.     sleep(1);   
  12. }   


執行server和client發現,server僅僅讀取了5位元組的資料,而client其實發送了10位元組的資料,也就是說,server僅當第一次監聽到了EPOLLIN事件,由於沒有讀取完資料,而且採用的是ET模式,狀態在此之後不發生變化,因此server再也接收不到EPOLLIN事件了. 
如果我們把client改為這樣: 

Java程式碼  收藏程式碼

  1. #!/usr/bin/perl   
  2. use IO::Socket;   
  3. my $host = "127.0.0.1";   
  4. my $port = 5000;   
  5. my $socket = IO::Socket::INET->new("$host:$port") or die "create socket error [email protected]";   
  6. my $msg_out = "1234567890";   
  7. print $socket $msg_out;   
  8. print "now send over, go to sleep\n";   
  9. sleep(5);   
  10. print "5 second gonesend another line\n";   
  11. print $socket $msg_out;   
  12. while (1)   
  13. {   
  14.     sleep(1);   
  15. }   


可以發現,在server接收完5位元組的資料之後一直監聽不到client的事件,而當client休眠5秒之後重新發送資料,server再次監聽到了變化,只不過因為只是讀取了5個位元組,仍然有10個位元組的資料(client第二次傳送的資料)沒有接收完. 
如果上面的實驗中,對accept的socket都採用的是LT模式,那麼只要還有資料留在buffer中,server就會繼續得到通知,讀者可以自行改動程式碼進行實驗. 
基於這兩個實驗,可以得出這樣的結論:ET模式僅當狀態發生變化的時候才獲得通知,這裡所謂的狀態的變化並不包括緩衝區中還有未處理的資料,也就是說,如果要採用ET模式,需要一直read/write直到出錯為止,很多人反映為什麼採用ET模式只接收了一部分資料就再也得不到通知了,大多因為這樣;而LT模式是隻要有資料沒有處理就會一直通知下去的. 
補充說明一下這裡一直強調的"狀態變化"是什麼: 
1)對於監聽可讀事件時,如果是socket是監聽socket,那麼當有新的主動連線到來為狀態發生變化;對一般的socket而言,協議棧中相應的緩 衝區有新的資料為狀態發生變化.但是,如果在一個時間同時接收了N個連線(N>1),但是監聽socket只accept了一個連線,那麼其它未 accept的連線將不會在ET模式下給監聽socket發出通知,此時狀態不發生變化;對於一般的socket,就如例子中而言,如果對應的緩衝區本身 已經有了N位元組的資料,而只取出了小於N位元組的資料,那麼殘存的資料不會造成狀態發生變化. 
2)對於監聽可寫事件時,同理可推,不再詳述. 
而不論是監聽可讀還是可寫,對方關閉socket連線都將造成狀態發生變化,比如在例子中,如果強行中斷client指令碼,也就是主動中斷了socket連線,那麼都將造成server端發生狀態的變化,從而server得到通知,將已經在本方緩衝區中的資料讀出. 
把前面的描述可以總結如下:僅當對方的動作(發出資料,關閉連線等)造成的事件才能導致狀態發生變化,而本方協議棧中已經處理的事件(包括接收了對方的數 據,接收了對方的主動連線請求)並不是造成狀態發生變化的必要條件,狀態變化一定是對方造成的.所以在ET模式下的,必須一直處理到出錯或者完全處理完 畢,才能進行下一個動作,否則可能會發生錯誤. 
另外,從這個例子中,也可以闡述一些基本的網路程式設計概念.首先,連線的兩端中,一端傳送成功並不代表著對方上層應用程式接收成功, 就拿上面的client測試程式來說,10位元組的資料已經發送成功,但是上層的server並沒有呼叫read讀取資料,因此傳送成功僅僅說明了資料被對方的協議棧接收存放在了相應的buffer中,而上層的應用程式是否接收了這部分資料不得而知;同樣的,讀取資料時也只代表著本方協議棧的對應buffer中有資料可讀,而此時時候在對端是否在傳送資料也不得而知. 
epoll為什麼這麼快 

epoll是多路複用IO(I/O Multiplexing)中的一種方式,但是僅用於linux2.6以上核心,在開始討論這個問題之前,先來解釋一下為什麼需要多路複用IO. 
以一個生活中的例子來解釋. 
假設你在大學中讀書,要等待一個朋友來訪,而這個朋友只知道你在A號樓,但是不知道你具體住在哪裡,於是你們約好了在A號樓門口見面. 
如果你使用的阻塞IO模型來處理這個問題,那麼你就只能一直守候在A號樓門口等待朋友的到來,在這段時間裡你不能做別的事情,不難知道,這種方式的效率是低下的. 
現在時代變化了,開始使用多路複用IO模型來處理這個問題.你告訴你的朋友來了A號樓找樓管大媽,讓她告訴你該怎麼走.這裡的樓管大媽扮演的就是多路複用IO的角色. 
進一步解釋select和epoll模型的差異. 
select版大媽做的是如下的事情:比如同學甲的朋友來了,select版大媽比較笨,她帶著朋友挨個房間進行查詢誰是同學甲,你等的朋友來了,於是在實際的程式碼中,select版大媽做的是以下的事情: 

Java程式碼  收藏程式碼

  1. int n = select(&readset,NULL,NULL,100);   
  2. for (int i = 0; n > 0; ++i)   
  3. {   
  4.    if (FD_ISSET(fdarray[i], &readset))   
  5.    {   
  6.       do_something(fdarray[i]);   
  7.       --n;   
  8.    }  
  9. }   


epoll版大媽就比較先進了,她記下了同學甲的資訊,比如說他的房間號,那麼等同學甲的朋友到來時,只需要告訴該朋友同學甲在哪個房間即可,不用自己親自帶著人滿大樓的找人了.於是epoll版大媽做的事情可以用如下的程式碼表示: 

Java程式碼  收藏程式碼

  1. n=epoll_wait(epfd,events,20,500);   
  2. for(i=0;i<n;++i)   
  3. {   
  4.     do_something(events[n]);   
  5. }   
  6. 在epoll中,關鍵的資料結構epoll_event定義如下:   
  7. typedef union epoll_data {   
  8.      void *ptr;   
  9.      int fd;   
  10.      __uint32_t u32;   
  11.      __uint64_t u64;   
  12. } epoll_data_t;   
  13. struct epoll_event {   
  14.                 __uint32_t events;      /* Epoll events */   
  15.                 epoll_data_t data;      /* User data variable */   
  16. };  


可以看到,epoll_data是一個union結構體,它就是epoll版大媽用於儲存同學資訊的結構體,它可以儲存很多型別的資訊:fd,指標,等等.有了這個結構體,epoll大媽可以不用吹灰之力就可以定位到同學甲. 
別小看了這些效率的提高,在一個大規模併發的伺服器中,輪詢IO是最耗時間的操作之一.再回到那個例子中,如果每到來一個朋友樓管大媽都要全樓的查詢同學,那麼處理的效率必然就低下了,過不久樓底就有不少的人了. 
對比最早給出的阻塞IO的處理模型, 可以看到採用了多路複用IO之後, 程式可以自由的進行自己除了IO操作之外的工作, 只有到IO狀態發生變化的時候由多路複用IO進行通知, 然後再採取相應的操作, 而不用一直阻塞等待IO狀態發生變化了. 
從上面的分析也可以看出,epoll比select的提高實際上是一個用空間換時間思想的具體應用. 

多程序伺服器中,epoll的建立應該在建立子程序之後 

看我的測試程式碼,似乎應該是在建立子程序之後建立epoll的fd,否則程式將會有問題,試將程式碼中兩個CreateWorker函式的呼叫位置分別呼叫,一個在建立epoll fd之前,一個在之後,在呼叫在建立之前的程式碼會出問題,在我的機器上(linux核心2.6.26)表現的症狀就是所有程序的epoll_wait函式返回0, 而客戶端似乎被阻塞了: 
伺服器端: 

Java程式碼  收藏程式碼

  1. #include <iostream>  
  2. #include <sys/socket.h>  
  3. #include <sys/epoll.h>  
  4. #include <netinet/in.h>  
  5. #include <arpa/inet.h>  
  6. #include <fcntl.h>  
  7. #include <unistd.h>  
  8. #include <stdio.h>  
  9. #include <errno.h>  
  10. #include <sys/types.h>  
  11. #include <sys/wait.h>  
  12. using namespace std;  
  13. #define MAXLINE 5  
  14. #define OPEN_MAX 100  
  15. #define LISTENQ 20  
  16. #define SERV_PORT 5000  
  17. #define INFTIM 1000  
  18. typedef struct task_t  
  19. {  
  20.     int fd;  
  21.     char buffer[100];  
  22.     int n;  
  23. }task_t;  
  24. int CreateWorker(int nWorker)  
  25. {  
  26.     if (0 < nWorker)  
  27.     {  
  28.         bool bIsChild;  
  29.         pid_t nPid;  
  30.         while (!bIsChild)  
  31.         {  
  32.             if (0 < nWorker)  
  33.             {  
  34.                 nPid = ::fork();  
  35.                 if (nPid > 0)  
  36.                 {  
  37.                     bIsChild = false;  
  38.                     --nWorker;  
  39.                 }  
  40.                 else if (0 == nPid)  
  41.                 {  
  42.                     bIsChild = true;  
  43.                     printf("create worker %d success!\n", ::getpid());  
  44.                 }  
  45.                 else  
  46.                 {  
  47.                     printf("fork error: %s\n", ::strerror(errno));  
  48.                     return -1;  
  49.                 }  
  50.             }  
  51.             else   
  52.             {  
  53.                 int nStatus;  
  54.                 if (-1 == ::wait(&nStatus))  
  55.                 {  
  56.                     ++nWorker;  
  57.                 }  
  58.             }  
  59.         }  
  60.     }  
  61.     return 0;  
  62. }  
  63. void setnonblocking(int sock)  
  64. {  
  65.     int opts;  
  66.     opts=fcntl(sock,F_GETFL);  
  67.     if(opts<0)  
  68.     {  
  69.         perror("fcntl(sock,GETFL)");  
  70.         exit(1);  
  71.     }  
  72.     opts = opts|O_NONBLOCK;  
  73.     if(fcntl(sock,F_SETFL,opts)<0)  
  74.     {  
  75.         perror("fcntl(sock,SETFL,opts)");  
  76.         exit(1);  
  77.     }     
  78. }  
  79. int main()  
  80. {  
  81.     int i, maxi, listenfd, connfd, sockfd,epfd,nfds;  
  82.     ssize_t n;  
  83.     char line[MAXLINE];  
  84.     socklen_t clilen;  
  85.     struct epoll_event ev,events[20];  
  86.     struct sockaddr_in clientaddr;  
  87.     struct sockaddr_in serveraddr;  
  88.     listenfd = socket(AF_INET, SOCK_STREAM, 0);  
  89.        bzero(&serveraddr, sizeof(serveraddr));  
  90.     serveraddr.sin_family = AF_INET;  
  91.     char *local_addr="127.0.0.1";  
  92.     inet_aton(local_addr,&(serveraddr.sin_addr));//htons(SERV_PORT);  
  93.     serveraddr.sin_port=htons(SERV_PORT);  
  94.       // 地址重用  
  95.     int nOptVal = 1;  
  96.     socklen_t nOptLen = sizeof(int);  
  97.     if (-1 == ::setsockopt(listenfd, SOL_SOCKET, SO_REUSEADDR, &nOptVal, nOptLen))  
  98.     {  
  99.         return -1;  
  100.     }      
  101.     setnonblocking(listenfd);  
  102.     bind(listenfd,(sockaddr *)&serveraddr, sizeof(serveraddr));  
  103.     listen(listenfd, LISTENQ);      
  104.     CreateWorker(5);  
  105.     //把socket設定為非阻塞方式  
  106.     //生成用於處理accept的epoll專用的檔案描述符  
  107.     epfd=epoll_create(256);      
  108.     //設定與要處理的事件相關的檔案描述符  
  109.     ev.data.fd=listenfd;  
  110.     //設定要處理的事件型別  
  111.     ev.events=EPOLLIN|EPOLLET;  
  112.     //ev.events=EPOLLIN;  
  113.     //註冊epoll事件  
  114.     epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);  
  115.      //CreateWorker(5);  
  116.     maxi = 0;  
  117.     task_t task;   
  118.     task_t *ptask;  
  119.     while(true)   
  120.     {  
  121.         //等待epoll事件的發生  
  122.         nfds=epoll_wait(epfd,events,20,500);  
  123.         //處理所發生的所有事件       
  124.         for(i=0;i<nfds;++i)  
  125.         {  
  126.             if(events[i].data.fd==listenfd)  
  127.             {                  
  128.                 connfd = accept(listenfd,NULL, NULL);  
  129.                 if(connfd<0){                      
  130.                     printf("connfd<0, listenfd = %d\n", listenfd);  
  131.                     printf("error = %s\n", strerror(errno));  
  132.                     exit(1);  
  133.                 }  
  134.                 setnonblocking(connfd);  
  135.                 //設定用於讀操作的檔案描述符  
  136.                 memset(&task, 0, sizeof(task));  
  137.                 task.fd = connfd;  
  138.                 ev.data.ptr = &task;  
  139.                 //設定用於註冊的讀操作事件  
  140.                 ev.events=EPOLLIN|EPOLLET;  
  141.                 //ev.events=EPOLLIN;  
  142.                 //註冊ev  
  143.                 epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev);  
  144.             }  
  145.             else if(events[i].events&EPOLLIN)  
  146.             {  
  147.                 cout << "EPOLLIN" << endl;  
  148.                 ptask = (task_t*)events[i].data.ptr;  
  149.                 sockfd = ptask->fd;  
  150.                 if ( (ptask->n = read(sockfd, ptask->buffer, 100)) < 0) {  
  151.                     if (errno == ECONNRESET) {  
  152.                         close(sockfd);  
  153.                         events[i].data.ptr = NULL;  
  154.                     } else  
  155.                         std::cout<<"readline error"<<std::endl;  
  156.                 } else if (ptask->n == 0) {  
  157.                     close(sockfd);  
  158.                     events[i].data.ptr = NULL;  
  159.                 }  
  160.                 ptask->buffer[ptask->n] = '\0';  
  161.                 cout << "read " << ptask->buffer << endl;  
  162.                 //設定用於寫操作的檔案描述符                                  
  163.                 ev.data.ptr = ptask;  
  164.                 //設定用於注測的寫操作事件  
  165.                 ev.events=EPOLLOUT|EPOLLET;  
  166.                 //修改sockfd上要處理的事件為EPOLLOUT  
  167.                 epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);  
  168.             }  
  169.             else if(events[i].events&EPOLLOUT)  
  170.             {     
  171.                 cout << "EPOLLOUT" << endl;  
  172.                 ptask = (task_t*)events[i].data.ptr;  
  173.                 sockfd = ptask->fd;  
  174.                 write(sockfd, ptask->buffer, ptask->n);  
  175.                 //設定用於讀操作的檔案描述符                
  176.                 ev.data.ptr = ptask;  
  177.                 //修改sockfd上要處理的事件為EPOLIN  
  178.                 epoll_ctl(epfd,EPOLL_CTL_DEL,sockfd,&ev);  
  179.                 cout << "write " << ptask->buffer;  
  180.                 memset(ptask, 0, sizeof(*ptask));  
  181. <