Http服務器實現文件上傳與下載(一)
一、引言
大家都知道web編程的協議就是http協議,稱為超文本傳輸協議。在J2EE中我們可以很快的實現一個Web工程,但在C++中就不是非常的迅速,原因無非就是底層的socket網絡編寫需要自己完成,上層的http協議需要我們自己完成,用戶接口需要我們自己完成,如何高效和設計一個框架都是非常困難的一件事情。但這些事情Java已經在底層為我們封裝好了,而我們僅僅只是在做業務層上的事情吧了。
在本Http服務器實現中,利用C++庫和socket原套接字編程和pthread線程編寫。拒絕使用第三方庫。因為主要是讓大家知道基本的實現方式,除去一些安全、高效等特性,但是不管怎麽樣,第三方商業庫的基本原理還是一致的,只是他們對其進行了優化而已。在開始的編寫時,我不會全部的簡介Http的協議的內容,這樣太枯燥了,我僅僅解釋一些下面需要用到的協議字段。
在寫本文的時候,之前也有些迷惑,C++到底能幹啥,到網上一搜,無非就是能開發遊戲,嵌入式編程,寫服務器等等。接著如果問如何編寫一個服務器的話,那麽這些網絡水人又會告訴你,你先把基礎學好,看看什麽書,之後你就知道了,我只能呵呵了,在無目的的學習中,盡管看了你也不知道如何寫的,因為盡管你知道一些大概,但是沒有一個人領導你入門,我們還是無法編寫一個我們自己想要的東西,我寫這篇博客主要是做一個小小的敲門磚吧,盡管網上有許多博客,關於如何編寫HTTP服務器的,但是要不是第三方庫acl,要麽就是短短的幾行代碼,要麽就是加入了微軟的一些C#內容或者MFC,這些在我看來只是一些無關緊要的東西,加入後或許界面上你很舒服,但是大大增加了我們的學習成本,因為這些界面上的代碼改變了我們所知道的程序流程走向,還有一些界面代碼和核心代碼的混合,非常不利於學習。
二、HTTP協議
在大家在瀏覽器的url輸入欄上輸入http://10.1.18.4/doing時。瀏覽器向10.1.18.4服務器80端口的進程發送了如下的一個協議頭,它是一個文本字符串。每行以\r\n結束。表示回車換行。
1 GET /doing HTTP/1.1 2 Host: 10.1.18.4 3 User-Agent: Mozilla/5.0 (Windows NT 6.2; rv:40.0) Gecko/20100101 Firefox/40.0 4 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 5 Accept-Language: zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3 6 Accept-Encoding: gzip, deflate 7 Referer: http://10.1.18.4/ 8 Connection: keep-alive
所以知道其實我們發送了一個URL請求,其實被轉化為了一個如上的一些字符串。在這裏我簡單的解釋一下這個協議頭表示什麽,因為在網上你可以找到非常多的信息來解釋它們。
1)第一行中 GET /doing HTTP1.1 表示請求的方式是GET,URL是/doing ,HTTP協議的版本是1.1
2)第二行中 Host 就是服務器的IP
3)第三行中 User-Agent代表著你使用的是什麽瀏覽器在什麽系統上運行的。從上本可以這條信息顯示是window上火狐瀏覽器發出的請求頭
4)第四行中Accept代表著該瀏覽器可以接受的信息格式,可以是文本,html,或者應用文件(二進制文件)。其中q代表權重,表示更願意接受前面的信息。還有一些其他的內容,讀者可以自己百度。
5)以下的一些信息中,沒有什麽用到,我就不解釋,看文本意義也大概知道一些信息。詳細的請搜索網絡。
在最重要的是一本請求頭什麽時候表示結束呢,那就是一個空行表示結束。其實就是"\r\n"結束。
說了這麽多可能大家還是有點迷糊,知道這些那麽在程序中又是怎麽實現的呢。當初我也迷惑,現在我提出一個最簡單的一種實現,就是直接連接一個字符串即可。在實際實現中我對其進行了分解,但是現在,我解釋為如下編寫程序:
1 char *str= "GET /doing HTTP/1.1\r\n2 Host: 10.1.18.4\r\n3 User-Agent: Mozilla/5.0 (Windows NT 6.2; rv:40.0) Gecko/20100101 Firefox/40.0\r\n4 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*//*;q=0.8\r\n5 Accept-Language: zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3\r\n6 Accept-Encoding: gzip, deflate\r\n7 Referer: http://10.1.18.4/\r\n8 Connection: keep-alive\r\n9 Range: bytes=14584264-\r\n\r\n" ;
可能上面的協議內容跟之前的有點不一樣,沒關系,我只是截取了一些內容進行輸入。很簡單就是C語言的char*字符串。在沒一行的的結尾都都有一個‘\‘,表示表示換行輸入,去掉也行,需要把器內容寫到一行上,是C語言語法,不懂的讀者可以自己查閱C語言的字符串。我想說的是在每行的結尾都有一個\r\n。這兩個轉義字符就是代表回車換行。並且在第9行有2個\r\n,最後一個代表著空行,意思是說告訴服務器我的協議頭到此位置。
為什麽需要一個空行呢,這裏就有一個網絡編程的小小信息。在socket TCP流編程中,比如你調用了write或read函數,內部不是一次性接受或者發送所有的信息。所以當我們發送上述的str的時候,不一定一次全部的發送,那麽服務端就不知道什麽時候結尾了。所以我們需要HTTP規定以空行作為結尾代表著協議頭的結束。
接下面了來就是我們編寫的服務器接受到這個字符串。並且以空行表示接受到整個協議頭,然後對其進行解析。下面就是解析這段字符串的代碼,在工程中我對其封裝,但是現在我們只要知道實現解析功能即可。
1 #include <iostream> 2 #include <cstring> 3 #include <vector> 4 #include <map> 5 #include <algorithm> 6 using namespace std; 7 8 char *str= "GET /download/JBPM4S.tt HTTP/1.1\r\n 9 Host: 10.1.18.4\r\n10 User-Agent: Mozilla/5.0 (Windows NT 6.2; rv:40.0) Gecko/20100101 Firefox/40.0\r\n11 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*//*;q=0.8\r\n12 Accept-Language: zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3\r\n13 Accept-Encoding: gzip, deflate\r\n14 Referer: http:http://10.1.18.4/\r\n15 Connection: keep-alive\r\n16 Range: bytes=14584264-\r\n\r\n" ; 17 18 string& ltrim(string &str) { 19 string::iterator p = find_if(str.begin(), str.end(), not1(ptr_fun<int, int>(isspace))); 20 str.erase(str.begin(), p); 21 return str; 22 } 23 24 string& rtrim(string &str) { 25 string::reverse_iterator p = find_if(str.rbegin(), str.rend(), not1(ptr_fun<int , int>(isspace))); 26 str.erase(p.base(), str.end()); 27 return str; 28 } 29 30 string& trim(string &str) { 31 ltrim(rtrim(str)); 32 return str; 33 } 34 string getContent(string& str,int start,char c,int &pos){ 35 int i=start; 36 int len=str.size(); 37 while(i<len&&str[i]!=c){ 38 i++; 39 } 40 pos=i; 41 return str.substr(start,i-start); 42 } 43 map<string,string> parseHeader(char* str){ 44 int len=strlen(str); 45 vector<string> vs; 46 int i=0; 47 while(i<len){ 48 if(str[i]!=‘\r‘){ 49 int j=i; 50 while(i<len&& str[i]!=‘\r‘) 51 i++; 52 vs.push_back(string(str+j,str+i)); 53 }else{ 54 i+=2; 55 } 56 } 57 int pos; 58 string method=getContent(vs[0],0,‘ ‘,pos); 59 string url=getContent(vs[0],method.size()+1,‘ ‘,pos); 60 map<string,string> mp; 61 mp["Method"]=method; 62 mp["Url"]=url; 63 for(int i=1;i<vs.size();i++){ 64 string key=getContent(vs[i],0,‘:‘,pos); 65 string value=vs[i].substr(pos+1); 66 mp[key]=trim(value); 67 } 68 return mp; 69 } 70 71 int main(int argc, char **argv) 72 { 73 map<string,string> mp =parseHeader(str); 74 for(map<string,string>::const_iterator it=mp.begin();it!=mp.end();++it){ 75 cout<<it->first <<" "<<it->second<<endl; 76 } 77 return 0; 78 }
把一些信息解析都放到了一個map裏面。這裏的解析是先處理每一行,然後再對每一行進行解析。可能這樣的處理方式有點慢,但是沒什麽關系,原因是字符串反正比較短,在大並發下效率不會影響太大,如果大家有什麽更好的解析方式,可以回復我。
在服務端解析頭信息後,我們可以得到/doing這個url,這樣我們服務請就可以把客戶端需要的內容返回給客戶端了,這裏就有瀏覽器請求的內容是否合法是否存在這些信息。就要在相應的響應頭中說明,在《Http服務器實現文件上傳與下載(二)》中會進行說明。
歡迎大家一起探討這些問題。有什麽想法的人給我回復,我們一起學習,一起進步哦。
Http服務器實現文件上傳與下載(一)