1. 程式人生 > >HTTP 協議詳解

HTTP 協議詳解

HTTP  協議詳解

引言

HTTP 是一個屬於應用層的面向物件的協議,由於其簡捷、快速的方式,適用於分散式超媒體資訊系統。它於1990年提出,經過幾年的使用與發展,得到不斷地完善和擴充套件。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1 的規範化工作正在進行之中,而且 HTTP-NG(Next Generation of HTTP)的建議已經提出。
HTTP 協議的主要特點可概括如下:

1.支援客戶/伺服器模式。

2.簡單快速:客戶向伺服器請求服務時,只需傳送請求方法和路徑。請求方法常用的有 GET、HEAD 、POST。每種方法規定了客戶與伺服器聯絡的型別不同。由於 HTTP 協議簡單,使得 HTTP 伺服器的程式規模小,因而通訊速度很快。

3.靈活:HTTP 允許傳輸任意型別的資料物件。正在傳輸的型別由 Content-Type 加以標記。

4.無連線:無連線的含義是限制每次連線只處理一個請求。伺服器處理完客戶的請求,並收到客戶的應答後,即斷開連線。採用這種方式可以節省傳輸時間。

5.無狀態:HTTP 協議是無狀態協議。無狀態是指協議對於事務處理沒有記憶能力。缺少狀態意味著如果後續處理需要前面的資訊,則它必須重傳,這樣可能導致每次連線傳送的資料量增大。另一方面,在伺服器不需要先前資訊時它的應答就較快。

一、 HTTP  協議詳解之  URL  篇

http(超文字傳輸協議)是一個基於請求與響應模式的、無狀態的、應用層的協議,常基於 TCP 的連線方式,HTTP1.1 版本中給出一種持續連線的機制,絕大多數的 Web 開發,都是構建在 HTTP 協議之上的 Web 應用。
HTTP URL (URL 是一種特殊型別的 URI,包含了用於查詢某個資源的足夠的資訊)的格式如下:
http://host[":"port][abs_path]
http 表示要通過 HTTP 協議來定位網路資源;host 表示合法的 Internet 主機域名或者 IP 地址 ;
port 指定一個埠號,為空則使用預設埠 80;abs_path 指定請求資源的 URI;如果 URL 中沒有給出 abs_path,那麼當它作為請求 URI 時,必須以“/”的形式給出,通常這個工作瀏覽器自動幫我們完成。
eg:
1、輸入:www.guet.edu.cn瀏覽器自動轉換成:http://www.guet.edu.cn/

2、http:192.168.0.116:8080/index.jsp

二、 HTTP  協議詳解之請求篇

http 請求由三部分組成,分別是:請求行、訊息報頭、請求正文
1、請求行以一個方法符號開頭,以空格分開,後面跟著請求的 URI 和協議的版本,格式如下:Method Request-URI HTTP-Version CRLF

其中 Method 表示請求方法;Request-URI 是一個統一資源識別符號;HTTP-Version 表示請求的HTTP 協議版本;CRLF 表示回車和換行(除了作為結尾的 CRLF 外,不允許出現單獨的 CR 或 LF 字元)。

請求方法(所有方法全為大寫)有多種,各個方法的解釋如下:
GET 請求獲取 Request-URI 所標識的資源
POST 在 Request-URI 所標識的資源後附加新的資料
HEAD 請求獲取由 Request-URI 所標識的資源的響應訊息報頭
PUT 請求伺服器儲存一個資源,並用 Request-URI 作為其標識
DELETE 請求伺服器刪除 Request-URI 所標識的資源
TRACE 請求伺服器回送收到的請求資訊,主要用於測試或診斷
CONNECT 保留將來使用
OPTIONS 請求查詢伺服器的效能,或者查詢與資源相關的選項和需求
應用舉例:
GET 方法:在瀏覽器的位址列中輸入網址的方式訪問網頁時,瀏覽器採用 GET 方法向伺服器獲取資源 ,
eg:GET /form.html HTTP/1.1 (CRLF)
POST 方法要求被請求伺服器接受附在請求後面的資料,常用於提交表單。
eg:POST /reg.jsp HTTP/ (CRLF)
Accept:image/gif,image/x-xbit,... (CRLF)
...
HOST:www.guet.edu.cn (CRLF)
Content-Length:22 (CRLF)
Connection:Keep-Alive (CRLF)
Cache-Control:no-cache (CRLF)
(CRLF) //該 CRLF 表示訊息報頭已經結束,在此之前為訊息報頭
user=jeffrey&pwd=1234 //此行以下為提交的資料
HEAD 方法與 GET 方法幾乎是一樣的,對於 HEAD 請求的迴應部分來說,它的 HTTP 頭部中包含的資訊與通過 GET 請求所得到的資訊是相同的。利用這個方法,不必傳輸整個資源內容,就可以得 到Request-URI 所標識的資源的資訊。該方法常用於測試超連結的有效性,是否可以訪問,以及最近是否更新。
2、請求報頭後述

3、請求正文(略)

三、 HTTP  協議詳解之響應篇

在接收和解釋請求訊息後,伺服器返回一個 HTTP 響應訊息。
HTTP 響應也是由三個部分組成,分別是:狀態行、訊息報頭、響應正文
1、狀態行格式如下:
HTTP-Version Status-Code Reason-Phrase CRLF

其中,HTTP-Version 表示伺服器 HTTP 協議的版本;Status-Code 表示伺服器發回的響應狀態程式碼;Reason-Phrase 表示狀態程式碼的文字描述。

狀態程式碼有三位數字組成,第一個數字定義了響應的類別,且有五種可能取值:
1xx:指示資訊--表示請求已接收,繼續處理
2xx:成功--表示請求已被成功接收、理解、接受
3xx:重定向--要完成請求必須進行更進一步的操作
4xx:客戶端錯誤--請求有語法錯誤或請求無法實現

5xx:伺服器端錯誤--伺服器未能實現合法的請求

常見狀態程式碼、狀態描述、說明:
200 OK //客戶端請求成功
400 Bad Request //客戶端請求有語法錯誤,不能被伺服器所理解
401 Unauthorized // 請 求 未 經 授 權 , 這 個 狀 態 代 碼 必 須 和 WWW-Authenticate 報
//頭域一起使用
403 Forbidden //伺服器收到請求,但是拒絕提供服務
404 Not Found //請求資源不存在,eg:輸入了錯誤的 URL
500 Internal Server Error //伺服器發生不可預期的錯誤
503 Server Unavailable // 服 務 器 當 前 不 能 處 理 客 戶 端 的 請 求 , 一 段 時 間 後 ,
//可能恢復正常
eg:HTTP/1.1 200 OK (CRLF)
2、響應報頭後述

3、響應正文就是伺服器返回的資源的內容

四、 HTTP  協議詳解之訊息報頭篇

HTTP 訊息由客戶端到伺服器的請求和伺服器到客戶端的響應組成。請求訊息和響應訊息都是由開始行(對於請求訊息,開始行就是請求行,對於響應訊息,開始行就是狀態行),訊息報頭(可選),空行(只有 CRLF 的行),訊息正文(可選)組成。
HTTP 訊息報頭包括普通報頭、請求報頭、響應報頭、實體報頭。
每一個報頭域都是由名字+“:”+空格+值 組成,訊息報頭域的名字是大小寫無關的。
 1 、普通報頭
在普通報頭中,有少數報頭域用於所有的請求和響應訊息,但並不用於被傳輸的實體,只用於傳輸的
訊息。
eg:
Cache-Control 用於指定快取指令,快取指令是單向的(響應中出現的快取指令在請求中未必會
出現),且是獨立的(一個訊息的快取指令不會影響另一個訊息處理的快取機制),HTTP1.0 使用的類似
的報頭域為 Pragma。
請求時的快取指令包括:no-cache(用於指示請求或響應訊息不能快取)、no-store、max-age 、
max-stale、min-fresh、only-if-cached;
響應時的快取指令包括:public、private、no-cache、no-store、no-transform、
must-revalidate、proxy-revalidate、max-age、s-maxage.
eg:為了指示 IE 瀏覽器(客戶端)不要快取頁面,伺服器端的 JSP 程式可以編寫如下:
response.sehHeader("Cache-Control","no-cache");
//response.setHeader("Pragma","no-cache");作用相當於上述程式碼,通常兩者//合用
這句程式碼將在傳送的響應訊息中設定普通報頭域:Cache-Control:no-cache
Date 普通報頭域表示訊息產生的日期和時間
Connection 普通報頭域允許傳送指定連線的選項。例如指定連線是連續,或者指定“close”選項 ,

通知伺服器,在響應完成後,關閉連線

 2 、請求報頭
請求報頭允許客戶端向伺服器端傳遞請求的附加資訊以及客戶端自身的資訊。
常用的請求報頭
Accept
Accept 請求報頭域用於指定客戶端接受哪些型別的資訊。eg:Accept:image/gif,表明客戶端希望接受 GIF 圖象格式的資源;Accept:text/html,表明客戶端希望接受 html 文字。
Accept-Charset
Accept-Charset 請 求 報 頭 域 用 於 指 定 客 戶 端 接 受 的 字 符 集 。 eg :
Accept-Charset:iso-8859-1,gb2312.如果在請求訊息中沒有設定這個域,預設是任何字符集都可以接受。
Accept-Encoding
Accept-Encoding 請求報頭域類似於 Accept,但是它是用於指定可接受的內容編碼。eg:
Accept-Encoding:gzip.deflate.如果請求訊息中沒有設定這個域伺服器假定客戶端對各種內容編碼都可以接受。

Accept-Language

Accept-Language 請求報頭域類似於 Accept,但是它是用於指定一種自然語言。 eg:
Accept-Language:zh-cn.如果請求訊息中沒有設定這個報頭域,伺服器假定客戶端對各種語言都可以接受。
Authorization
Authorization 請求報頭域主要用於證明客戶端有權檢視某個資源。當瀏覽器訪問一個頁面時,如果收到伺服器的響應程式碼為 401(未授權),可以傳送一個包含 Authorization 請求報頭域的請求,要求伺服器對其進行驗證。
Host(傳送請求時,該報頭域是必需的)
Host 請求報頭域主要用於指定被請求資源的 Internet 主機和埠號,它通常從 HTTP URL 中提取出來的,eg:
我們在瀏覽器中輸入:http://www.guet.edu.cn/index.html
瀏覽器傳送的請求訊息中,就會包含 Host 請求報頭域,如下:
Host:www.guet.edu.cn
此處使用預設埠號 80,若指定了埠號,則變成:Host:www.guet.edu.cn:指定埠號User-Agent

我們上網登陸論壇的時候,往往會看到一些歡迎資訊,其中列出了你的作業系統的名稱和版本,你所使用的瀏覽器的名稱和版本,這往往讓很多人感到很神奇,實際上,伺服器應用程式就是從 User-Agent這個請求報頭域中獲取到這些資訊。User-Agent 請求報頭域允許客戶端將它的作業系統、瀏覽器和其它屬性告訴伺服器。不過,這個報頭域不是必需的,如果我們自己編寫一個瀏覽器,不使用 User-Agent請求報頭域,那麼伺服器端就無法得知我們的資訊了。

請求報頭舉例:
GET /form.html HTTP/1.1 (CRLF)
Accept:image/gif,image/x-xbitmap,image/jpeg,application/x-shockwave-flas
h,application/vnd.ms-excel,application/vnd.ms-powerpoint,application/msword,
*/* (CRLF)
Accept-Language:zh-cn (CRLF)
Accept-Encoding:gzip,deflate (CRLF)
If-Modified-Since:Wed,05 Jan 2007 11:21:25 GMT (CRLF)
If-None-Match:W/"80b1a4c018f3c41:8317" (CRLF)
User-Agent:Mozilla/4.0(compatible;MSIE6.0;Windows NT 5.0) (CRLF)
Host:www.guet.edu.cn (CRLF)
Connection:Keep-Alive (CRLF)

(CRLF)

 3 、響應報頭
響應報頭允許伺服器傳遞不能放在狀態行中的附加響應資訊,以及關於伺服器的資訊和對Request-URI 所標識的資源進行下一步訪問的資訊。
常用的響應報頭
Location
Location 響應報頭域用於重定向接受者到一個新的位置。Location 響應報頭域常用在更換域名的時候。
Server
Server 響應報頭域包含了伺服器用來處理請求的軟體資訊。與 User-Agent 請求報頭域是相對應的。下面是
Server 響應報頭域的一個例子:
Server:Apache-Coyote/1.1
WWW-Authenticate
WWW-Authenticate 響應報頭域必須被包含在 401(未授權的)響應訊息中,客戶端收到 401 響應訊息時候,併發送 Authorization 報頭域請求伺服器對其進行驗證時,服務端響應報頭就包含該報頭域。
eg:WWW-Authenticate:Basic realm="Basic Auth Test!" //可以看出伺服器對請求資

源採用的是基本驗證機制。

 4 、實體報頭
請求和響應訊息都可以傳送一個實體。一個實體由實體報頭域和實體正文組成,但並不是說實體報頭域和實體正文要在一起傳送,可以只發送實體報頭域。實體報頭定義了關於實體正文(eg:有無實體正文 )和請求所標識的資源的元資訊。
常用的實體報頭
Content-Encoding
Content-Encoding 實體報頭域被用作媒體型別的修飾符,它的值指示了已經被應用到實體正文的附加內容的編碼,因而要獲得 Content-Type 報頭域中所引用的媒體型別,必須採用相應的解碼機制 。
Content-Encoding 這樣用於記錄文件的壓縮方法,eg:Content-Encoding:gzip
Content-Language
Content-Language 實體報頭域描述了資源所用的自然語言。沒有設定該域則認為實體內容將提供給所有的語言閱讀
者。eg:Content-Language:da
Content-Length
Content-Length 實體報頭域用於指明實體正文的長度,以位元組方式儲存的十進位制數字來表示。
Content-Type
Content-Type 實體報頭域用語指明發送給接收者的實體正文的媒體型別。eg:
Content-Type:text/html;charset=ISO-8859-1
Content-Type:text/html;charset=GB2312
Last-Modified
Last-Modified 實體報頭域用於指示資源的最後修改日期和時間。
Expires
Expires 實體報頭域給出響應過期的日期和時間。為了讓代理伺服器或瀏覽器在一段時間以後更新快取中(再次訪問曾訪問過的頁面時,直接從快取中載入,縮短響應時間和降低伺服器負載)的頁面,我們可以使用 Expires 實體報頭域指定頁面過期的時間。eg:Expires:Thu,15 Sep 2006 16:23:12
GMT

HTTP1.1 的客戶端和快取必須將其他非法的日期格式(包括 0)看作已經過期。eg:為了讓瀏覽器不 要 緩 存 頁 面 , 我 們 也 可 以 利 用 Expires 實 體 報 頭 域 , 設 置 為 0 , jsp 中 程 序 如 下 :response.setDateHeader("Expires","0");

五、利用  t telnet  觀察  http  協議的通訊過程

實驗目的及原理:

利用 MS 的 telnet 工具,通過手動輸入 http 請求資訊的方式,向伺服器發出請求,伺服器接收、解釋和接受請求後,會返回一個響應,該響應會在 telnet 視窗上顯示出來,從而從感性上加深對 http協議的通訊過程的認識。

實驗步驟:

1 、開啟  telnet

1.1 開啟 telnet
執行-->cmd-->telnet
1.2 開啟 telnet 回顯功能
set localecho
2 、連線伺服器併發送請求
2.1 open www.guet.edu.cn 80 //注意埠號不能省略
HEAD /index.asp HTTP/1.0
Host:www.guet.edu.cn
/*我們可以變換請求方法,請求桂林電子主頁內容,輸入訊息如下*/
open www.guet.edu.cn 80
GET /index.asp HTTP/1.0 //請求資源的內容
Host:www.guet.edu.cn
2.2 open www.sina.com.cn 80 //在命令提示符號下直接輸入 telnet www.sina.com.cn
80
HEAD /index.asp HTTP/1.0
Host:www.sina.com.cn
 3 、 實驗結果:
3.1 請求資訊 2.1 得到的響應是:
HTTP/1.1 200 OK //請求成功
Server: Microsoft-IIS/5.0 //web 伺服器
Date: Thu,08 Mar 200707:17:51 GMT
Connection: Keep-Alive
Content-Length: 23330
Content-Type: text/html
Expries: Thu,08 Mar 2007 07:16:51 GMT
Set-Cookie:ASPSESSIONIDQAQBQQQB=BEJCDGKADEDJKLKKAJEOIMMH; path=/
Cache-control: private
//資源內容省略
3.2 請求資訊 2.2 得到的響應是:
HTTP/1.0 404 Not Found //請求失敗
Date: Thu, 08 Mar 2007 07:50:50 GMT
Server: Apache/2.0.54 <Unix>
Last-Modified: Thu, 30 Nov 2006 11:35:41 GMT
ETag: "6277a-415-e7c76980"
Accept-Ranges: bytes
X-Powered-By: mod_xlayout_jh/0.0.1vhs.markII.remix
Vary: Accept-Encoding
Content-Type: text/html
X-Cache: MISS from zjm152-78.sina.com.cn
Via: 1.0 zjm152-78.sina.com.cn:80<squid/2.6.STABLES-20061207>
X-Cache: MISS from th-143.sina.com.cn
Connection: close
失去了跟主機的連線
按任意鍵繼續...
4 、 注意事項
出現輸入錯誤,則請求不會成功。

報頭域不分大小寫。

更深一步瞭解 HTTP 協議,可以檢視 RFC2616,在 http://www.letf.org/rfc 上找到該文

件。

開發後臺程式必須掌握 http 協議

六、 HTTP  協議相關技術補充

 1 、基礎
高層協議有:檔案傳輸協議 FTP、電子郵件傳輸協議 SMTP、域名系統服務 DNS、網路新聞傳輸協議NNTP 和 HTTP 協議等
中介由三種:代理(Proxy)、閘道器(Gateway)和通道(Tunnel),一個代理根據 URI 的絕對格式來接受請求,重寫全部或部分訊息,通過 URI 的標識把已格式化過的請求傳送到伺服器。閘道器是一個接收代理,作為一些其它伺服器的上層,並且如果必須的話,可以把請求翻譯給下層的伺服器協議。一 個通道作為不改變訊息的兩個連線之間的中繼點。當通訊需要通過一箇中介(例如:防火牆等)或者是中介不能識別訊息的內容時,通道經常被使用。
代理(Proxy):一箇中間程式,它可以充當一個伺服器,也可以充當一個客戶機,為其它客戶機建立請求。請求是通過可能的翻譯在內部或經過傳遞到其它的 伺服器中。一個代理在傳送請求資訊之前,必須解釋並且如果可能重寫它。代理經常作為通過防火牆的客戶機端的門戶,代理還可以作為一個幫助應用來通過協議處 理沒有被使用者代理完成的請求。
閘道器(Gateway):一個作為其它伺服器中間媒介的伺服器。與代理不同的是,閘道器接受請求就好象對被請求的資源來說它就是源伺服器;發出請求的客戶機並沒有意識到它在同閘道器打交道。
閘道器經常作為通過防火牆的伺服器端的門戶,閘道器還可以作為一個協議翻譯器以便存取那些儲存在非HTTP 系統中的資源。

通道(Tunnel):是作為兩個連線中繼的中介程式。一旦啟用,通道便被認為不屬於 HTTP 通訊,儘管通道可能是被一個HTTP請求初始化的。當被中繼 的連線兩端關閉時,通道便消失。當一個門戶(Portal)必須存在或中介(Intermediary)不能解釋中繼的通訊時通道被經常使用。

 2 、協議分析的優勢— — — — P HTTP  分析器檢測網路攻擊
以模組化的方式對高層協議進行分析處理,將是未來入侵檢測的方向。

HTTP 及其代理的常用埠 80、3128 和 8080 在 network 部分用 port 標籤進行了規定

3 、 P HTTP  協議  t Content  h Lenth  限制漏洞導致拒絕服務攻擊
使 用 POST 方 法 時 , 可 以 設 置 ContentLenth 來 定 義 需 要 傳 送 的 數 據 長 度 , 例 如ContentLenth:999999999,在傳送完成前,內 存不會釋放,攻擊者可以利用這個缺陷,連續向 WEB伺服器傳送垃圾資料直至 WEB 伺服器記憶體耗盡。這種攻擊方法基本不會留下痕跡。

http://www.cnpaf.net/Class/HTTP/0532918532667330.html

4 、利用  P HTTP  協議的特性進行拒絕服務攻擊的一些構思
伺服器端忙於處理攻擊者偽造的 TCP 連線請求而無暇理睬客戶的正常請求(畢竟客戶端的正常請求比率非常之小),此時從正常客戶的角度看來,伺服器失去響應,這種情況我們稱作:伺服器端受到 了SYNFlood 攻擊(SYN 洪水攻擊)。而 Smurf、TearDrop 等是利用 ICMP 報文來 Flood 和 IP 碎片攻擊的。本文用“正常連線”的方法來產生拒絕服務攻擊。
19 埠在早期已經有人用來做 Chargen 攻擊了,即 Chargen_Denial_of_Service,但是!他們用的方法是在兩臺 Chargen 伺服器之間產生 UDP 連線,讓伺服器處理過多資訊而 DOWN 掉,那麼,幹掉一臺 WEB 伺服器的條件就必須有 2 個:1.有 Chargen 服務 2.有 HTTP 服務
方法:攻擊者偽造源 IP 給 N 臺 Chargen 傳送連線請求(Connect),Chargen 接收到連線後就會

返回每秒 72 位元組的字元流(實際上根據網路實際情況,這個速度更快)給伺服器。

5 、  Http  指紋識別技術
Http 指紋識別的原理大致上也是相同的:記錄不同伺服器對 Http 協議執行中的微小差別進行識別.Http 指紋識別比 TCP/IP 堆疊指紋識別複雜許 多,理由是定製 Http 伺服器的配置檔案、增加外掛或元件使得更改 Http 的響應資訊變的很容易,這樣使得識別變的困難;然而定製 TCP/IP 堆疊的行為 需要對核心層進行修改,所以就容易識別.

要讓伺服器返回不同的 Banner 資訊的設定是很簡單的,象 Apache 這樣的開放原始碼的 Http 伺服器,使用者可以在原始碼裡修改 Banner 資訊,然 後重起 Http 服務就生效了;對於沒有公開原始碼的 Http伺服器比如微軟的 IIS 或者是 Netscape,可以在存放 Banner 資訊的 Dll 檔案中修 改,相關的文章有討論的,這裡不再贅述,當然這樣的修改的效果還是不錯的.另外一種模糊 Banner 資訊的方法是使用外掛。

常用測試請求:
1:HEAD/Http/1.0 傳送基本的 Http 請求
2:DELETE/Http/1.0 傳送那些不被允許的請求,比如 Delete 請求
3:GET/Http/3.0 傳送一個非法版本的 Http 協議請求
4:GET/JUNK/1.0 傳送一個不正確規格的 Http 協議請求
Http 指紋識別工具 Httprint,它通過運用統計學原理,組合模糊的邏輯學技術,能很有效的確定

Http 伺服器的型別.它可以被用來收集和分析不同 Http 伺服器產生的簽名。

6 、 其他
為了提高使用者使用瀏覽器時的效能,現代瀏覽器還支援併發的訪問方式,瀏覽一個網頁時同時建立多個連線,以迅速獲得一個網頁上的多個圖示,這樣能更快速完成整個網頁的傳輸。
HTTP1.1 中提供了這種持續連線的方式,而下一代 HTTP 協議:HTTP-NG 更增加了有關會話控制、豐富的內容協商等方式的支援,來提供更高效率的連線。
本文來自 CSDN 部落格,轉載請標明出處:
http://blog.csdn.net/gueter/archive/2007/03/08/1524447.aspx