1. 程式人生 > >深入理解HTTP協議(一)——基礎概念篇

深入理解HTTP協議(一)——基礎概念篇

1.介紹

HTTP是Hyper Text Transfer Protocol(超文字傳輸協議)的縮寫。它的發展是全球資訊網協會(World Wide Web Consortium)和Internet工作小組IETF(Internet Engineering Task Force)合作的結果,(他們)最終釋出了一系列的RFC,RFC 1945定義了HTTP/1.0版本。其中最著名的就是RFC 2616。RFC 2616定義了今天普遍使用的一個版本——HTTP 1.1。

HTTP協議(HyperText Transfer Protocol,超文字傳輸協議)是用於從WWW伺服器傳輸超文字到本地瀏覽器

的傳送協議。它可以使瀏覽器更加高效,使網路傳輸減少。它不僅保證計算機正確快速地傳輸超文字文件,還確定傳輸文件中的哪一部分,以及哪部分內容首先顯示(如文字先於圖形)等。

HTTP是一個應用層協議,由請求和響應構成,是一個標準的客戶端伺服器模型。HTTP是一個無狀態的協議。

2.在TCP/IP協議棧中的位置

HTTP協議通常承載於TCP協議之上,有時也承載於TLSSSL協議層之上,這個時候,就成了我們常說的HTTPS。如下圖所示:

http協議學習-11

預設HTTP的埠號為80,HTTPS的埠號為443。

3.HTTP的請求響應模型

HTTP協議永遠都是客戶端發起請求,伺服器回送響應。見下圖:

http協議學習-12

這樣就限制了使用HTTP協議,無法實現在客戶端沒有發起請求的時候,伺服器將訊息推送給客戶端。

HTTP協議是一個無狀態的協議,同一個客戶端的這次請求和上次請求是沒有對應關係。

4.工作流程

一次HTTP操作稱為一個事務,其工作過程可分為四步:

1)首先客戶機與伺服器需要建立連線。只要單擊某個超級連結,HTTP的工作開始。

2)建立連線後,客戶機發送一個請求給伺服器,請求方式的格式為:統一資源識別符號(URL)、協議版本號,後邊是MIME資訊包括請求修飾符、客戶機資訊和可能的內容。

3)伺服器接到請求後,給予相應的響應資訊,其格式為一個狀態行,包括資訊的協議版本號、一個成功或錯誤的程式碼,後邊是MIME資訊包括伺服器資訊、實體資訊和可能的內容。

4)客戶端接收伺服器所返回的資訊通過瀏覽器顯示在使用者的顯示屏上,然後客戶機與伺服器斷開連線。

如果在以上過程中的某一步出現錯誤,那麼產生錯誤的資訊將返回到客戶端,有顯示屏輸出。對於使用者來說,這些過程是由HTTP自己完成的,使用者只要用滑鼠點選,等待資訊顯示就可以了。

5.使用Wireshark抓TCP、http包

開啟Wireshark,選擇工具欄上的“Capture”->“Options”,介面選擇如圖1所示:

http協議學習-概念-1

一般讀者只需要選擇最上邊的下拉框,選擇合適的Device,而後點選“Capture Filter”,此處選擇的是“HTTP TCP port(80)”,選擇後點擊上圖的“Start”開始抓包

http協議學習-概念-2

例如在瀏覽器中開啟http://image.baidu.com/,抓包如圖3所示:

http://www.blogjava.net/images/blogjava_net/amigoxie/40799/o_http%e5%8d%8f%e8%ae%ae%e5%ad%a6%e4%b9%a0-%e6%a6%82%e5%bf%b5-3.jpg

http協議學習-概念-3

在上圖中,可清晰的看到客戶端瀏覽器(ip為192.168.2.33)與伺服器的互動過程:

1)No1:瀏覽器(192.168.2.33)向伺服器(220.181.50.118)發出連線請求。此為TCP三次握手第一步,此時從圖中可以看出,為SYN,seq:X (x=0)

2)No2:伺服器(220.181.50.118)迴應了瀏覽器(192.168.2.33)的請求,並要求確認,此時為:SYN,ACK,此時seq:y(y為0),ACK:x+1(為1)。此為三次握手的第二步;

3)No3:瀏覽器(192.168.2.33)迴應了伺服器(220.181.50.118)的確認,連線成功。為:ACK,此時seq:x+1(為1),ACK:y+1(為1)。此為三次握手的第三步;

4)No4:瀏覽器(192.168.2.33)發出一個頁面HTTP請求;

5)No5:伺服器(220.181.50.118)確認;

6)No6:伺服器(220.181.50.118)傳送資料;

7)No7:客戶端瀏覽器(192.168.2.33)確認;

8)No14:客戶端(192.168.2.33)發出一個圖片HTTP請求;

9)No15:伺服器(220.181.50.118)傳送狀態響應碼200 OK

……

6.頭域

每個頭域由一個域名,冒號(:)和域值三部分組成。域名是大小寫無關的,域值前可以新增任何數量的空格符,頭域可以被擴充套件為多行,在每行開始處,使用至少一個空格或製表符。

在抓包的圖中,No14點開可看到如圖4所示:

http://www.blogjava.net/images/blogjava_net/amigoxie/40799/o_http%e5%8d%8f%e8%ae%ae%e5%ad%a6%e4%b9%a0-%e6%a6%82%e5%bf%b5-4.jpg

http協議學習-概念-4

迴應的訊息如圖5所示:

http協議學習-概念-5

6.1 host頭域

Host頭域指定請求資源的Intenet主機和埠號,必須表示請求url的原始伺服器或閘道器的位置。HTTP/1.1請求必須包含主機頭域,否則系統會以400狀態碼返回。

圖5中host那行為:
o_http協議學習-概念-6

6.2 Referer頭域

Referer頭域允許客戶端指定請求uri的源資源地址,這可以允許伺服器生成回退連結串列,可用來登陸、優化cache等。他也允許廢除的或錯誤的連線由於維護的目的被追蹤。如果請求的uri沒有自己的uri地址,Referer不能被髮送。如果指定的是部分uri地址,則此地址應該是一個相對地址。

在圖4中,Referer行的內容為:
o_http協議學習-概念-7

6.3 User-Agent頭域

User-Agent頭域的內容包含發出請求的使用者資訊。

在圖4中,User-Agent行的內容為:

http://www.blogjava.net/images/blogjava_net/amigoxie/40799/o_http%e5%8d%8f%e8%ae%ae%e5%ad%a6%e4%b9%a0-%e6%a6%82%e5%bf%b5-8.jpg

6.4 Cache-Control頭域

Cache-Control指定請求和響應遵循的快取機制。在請求訊息或響應訊息中設定Cache-Control並不會修改另一個訊息處理過程中的快取處理過程。請求時的快取指令包括no-cache、no-store、max-age、max-stale、min-fresh、only-if-cached,響應訊息中的指令包括public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age。

在圖5中的該頭域為:
o_http協議學習-概念-9

6.5 Date頭域

Date頭域表示訊息傳送的時間,時間的描述格式由rfc822定義。例如,Date:Mon,31Dec200104:25:57GMT。Date描述的時間表示世界標準時,換算成本地時間,需要知道使用者所在的時區。

圖5中,該頭域如下圖所示:

o_http協議學習-概念-10

7.HTTP的幾個重要概念

7.1連線:Connection

一個傳輸層的實際環流,它是建立在兩個相互通訊的應用程式之間。

在http1.1,request和reponse頭中都有可能出現一個connection的頭,此header的含義是當client和server通訊時對於長連結如何進行處理。

在http1.1中,client和server都是預設對方支援長連結的, 如果client使用http1.1協議,但又不希望使用長連結,則需要在header中指明connection的值為close;如果server方也不想支援長連結,則在response中也需要明確說明connection的值為close。不論request還是response的header中包含了值為close的connection,都表明當前正在使用的tcp連結在當天請求處理完畢後會被斷掉。以後client再進行新的請求時就必須建立新的tcp連結了。

7.2訊息:Message

HTTP通訊的基本單位,包括一個結構化的八元組序列並通過連線傳輸。

7.3請求:Request

一個從客戶端到伺服器的請求資訊包括應用於資源的方法、資源的識別符號和協議的版本號。

7.4響應:Response

一個從伺服器返回的資訊包括HTTP協議的版本號、請求的狀態(例如“成功”或“沒找到”)和文件的MIME型別。

7.5資源:Resource

由URI標識的網路資料物件或服務。

7.6實體:Entity

資料資源或來自服務資源的回映的一種特殊表示方法,它可能被包圍在一個請求或響應資訊中。一個實體包括實體頭資訊和實體的本身內容。

7.7客戶機:Client

一個為傳送請求目的而建立連線的應用程式。

7.8使用者代理:UserAgent

初始化一個請求的客戶機。它們是瀏覽器、編輯器或其它使用者工具。

7.9伺服器:Server

一個接受連線並對請求返回資訊的應用程式。

7.10源伺服器:Originserver

是一個給定資源可以在其上駐留或被建立的伺服器。

7.11代理:Proxy

一箇中間程式,它可以充當一個伺服器,也可以充當一個客戶機,為其它客戶機建立請求。請求是通過可能的翻譯在內部或經過傳遞到其它的伺服器中。一個代理在傳送請求資訊之前,必須解釋並且如果可能重寫它。

代理經常作為通過防火牆的客戶機端的門戶,代理還可以作為一個幫助應用來通過協議處理沒有被使用者代理完成的請求。

7.12閘道器:Gateway

一個作為其它伺服器中間媒介的伺服器。與代理不同的是,閘道器接受請求就好象對被請求的資源來說它就是源伺服器;發出請求的客戶機並沒有意識到它在同閘道器打交道。

閘道器經常作為通過防火牆的伺服器端的門戶,閘道器還可以作為一個協議翻譯器以便存取那些儲存在非HTTP系統中的資源。

7.13通道:Tunnel

是作為兩個連線中繼的中介程式。一旦啟用,通道便被認為不屬於HTTP通訊,儘管通道可能是被一個HTTP請求初始化的。當被中繼的連線兩端關閉時,通道便消失。當一個門戶(Portal)必須存在或中介(Intermediary)不能解釋中繼的通訊時通道被經常使用。

7.14快取:Cache

反應資訊的局域儲存。