1. 程式人生 > >HTTP協議之Chunked解析

HTTP協議之Chunked解析

 在網上找了好一會,始終沒發現有解析Chunked編碼的文章,那就自己寫一個吧,呵呵。
網上使用Chunked編碼的網站似乎並不是很多,除了那些使用GZip壓縮的網站,例:google.com,還有就是大部分開啟GZip壓縮的PHP論壇。
根據本人的理解,使用Chunked編碼的主要好處就在於一些程式的運算出過程中,可以動態的輸出內容。
例如,要在後臺處理一個小時的運算,但又不希望使用者等一個小時才能看到結果。這時就可採用Chunked編碼將內容分塊輸出,使用者隨時都可以接收到最新的處理結果。
ASP關閉了快取的輸出模式,就是Chunked編碼的。(Response.Buffer = false)
而每一次的Response.Write,都是一個Chunked,所以不要使用的太頻繁哦,否則Chunk數量太多,額外的資料太浪費空間了。
若想了解Chunked的具體編碼結構,用ASP關閉快取除錯蠻方便的。:)

我們先來看看RFC2616中對Chunked的定義:
Chunked-Body = *chunk
last-chunk
trailer
CRLF

chunk = chunk-size [ chunk-extension ] CRLF
chunk-data CRLF
chunk-size = 1*HEX
last-chunk = 1*("0") [ chunk-extension ] CRLF

chunk-extension= *( ";" chunk-ext-name [ "=" chunk-ext-val ] )
chunk-ext-name = token
chunk-ext-val = token | quoted-string
chunk-data = chunk-size(OCTET)
trailer = *(entity-header CRLF)

我們來模擬一下資料結構:
[Chunk大小][回車][Chunk資料體][回車][Chunk大小][回車][Chunk資料體][回車][0][回車]

注意chunk-size是以十六進位制的ASCII碼錶示的,比如86AE(實際的十六進位制應該是:38366165),計算成長度應該是:34478,表示從回車之後有連續的34478位元組的資料。
跟蹤了www.yahoo.com的返回資料,發現在chunk-size中,還會多一些空格。可能是固定長度為7個位元組,不滿7個位元組的,就以空格補足,空格的ASCII碼是0x20。

以下是解碼過程的虛擬碼:
length := 0//用來記錄解碼後的資料體長度
read chunk-size, chunk-extension (if any) and CRLF//第一次讀取塊大小
while (chunk-size > 0) {//一直迴圈,直到讀取的塊大小為0
read chunk-data and CRLF//讀取塊資料體,以回車結束
append chunk-data to entity-body//新增塊資料體到解碼後實體資料
length := length + chunk-size//更新解碼後的實體長度
read chunk-size and CRLF//讀取新的塊大小
}
read entity-header//以下程式碼讀取全部的頭標記
while (entity-header not empty) {
append entity-header to existing header fields
read entity-header
}
Content-Length := length//頭標記中新增內容長度
Remove "chunked" from Transfer-Encoding//頭標記中移除Transfer-Encoding


有空再研究一下GZip+Chunked是如何編碼的,估計是每個Chunk塊進行一次GZip獨立壓縮。

使用了Chunked,自然會在效能上稍微打點折扣,因為比正常的資料體多出了一些額外的消耗。
但是有一些情況下,必需要使用分塊輸出,這也是不得已而為之.