1. 程式人生 > >HTTP/3 竟然基於 UDP,HTTP 協議這些年都經歷了啥?

HTTP/3 竟然基於 UDP,HTTP 協議這些年都經歷了啥?

聽到 HTTP/3 基於 UDP 協議的訊息,不少人可能都跟我一樣驚呆了。

我們從開始學習網路協議就一定會接觸到 HTTP,而教科書或者老師一直以來說的都是“UDP 不可靠,所以 HTTP 基於 TCP 協議”,雖然偶爾會思考“UDP 與 TCP 都是比較底層的協議,用 TCP 來定義上層的 HTTP 協議,也是需要經過一系列設計和封裝的,那憑什麼 UDP 就不可以試試呢?”、“是成本問題?HTTP 在 TCP 之上設計的成本也不低啊,比如三次握手、四次揮手、滑動視窗等構思精妙的演算法,也都是在經過無數次設計與嘗試之後確定下來的。”……但是總之 HTTP 只能基於 TCP,而不能是 UDP 這一思維還是在一道道試題和一次次程式設計 request-response 的過程中固定在腦海裡。

所以 HTTP/3 不再基於 TCP 而是採用了 UDP,這一訊息還是挺讓人驚訝的。

看到這裡可能有人會驚訝於另一個點:什麼?!HTTP 協議都發展到 v3 了

其實目前正逐漸走向主流的 HTTP 協議是 HTTP/2,它相比於 HTTP/1,大幅度提高了效能,網站只需要升級到新版本協議就可以減少很多之前需要做的效能優化工作,當然相容問題以及如何優雅降級是比較棘手的問題,這也應該是國內目前還不普遍使用 HTTP/2 的重要原因。

雖然 HTTP/2 帶來了許多優點,但是並不代表它已經是完美的了,HTTP/3 就是為了解決 HTTP/2 所存在的一些問題而被推出來的。

本文接下來會從基礎的 HTTP/1 開始講起,從第一代協議到第三代分別針對性地介紹,試圖把 HTTP 這一協議的技術發展過程以簡要通俗的方式分享給讀者,並讓大家明白,為什麼經過這麼多年的發展,HTTP 協議最終竟然採用了不安全的 UDP。

一、HTTP 協議

HTTP 是 HyperText Transfer Protocol(超文字傳輸協議)的縮寫,它是網際網路上應用最為廣泛的一種網路協議,所有 WWW 檔案都必須遵守這個標準。

伴隨著計算機網路和瀏覽器的誕生,HTTP 1.0/1.1 也隨之而來,它建立在 TCP 協議之上,處於計算機網路中的應用層,所以 HTTP 協議的瓶頸及其優化技巧都是基於 TCP 協議本身的特性,例如 TCP 建立連線的 3 次握手和斷開連線的 4 次揮手,以及每次建立連線帶來的 RTT 延遲時間等。

HTTP 1.0 與 1.1 的主要區別在於長連線支援、多路複用、頻寬節約與資料壓縮等,相對於 HTTP/2,本文將其通稱為 HTTP/1。

二、HTTP/1 的缺陷

HTTP/1 在 Web 時代迅速崛起,但是隨著採用日漲,其缺陷也暴露出來。

不管是 1.0 還是 1.1 版本,HTTP/1 都主要存在以下幾個方面的缺陷:

  • 連線無法複用:連線無法複用會導致每次請求都經歷三次握手和慢啟動。三次握手在高延遲的場景下影響較明顯,慢啟動則對大量小檔案請求影響較大(沒有達到最大視窗請求就被終止)。

    • HTTP/1.0 傳輸資料時,每次都需要重新建立連線,增加延遲。
    • HTTP/1.1 雖然加入 keep-alive 可以複用一部分連線,但域名分片等情況下仍然需要建立多個 connection,耗費資源,給伺服器帶來效能壓力。
  • Head-Of-Line Blocking(HOLB,隊頭阻塞):這會導致頻寬無法被充分利用,以及後續健康請求被阻塞。HOLB 是指一系列包(package)因為第一個包被阻塞;當頁面中需要請求很多資源的時候,HOLB 會導致在達到最大請求數量時,剩餘的資源需要等待其它資源請求完成後才能發起請求。

    • HTTP 1.0:下個請求必須在前一個請求返回後才能發出,request-response對按序發生。顯然,如果某個請求長時間沒有返回,那麼接下來的請求就全部阻塞了。
    • HTTP 1.1:嘗試使用 pipeling 來解決,即瀏覽器可以一次性發出多個請求(同個域名、同一條 TCP 連結)。但 pipeling 要求返回是按序的,那麼前一個請求如果很耗時(比如處理大圖片),那麼後面的請求即使伺服器已經處理完,仍會等待前面的請求處理完才開始按序返回。所以,pipeling 只部分解決了 HOLB。

               
                如上圖所示,紅色圈出來的請求就因域名連結數已超過限制,而被掛起等待了一段時間。

  • 協議開銷大: HTTP/1 在使用時,header 裡攜帶的內容過大,在一定程度上增加了傳輸的成本,並且每次請求 header 基本不怎麼變化,尤其在移動端增加使用者流量。
  • 安全因素:HTTP/1 在傳輸資料時,所有傳輸的內容都是明文,客戶端和伺服器端都無法驗證對方的身份,這在一定程度上無法保證資料的安全性。

三、SPDY 協議

因為 HTTP/1 的問題,我們會引入雪碧圖、將小圖內聯、使用多個域名等等的方式來提高效能。不過這些優化都繞開了協議本身,直到 2009 年,谷歌公開了自行研發的 SPDY 協議,它主要解決 HTTP/1.1 效率不高的問題。

直到這時,才算是正式改造了 HTTP 協議本身。SPDY 進行延遲降低、header 壓縮等改進,其實踐證明了這些優化的效果,也最終帶來 HTTP/2 的誕生。

SPDY 協議在 Chrome 瀏覽器上證明可行以後,就被當作 HTTP/2 的基礎,主要特性都在 HTTP/2 之中得到繼承,下面我們就來講講這一部分內容。

四、HTTP/2

2015 年,繼承於 SPDY 的 HTTP/2 協議釋出了。HTTP/2 是 HTTP/1 的替代品,但它不是重寫,協議中還保留著第一代的一些內容,比如 HTTP 方法、狀態碼與語義等都與 HTTP/1 一樣。

HTTP/2 基於SPDY3,專注於效能,最大的一個目標是在使用者和網站間只用一個連線。

HTTP/2 由兩個規範組成:

  1. Hypertext Transfer Protocol version 2 - RFC7540
  2. HPACK - Header Compression for HTTP/2 - RFC7541

五、HTTP/2 特性

二進位制傳輸

HTTP/2 採用二進位制格式傳輸資料,而非 HTTP/1 的文字格式,二進位制協議解析起來更高效。

HTTP/1 的請求和響應報文,都是由起始行、首部和實體正文(可選)組成,各部分之間以文字換行符分隔。HTTP/2 將請求和響應資料分割為更小的幀,並且它們採用二進位制編碼

接下來我們介紹幾個重要的概念:

  • 流(stream):流是連線中的一個虛擬通道,可以承載雙向的訊息;每個流都有一個唯一的整數識別符號(1、2…N)
  • 訊息(message):指邏輯上的 HTTP 訊息,比如請求、響應等,由一或多個幀組成
  • 幀(frame):HTTP/2 通訊的最小單位,每個幀包含幀首部,至少也會標識出當前幀所屬的流,承載著特定型別的資料,如 HTTP 首部、負荷等

                

HTTP/2 中,同域名下所有通訊都在單個連線上完成,該連線可以承載任意數量的雙向資料流。每個資料流都以訊息的形式傳送,而訊息又由一個或多個幀組成。多個幀之間可以亂序傳送,根據幀首部的流標識可以重新組裝。

多路複用

在 HTTP/2 中引入了多路複用技術。多路複用很好地解決了瀏覽器限制同一個域名下的請求數量的問題,同時也更容易實現全速傳輸,畢竟新開一個 TCP 連線都需要慢慢提升傳輸速度。

大家可以通過這個連結(http2.akamai.com/demo)直觀感受下 HTTP/2 比 HTTP/1 到底快了多少。

在 HTTP/2 中,有了二進位制分幀之後,HTTP/2 不再依賴 TCP 連結去實現多流並行了,像前邊提到的,在 HTTP/2 中:

  • 同域名下所有通訊都在單個連線上完成
  • 單個連線可以承載任意數量的雙向資料流
  • 資料流以訊息的形式傳送,而訊息又由一個或多個幀組成,多個幀之間可以亂序傳送,因為根據幀首部的流標識可以重新組裝

這一特性,使效能有了極大提升:

  • 同個域名只需要佔用一個 TCP 連線,使用一個連線並行傳送多個請求和響應,消除了因多個 TCP 連線而帶來的延時和記憶體消耗
  • 並行交錯地傳送多個請求,請求之間互不影響
  • 並行交錯地傳送多個響應,響應之間互不干擾
  • 在 HTTP/2 中,每個請求都可以帶一個 31 bit 的優先值,數值越大優先順序越低,0 表示最高優先順序。有了這個優先值,客戶端和伺服器就可以在處理不同流時採取不同的策略,以最優的方式傳送流、訊息和幀。

                
如上圖所示,多路複用技術可以只通過一個 TCP 連線傳輸所有的請求資料。

Header 壓縮

在 HTTP/1 中,我們使用文字的形式傳輸 header,在 header 攜帶 cookie 的情況下,可能每次都需要重複傳輸幾百到幾千位元組。

為了減少這塊的資源消耗並提升效能, HTTP/2 對這些首部採取了壓縮策略:

  • HTTP/2 在客戶端和伺服器端使用“首部表”來跟蹤和儲存之前傳送的鍵-值對,對於相同的資料,不再通過每次請求和響應傳送
  • 首部表在 HTTP/2 的連線存續期內始終存在,由客戶端和伺服器共同漸進地更新
  • 每個新的首部鍵-值對要麼被追加到當前表的末尾,要麼替換表中之前的值

例如下圖中的兩個請求, 請求 1 傳送了所有頭部欄位,第二個請求則只需要傳送差異資料,這樣可以減少冗餘資料,降低開銷:

Server Push

Server Push 即服務端能通過 push 的方式將客戶端需要的內容預先推送過去,也叫“cache push”。

可以想象以下情況:某些資源客戶端是一定會請求的,這時就可以採取服務端 push 的技術,提前給客戶端推送必要的資源,這樣就可以相對減少一點延遲時間。當然在瀏覽器相容的情況下你也可以使用 prefetch。

例如服務端可以主動把 JS 和 CSS 檔案推送給客戶端,而不需要客戶端解析 HTML 時再發送這些請求。

服務端可以主動推送,客戶端也有權利選擇是否接收。如果服務端推送的資源已經被瀏覽器快取過,瀏覽器可以通過傳送 RST_STREAM 幀來拒收。主動推送也遵守同源策略,換句話說,伺服器不能隨便將第三方資源推送給客戶端,而必須是經過雙方確認才行。

六、HTTP/3

雖然 HTTP/2 解決了很多之前舊版本的問題,但是它還是存在一個巨大的問題,主要是底層支撐的 TCP 協議造成的。

上文提到 HTTP/2 使用了多路複用,一般來說同一域名下只需要使用一個 TCP 連線。但當這個連線中出現了丟包的情況,那就會導致 HTTP/2 的表現情況反倒不如 HTTP/1 了。

因為在出現丟包的情況下,整個 TCP 都要開始等待重傳,也就導致了後面的所有資料都被阻塞了。但是對於 HTTP/1.1 來說,可以開啟多個 TCP 連線,出現這種情況反到只會影響其中一個連線,剩餘的 TCP 連線還可以正常傳輸資料

那麼可能就會有人考慮到去修改 TCP 協議,其實這已經是一件不可能完成的任務了,因為 TCP 存在的時間實在太長,已經充斥在各種裝置中,並且這個協議是由作業系統實現的,更新起來不大現實。

基於這個原因,Google 就自己架起爐灶搞了一個基於 UDP 協議的 QUIC 協議,並且使用在了 HTTP/3 上,HTTP/3 之前名為 HTTP-over-QUIC,從這個名字中我們也可以發現,HTTP/3 最大的改造就是使用了 QUIC。

QUIC 雖然基於 UDP,但是在原本的基礎上新增了很多功能,接下來我們重點介紹幾個 QUIC 功能。

QUIC 功能

  • 0RTT

通過使用類似 TCP 快速開啟的技術,快取當前會話的上下文,在下次恢復會話的時候,只需要將之前的快取傳遞給服務端驗證通過就可以進行傳輸了。0RTT 建連可以說是 QUIC 相比 HTTP/2 最大的效能優勢。那什麼是 0RTT 建連呢?

這裡面有兩層含義:

1、傳輸層 0RTT 就能建立連線。

2、加密層 0RTT 就能建立加密連線。

因為這裡考慮到安全性,我們就拿加了 LTS 的“安全的 HTTP 協議”HTTPS 來對比。上圖左邊是 HTTPS 的一次完全握手的建連過程,需要 3 個 RTT,就算是會話複用也需要至少 2 個 RTT。

而 QUIC 呢?由於建立在 UDP 的基礎上,同時又實現了 0RTT 的安全握手,所以在大部分情況下,只需要 0 個 RTT 就能實現資料傳送,在實現前向加密的基礎上,並且 0RTT 的成功率相比 TLS 的會話記錄單要高很多。

  • 多路複用

QUIC 原生實現了多路複用功能,並且傳輸的單個數據流可以保證有序交付且不會影響其它資料流,這樣的技術就解決了前邊提到的 TCP 多路複用存在的問題。

同 HTTP/2 一樣,同一個 QUIC 連線上可以建立多個 stream 來發送多個 HTTP 請求,但是,QUIC 是基於 UDP 的,因為一個連線上的多個 stream 之間沒有依賴,所以不存在 HTTP/2 中的問題。比如下圖中 stream2 丟了一個 UDP 包,不會影響後面跟著 Stream3 和 Stream4,不存在 TCP 隊頭阻塞。雖然 stream2 的那個包需要重新傳,但是 stream3、stream4 的包無需等待就可以發給使用者。


另外 QUIC 在移動端的表現也會比 TCP 好。因為 TCP 是基於 IP 和埠去識別連線的,這種方式在多變的移動端網路環境下是很脆弱的。而 QUIC 是通過 ID 的方式去識別一個連線,不管你網路環境如何變化,只要 ID 不變,就能迅速重連上。

  • 加密認證的報文

TCP 協議頭部沒有經過任何加密和認證,所以在傳輸過程中很容易被中間網路裝置篡改、注入和竊聽,比如修改序列號與滑動視窗。這些行為有可能是出於效能優化,也有可能是主動攻擊。

相比之下,QUIC 的 packet 可以說是武裝到了牙齒。除了個別報文比如 PUBLIC_RESET 和 CHLO,所有報文頭部都是經過認證的,報文 Body 都是經過加密的。

這樣只要是針對 QUIC 報文進行了任何修改,接收端都能夠及時發現,有效地降低了安全風險。

如上圖所示,紅色部分是 Stream Frame 的報文頭部,有認證;綠色部分是報文內容,全部經過加密。

  • 前向糾錯機制

QUIC 協議有一個非常獨特的特性,稱為前向糾錯(Forward Error Correction,FEC),每個資料包除了它本身的內容之外,還包括了部分其它資料包的資料,因此少量的丟包可以通過其它包的冗餘資料直接組裝而無需重傳。

前向糾錯犧牲了每個資料包可以傳送資料的上限,但是減少了因為丟包導致的資料重傳次數。這會取得更好的效果,因為資料重傳將會消耗更多的時間,包括確認資料包丟失、請求重傳與等待新資料包等步驟。

假如說這次我要傳送三個包,那麼協議會算出這三個包的異或值並單獨發出一個校驗包,也就是總共發出了四個包,當出現其中的非校驗包丟包的情況時,可以通過另外三個包計算出丟失的資料包的內容。當然這種技術只能使用在丟失一個包的情況下,如果出現丟失多個包就不能使用糾錯機制了,只能使用重傳的方式了

七、總結

  • HTTP/1 有連線無法複用、隊頭阻塞、協議開銷大和安全因素等多個缺陷
  • HTTP/2 通過多路複用、二進位制流與 Header 壓縮等技術,極大地提高了效能,但是還是存在一些問題
  • HTTP/3 拋棄 TCP 協議,以全新的視角重新設計 HTTP。其底層支撐是 QUIC 協議,該協議基於 UDP,有 UDP 特有的優勢,同時它又取了 TCP 中的精華,實現了即快又可靠的協議

從 HTTP/1 到 HTTP/3,HTTP 協議經過不斷進化,效能越來越高,在這個過程中,底層協議甚至從 TCP 改為了之前被認定為不適合 UDP,這其中不斷探索的設計思想值得學習。雖然本文是簡單的介紹,但已經把這一演進過程簡單地總結了出來,希望讀者能夠有所收穫。

作者介紹

浪裡行舟,專注於前端領域。個人公眾號:前端工匠,致力於推送適合初中級工程師快速吸