1. 程式人生 > >面試官:換人!他連 TCP 這幾個引數都不懂

面試官:換人!他連 TCP 這幾個引數都不懂

每日一句英語學習,每天進步一點點:

前言

TCP 效能的提升不僅考察 TCP 的理論知識,還考察了對於操心繫統提供的核心引數的理解與應用。

TCP 協議是由作業系統實現,所以作業系統提供了不少調節 TCP 的引數。

Linux TCP 引數

如何正確有效的使用這些引數,來提高 TCP 效能是一個不那麼簡單事情。我們需要針對 TCP 每個階段的問題來對症下藥,而不是病急亂投醫。

接下來,將以三個角度來闡述提升 TCP 的策略,分別是:

  • TCP 三次握手的效能提升;
  • TCP 四次揮手的效能提升;
  • TCP 資料傳輸的效能提升;
本節提綱

正文

01 TCP 三次握手的效能提升

TCP 是面向連線的、可靠的、雙向傳輸的傳輸層通訊協議,所以在傳輸資料之前需要經過三次握手才能建立連線。

三次握手與資料傳輸

那麼,三次握手的過程在一個 HTTP 請求的平均時間佔比 10% 以上,在網路狀態不佳、高併發或者遭遇 SYN 攻擊等場景中,如果不能有效正確的調節三次握手中的引數,就會對效能產生很多的影響。

如何正確有效的使用這些引數,來提高 TCP 三次握手的效能,這就需要理解「三次握手的狀態變遷」,這樣當出現問題時,先用 netstat 命令檢視是哪個握手階段出現了問題,再來對症下藥,而不是病急亂投醫。

TCP 三次握手的狀態變遷

客戶端和服務端都可以針對三次握手優化效能。主動發起連線的客戶端優化相對簡單些,而服務端需要監聽埠,屬於被動連線方,其間保持許多的中間狀態,優化方法相對複雜一些。

所以,客戶端(主動發起連線方)和服務端(被動連線方)優化的方式是不同的,接下來分別針對客戶端和服務端優化。

客戶端優化

三次握手建立連線的首要目的是「同步序列號」。

只有同步了序列號才有可靠傳輸,TCP 許多特性都依賴於序列號實現,比如流量控制、丟包重傳等,這也是三次握手中的報文稱為 SYN 的原因,SYN 的全稱就叫 Synchronize Sequence Numbers(同步序列號)。

TCP 頭部

SYN_SENT 狀態的優化

客戶端作為主動發起連線方,首先它將傳送 SYN 包,於是客戶端的連線就會處於 SYN_SENT 狀態。

客戶端在等待服務端回覆的 ACK 報文,正常情況下,伺服器會在幾毫秒內返回 SYN+ACK ,但如果客戶端長時間沒有收到 SYN+ACK 報文,則會重發 SYN 包,重發的次數由 tcp_syn_retries 引數控制,預設是 5 次:

通常,第一次超時重傳是在 1 秒後,第二次超時重傳是在 2 秒,第三次超時重傳是在 4 秒後,第四次超時重傳是在 8 秒後,第五次是在超時重傳 16 秒後。沒錯,每次超時的時間是上一次的 2 倍。

當第五次超時重傳後,會繼續等待 32 秒,如果仍然服務端沒有迴應 ACK,客戶端就會終止三次握手。

所以,總耗時是 1+2+4+8+16+32=63 秒,大約 1 分鐘左右。

SYN 超時重傳

你可以根據網路的穩定性和目標伺服器的繁忙程度修改 SYN 的重傳次數,調整客戶端的三次握手時間上限。比如內網中通訊時,就可以適當調低重試次數,儘快把錯誤暴露給應用程式。

服務端優化

當服務端收到 SYN 包後,服務端會立馬回覆 SYN+ACK 包,表明確認收到了客戶端的序列號,同時也把自己的序列號發給對方。

此時,服務端出現了新連線,狀態是 SYN_RCV。在這個狀態下,Linux 核心就會建立一個「半連線佇列」來維護「未完成」的握手資訊,當半連線佇列溢位後,服務端就無法再建立新的連線。

半連線佇列與全連線佇列

SYN 攻擊,攻擊的是就是這個半連線佇列。

如何檢視由於 SYN 半連線佇列已滿,而被丟棄連線的情況?

我們可以通過該 netstat -s 命令給出的統計結果中, 可以得到由於半連線佇列已滿,引發的失敗次數:

上面輸出的數值是累計值,表示共有多少個 TCP 連線因為半連線佇列溢位而被丟棄。隔幾秒執行幾次,如果有上升的趨勢,說明當前存在半連線佇列溢位的現象。

如何調整 SYN 半連線佇列大小?

要想增大半連線佇列,不能只單純增大 tcp_max_syn_backlog 的值,還需一同增大 somaxconn 和 backlog,也就是增大 accept 佇列。否則,只單純增大 tcp_max_syn_backlog 是無效的。

增大 tcp_max_syn_backlog 和 somaxconn 的方法是修改 Linux 核心引數:

增大 backlog 的方式,每個 Web 服務都不同,比如 Nginx 增大 backlog 的方法如下:

最後,改變了如上這些引數後,要重啟 Nginx 服務,因為 SYN 半連線佇列和 accept 佇列都是在 listen() 初始化的。

如果 SYN 半連線佇列已滿,只能丟棄連線嗎?

並不是這樣,開啟 syncookies 功能就可以在不使用 SYN 半連線佇列的情況下成功建立連線。

syncookies 的工作原理:伺服器根據當前狀態計算出一個值,放在己方發出的 SYN+ACK 報文中發出,當客戶端返回 ACK 報文時,取出該值驗證,如果合法,就認為連線建立成功,如下圖所示。

開啟 syncookies 功能

syncookies 引數主要有以下三個值:

  • 0 值,表示關閉該功能;
  • 1 值,表示僅當 SYN 半連線佇列放不下時,再啟用它;
  • 2 值,表示無條件開啟功能;

那麼在應對 SYN 攻擊時,只需要設定為 1 即可:

SYN_RCV 狀態的優化

當客戶端接收到伺服器發來的 SYN+ACK 報文後,就會回覆 ACK 給伺服器,同時客戶端連線狀態從 SYN_SENT 轉換為 ESTABLISHED,表示連線建立成功。

伺服器端連線成功建立的時間還要再往後,等到服務端收到客戶端的 ACK 後,服務端的連線狀態才變為 ESTABLISHED。

如果伺服器沒有收到 ACK,就會重發 SYN+ACK 報文,同時一直處於 SYN_RCV 狀態。

當網路繁忙、不穩定時,報文丟失就會變嚴重,此時應該調大重發次數。反之則可以調小重發次數。修改重發次數的方法是,調整 tcp_synack_retries 引數:

tcp_synack_retries 的預設重試次數是 5 次,與客戶端重傳 SYN 類似,它的重傳會經歷 1、2、4、8、16 秒,最後一次重傳後會繼續等待 32 秒,如果服務端仍然沒有收到 ACK,才會關閉連線,故共需要等待 63 秒。

伺服器收到 ACK 後連線建立成功,此時,核心會把連線從半連線佇列移除,然後建立新的完全的連線,並將其新增到 accept 佇列,等待程序呼叫 accept 函式時把連線取出來。

如果程序不能及時地呼叫 accept 函式,就會造成 accept 佇列(也稱全連線佇列)溢位,最終導致建立好的 TCP 連線被丟棄。

accept 佇列溢位

accept 佇列已滿,只能丟棄連線嗎?

丟棄連線只是 Linux 的預設行為,我們還可以選擇向客戶端傳送 RST 復位報文,告訴客戶端連線已經建立失敗。開啟這一功能需要將 tcp_abort_on_overflow 引數設定為 1。

tcp_abort_on_overflow 共有兩個值分別是 0 和 1,其分別表示:

  • 0 :如果 accept 佇列滿了,那麼 server 扔掉 client 發過來的 ack ;
  • 1 :如果 accept 佇列滿了,server 傳送一個 RST 包給 client,表示廢掉這個握手過程和這個連線;

如果要想知道客戶端連線不上服務端,是不是服務端 TCP 全連線佇列滿的原因,那麼可以把 tcp_abort_on_overflow 設定為 1,這時如果在客戶端異常中可以看到很多 connection reset by peer 的錯誤,那麼就可以證明是由於服務端 TCP 全連線佇列溢位的問題。

通常情況下,應當把 tcp_abort_on_overflow 設定為 0,因為這樣更有利於應對突發流量。

舉個例子,當 accept 佇列滿導致伺服器丟掉了 ACK,與此同時,客戶端的連線狀態卻是 ESTABLISHED,客戶端程序就在建立好的連線上傳送請求。只要伺服器沒有為請求回覆 ACK,客戶端的請求就會被多次「重發」。如果伺服器上的程序只是短暫的繁忙造成 accept 佇列滿,那麼當 accept 佇列有空位時,再次接收到的請求報文由於含有 ACK,仍然會觸發伺服器端成功建立連線。

tcp_abort_on_overflow 為 0 可以應對突發流量

所以,tcp_abort_on_overflow 設為 0 可以提高連線建立的成功率,只有你非常肯定 TCP 全連線佇列會長期溢位時,才能設定為 1 以儘快通知客戶端。

如何調整 accept 佇列的長度呢?

accept 佇列的長度取決於 somaxconn 和 backlog 之間的最小值,也就是 min(somaxconn, backlog),其中:

  • somaxconn 是 Linux 核心的引數,預設值是 128,可以通過 net.core.somaxconn 來設定其值;
  • backlog 是 listen(int sockfd, int backlog) 函式中的 backlog 大小;

Tomcat、Nginx、Apache 常見的 Web 服務的 backlog 預設值都是 511。

如何檢視服務端程序 accept 佇列的長度?

可以通過 ss -ltn 命令檢視:

  • Recv-Q:當前 accept 佇列的大小,也就是當前已完成三次握手並等待服務端 accept() 的 TCP 連線;
  • Send-Q:accept 佇列最大長度,上面的輸出結果說明監聽 8088 埠的 TCP 服務,accept 佇列的最大長度為 128;

如何檢視由於 accept 連線佇列已滿,而被丟棄的連線?

當超過了 accept 連線佇列,服務端則會丟掉後續進來的 TCP 連線,丟掉的 TCP 連線的個數會被統計起來,我們可以使用 netstat -s 命令來檢視:

上面看到的 41150 times ,表示 accept 佇列溢位的次數,注意這個是累計值。可以隔幾秒鐘執行下,如果這個數字一直在增加的話,說明 accept 連線佇列偶爾滿了。

如果持續不斷地有連線因為 accept 佇列溢位被丟棄,就應該調大 backlog 以及 somaxconn 引數。

如何繞過三次握手?

以上我們只是在對三次握手的過程進行優化,接下來我們看看如何繞過三次握手傳送資料。

三次握手建立連線造成的後果就是,HTTP 請求必須在一個 RTT(從客戶端到伺服器一個往返的時間)後才能傳送。

常規 HTTP 請求

在 Linux 3.7 核心版本之後,提供了 TCP Fast Open 功能,這個功能可以減少 TCP 連線建立的時延。

接下來說說,TCP Fast Open 功能的工作方式。

開啟 TCP Fast Open 功能

在客戶端首次建立連線時的過程:

  1. 客戶端傳送 SYN 報文,該報文包含 Fast Open 選項,且該選項的 Cookie 為空,這表明客戶端請求 Fast Open Cookie;
  2. 支援 TCP Fast Open 的伺服器生成 Cookie,並將其置於 SYN-ACK 資料包中的 Fast Open 選項以發回客戶端;
  3. 客戶端收到 SYN-ACK 後,本地快取 Fast Open 選項中的 Cookie。

所以,第一次發起 HTTP GET 請求的時候,還是需要正常的三次握手流程。

之後,如果客戶端再次向伺服器建立連線時的過程:

  1. 客戶端傳送 SYN 報文,該報文包含「資料」(對於非 TFO 的普通 TCP 握手過程,SYN 報文中不包含「資料」)以及此前記錄的 Cookie;
  2. 支援 TCP Fast Open 的伺服器會對收到 Cookie 進行校驗:如果 Cookie 有效,伺服器將在 SYN-ACK 報文中對 SYN 和「資料」進行確認,伺服器隨後將「資料」遞送至相應的應用程式;如果 Cookie 無效,伺服器將丟棄 SYN 報文中包含的「資料」,且其隨後發出的 SYN-ACK 報文將只確認 SYN 的對應序列號;
  3. 如果伺服器接受了 SYN 報文中的「資料」,伺服器可在握手完成之前傳送「資料」,這就減少了握手帶來的 1 個 RTT 的時間消耗;
  4. 客戶端將傳送 ACK 確認伺服器發回的 SYN 以及「資料」,但如果客戶端在初始的 SYN 報文中傳送的「資料」沒有被確認,則客戶端將重新發送「資料」;
  5. 此後的 TCP 連線的資料傳輸過程和非 TFO 的正常情況一致。

所以,之後發起 HTTP GET 請求的時候,可以繞過三次握手,這就減少了握手帶來的 1 個 RTT 的時間消耗。

注:客戶端在請求並存儲了 Fast Open Cookie 之後,可以不斷重複 TCP Fast Open 直至伺服器認為 Cookie 無效(通常為過期)。

Linux 下怎麼開啟 TCP Fast Open 功能呢?

在 Linux 系統中,可以通過設定 tcp_fastopn 核心引數,來開啟 Fast Open 功能:

tcp_fastopn 各個值的意義:

  • 0 關閉
  • 1 作為客戶端使用 Fast Open 功能
  • 2 作為服務端使用 Fast Open 功能
  • 3 無論作為客戶端還是伺服器,都可以使用 Fast Open 功能

TCP Fast Open 功能需要客戶端和服務端同時支援,才有效果。

小結

本小結主要介紹了關於優化 TCP 三次握手的幾個 TCP 引數。

三次握手優化策略

客戶端的優化

當客戶端發起 SYN 包時,可以通過 tcp_syn_retries 控制其重傳的次數。

服務端的優化

當服務端 SYN 半連線佇列溢位後,會導致後續連線被丟棄,可以通過 netstat -s 觀察半連線佇列溢位的情況,如果 SYN 半連線佇列溢位情況比較嚴重,可以通過 tcp_max_syn_backlog、somaxconn、backlog 引數來調整 SYN 半連線佇列的大小。

服務端回覆 SYN+ACK 的重傳次數由 tcp_synack_retries 引數控制。如果遭受 SYN 攻擊,應把 tcp_syncookies 引數設定為 1,表示僅在 SYN 佇列滿後開啟 syncookie 功能,可以保證正常的連線成功建立。

服務端收到客戶端返回的 ACK,會把連線移入 accpet 佇列,等待進行呼叫 accpet() 函式取出連線。

可以通過 ss -lnt 檢視服務端程序的 accept 佇列長度,如果 accept 佇列溢位,系統預設丟棄 ACK,如果可以把 tcp_abort_on_overflow 設定為 1 ,表示用 RST 通知客戶端連線建立失敗。

如果 accpet 佇列溢位嚴重,可以通過 listen 函式的 backlog 引數和 somaxconn 系統引數提高佇列大小,accept 佇列長度取決於 min(backlog, somaxconn)。

繞過三次握手

TCP Fast Open 功能可以繞過三次握手,使得 HTTP 請求減少了 1 個 RTT 的時間,Linux 下可以通過 tcp_fastopen 開啟該功能,同時必須保證服務端和客戶端同時支援。


02 TCP 四次揮手的效能提升

接下來,我們一起看看針對 TCP 四次揮手關不連線時,如何優化效能。

在開始之前,我們得先了解四次揮手狀態變遷的過程。

客戶端和服務端雙方都可以主動斷開連線,通常先關閉連線的一方稱為主動方,後關閉連線的一方稱為被動方。

客戶端主動關閉

可以看到,四次揮手過程只涉及了兩種報文,分別是 FIN 和 ACK:

  • FIN 就是結束連線的意思,誰發出 FIN 報文,就表示它將不會再發送任何資料,關閉這一方向上的傳輸通道;
  • ACK 就是確認的意思,用來通知對方:你方的傳送通道已經關閉;

四次揮手的過程:

  • 當主動方關閉連線時,會發送 FIN 報文,此時傳送方的 TCP 連線將從 ESTABLISHED 變成 FIN_WAIT1。
  • 當被動方收到 FIN 報文後,核心會自動回覆 ACK 報文,連線狀態將從 ESTABLISHED 變成 CLOSE_WAIT,表示被動方在等待程序呼叫 close 函式關閉連線。
  • 當主動方收到這個 ACK 後,連線狀態由 FIN_WAIT1 變為 FIN_WAIT2,也就是表示主動方的傳送通道就關閉了。
  • 當被動方進入 CLOSE_WAIT 時,被動方還會繼續處理資料,等到程序的 read 函式返回 0 後,應用程式就會呼叫 close 函式,進而觸發核心傳送 FIN 報文,此時被動方的連線狀態變為 LAST_ACK。
  • 當主動方收到這個 FIN 報文後,核心會回覆 ACK 報文給被動方,同時主動方的連線狀態由 FIN_WAIT2 變為 TIME_WAIT,在 Linux 系統下大約等待 1 分鐘後,TIME_WAIT 狀態的連線才會徹底關閉。
  • 當被動方收到最後的 ACK 報文後,被動方的連線就會關閉。

你可以看到,每個方向都需要一個 FIN 和一個 ACK,因此通常被稱為四次揮手。

這裡一點需要注意是:主動關閉連線的,才有 TIME_WAIT 狀態。

主動關閉方和被動關閉方優化的思路也不同,接下來分別說說如何優化他們。

主動方的優化

關閉的連線的方式通常有兩種,分別是 RST 報文關閉和 FIN 報文關閉。

如果程序異常退出了,核心就會發送 RST 報文來關閉,它可以不走四次揮手流程,是一個暴力關閉連線的方式。

安全關閉連線的方式必須通過四次揮手,它由程序呼叫 closeshutdown 函式發起 FIN 報文(shutdown 引數須傳入 SHUT_WR 或者 SHUT_RDWR 才會傳送 FIN)。

呼叫 close 函式 和 shutdown 函式有什麼區別?

呼叫了 close 函式意味著完全斷開連線,完全斷開不僅指無法傳輸資料,而且也不能傳送資料。 此時,呼叫了 close 函式的一方的連線叫做「孤兒連線」,如果你用 netstat -p 命令,會發現連線對應的程序名為空。

使用 close 函式關閉連線是不優雅的。於是,就出現了一種優雅關閉連線的 shutdown 函式,它可以控制只關閉一個方向的連線:

第二個引數決定斷開連線的方式,主要有以下三種方式:

  • SHUT_RD(0):關閉連線的「讀」這個方向,如果接收緩衝區有已接收的資料,則將會被丟棄,並且後續再收到新的資料,會對資料進行 ACK,然後悄悄地丟棄。也就是說,對端還是會接收到 ACK,在這種情況下根本不知道資料已經被丟棄了。
  • SHUT_WR(1):關閉連線的「寫」這個方向,這就是常被稱為「半關閉」的連線。如果傳送緩衝區還有未傳送的資料,將被立即傳送出去,併發送一個 FIN 報文給對端。
  • SHUT_RDWR(2):相當於 SHUT_RD 和 SHUT_WR 操作各一次,關閉套接字的讀和寫兩個方向。

close 和 shutdown 函式都可以關閉連線,但這兩種方式關閉的連線,不只功能上有差異,控制它們的 Linux 引數也不相同。

FIN_WAIT1 狀態的優化

主動方傳送 FIN 報文後,連線就處於 FIN_WAIT1 狀態,正常情況下,如果能及時收到被動方的 ACK,則會很快變為 FIN_WAIT2 狀態。

但是當遲遲收不到對方返回的 ACK 時,連線就會一直處於 FIN_WAIT1 狀態。此時,核心會定時重發 FIN 報文,其中重發次數由 tcp_orphan_retries 引數控制(注意,orphan 雖然是孤兒的意思,該引數卻不只對孤兒連線有效,事實上,它對所有 FIN_WAIT1 狀態下的連線都有效),預設值是 0。

你可能會好奇,這 0 表示幾次?實際上當為 0 時,特指 8 次,從下面的核心原始碼可知:

如果 FIN_WAIT1 狀態連線很多,我們就需要考慮降低 tcp_orphan_retries 的值,當重傳次數超過 tcp_orphan_retries 時,連線就會直接關閉掉。

對於普遍正常情況時,調低 tcp_orphan_retries 就已經可以了。如果遇到惡意攻擊,FIN 報文根本無法傳送出去,這由 TCP 兩個特性導致的:

  • 首先,TCP 必須報文報文是有序傳送的,FIN 報文也不例外,當傳送緩衝區還有資料沒有傳送時,FIN 報文也不能提前傳送。
  • 其次,TCP 有流量控制功能,當接收方接收視窗為 0 時,傳送方就不能再發送資料。所以,當攻擊者下載大檔案時,就可以通過接收視窗設為 0 ,這就會使得 FIN 報文都無法傳送出去,那麼連線會一直處於 FIN_WAIT1 狀態。

解決這種問題的方法,是調整 tcp_max_orphans 引數,它定義了「孤兒連線」的最大數量:

當程序呼叫了 close 函式關閉連線,此時連線就會是「孤兒連線」,因為它無法在傳送和接收資料。Linux 系統為了防止孤兒連線過多,導致系統資源長時間被佔用,就提供了 tcp_max_orphans 引數。如果孤兒連線數量大於它,新增的孤兒連線將不再走四次揮手,而是直接傳送 RST 復位報文強制關閉。

FIN_WAIT2 狀態的優化

當主動方收到 ACK 報文後,會處於 FIN_WAIT2 狀態,就表示主動方的傳送通道已經關閉,接下來將等待對方傳送 FIN 報文,關閉對方的傳送通道。

這時,如果連線是用 shutdown 函式關閉的,連線可以一直處於 FIN_WAIT2 狀態,因為它可能還可以傳送或接收資料。但對於 close 函式關閉的孤兒連線,由於無法在傳送和接收資料,所以這個狀態不可以持續太久,而 tcp_fin_timeout 控制了這個狀態下連線的持續時長,預設值是 60 秒:

它意味著對於孤兒連線(呼叫 close 關閉的連線),如果在 60 秒後還沒有收到 FIN 報文,連線就會直接關閉。

這個 60 秒不是隨便決定的,它與 TIME_WAIT 狀態持續的時間是相同的,後面我們在來說說為什麼是 60 秒。

TIME_WAIT 狀態的優化

TIME_WAIT 是主動方四次揮手的最後一個狀態,也是最常遇見的狀態。

當收到被動方發來的 FIN 報文後,主動方會立刻回覆 ACK,表示確認對方的傳送通道已經關閉,接著就處於 TIME_WAIT 狀態。在 Linux 系統,TIME_WAIT 狀態會持續 60 秒後才會進入關閉狀態。

TIME_WAIT 狀態的連線,在主動方看來確實快已經關閉了。然後,被動方沒有收到 ACK 報文前,還是處於 LAST_ACK 狀態。如果這個 ACK 報文沒有到達被動方,被動方就會重發 FIN 報文。重發次數仍然由前面介紹過的 tcp_orphan_retries 引數控制。

TIME-WAIT 的狀態尤其重要,主要是兩個原因:

  • 防止具有相同「四元組」的「舊」資料包被收到;
  • 保證「被動關閉連線」的一方能被正確的關閉,即保證最後的 ACK 能讓被動關閉方接收,從而幫助其正常關閉;

原因一:防止舊連線的資料包

TIME-WAIT 的一個作用是防止收到歷史資料,從而導致資料錯亂的問題。

假設 TIME-WAIT 沒有等待時間或時間過短,被延遲的資料包抵達後會發生什麼呢?

接收到歷史資料的異常
  • 如上圖黃色框框服務端在關閉連線之前傳送的 SEQ = 301 報文,被網路延遲了。
  • 這時有相同埠的 TCP 連線被複用後,被延遲的 SEQ = 301 抵達了客戶端,那麼客戶端是有可能正常接收這個過期的報文,這就會產生資料錯亂等嚴重的問題。

所以,TCP 就設計出了這麼一個機制,經過 2MSL 這個時間,足以讓兩個方向上的資料包都被丟棄,使得原來連線的資料包在網路中都自然消失,再出現的資料包一定都是新建立連線所產生的。

原因二:保證連線正確關閉

TIME-WAIT 的另外一個作用是等待足夠的時間以確保最後的 ACK 能讓被動關閉方接收,從而幫助其正常關閉。

假設 TIME-WAIT 沒有等待時間或時間過短,斷開連線會造成什麼問題呢?

沒有確保正常斷開的異常
  • 如上圖紅色框框客戶端四次揮手的最後一個 ACK 報文如果在網路中被丟失了,此時如果客戶端 TIME-WAIT 過短或沒有,則就直接進入了 CLOSE 狀態了,那麼服務端則會一直處在 LASE-ACK 狀態。
  • 當客戶端發起建立連線的 SYN 請求報文後,服務端會發送 RST 報文給客戶端,連線建立的過程就會被終止。

我們再回過頭來看看,為什麼 TIME_WAIT 狀態要保持 60 秒呢?這與孤兒連線 FIN_WAIT2 狀態預設保留 60 秒的原理是一樣的,因為這兩個狀態都需要保持 2MSL 時長。MSL 全稱是 Maximum Segment Lifetime,它定義了一個報文在網路中的最長生存時間(報文每經過一次路由器的轉發,IP 頭部的 TTL 欄位就會減 1,減到 0 時報文就被丟棄,這就限制了報文的最長存活時間)。

為什麼是 2 MSL 的時長呢?這其實是相當於至少允許報文丟失一次。比如,若 ACK 在一個 MSL 內丟失,這樣被動方重發的 FIN 會在第 2 個 MSL 內到達,TIME_WAIT 狀態的連線可以應對。

為什麼不是 4 或者 8 MSL 的時長呢?你可以想象一個丟包率達到百分之一的糟糕網路,連續兩次丟包的概率只有萬分之一,這個概率實在是太小了,忽略它比解決它更具價效比。

因此,TIME_WAIT 和 FIN_WAIT2 狀態的最大時長都