1. 程式人生 > >網路程式設計懶人入門(一):快速理解網路通訊協議(上篇)

網路程式設計懶人入門(一):快速理解網路通訊協議(上篇)

1、寫在前面

論壇和群裡常會有技術同行打算自已開發IM或者訊息推送系統,很多時候連基本的網路程式設計理論(如網路協議等)都不瞭解,就貿然定方案、寫程式碼,顯得非常盲目且充滿技術風險。即時通訊網論壇裡精心整理了《[通俗易懂]深入理解TCP協議》、《不為人知的網路程式設計》、《P2P技術詳解》、《高效能網路程式設計》這幾個網路程式設計的系列文章,甚至還有圖文並貌+實戰程式碼的《NIO框架入門》等等。資料雖好,無奈很多同行或許是時間緊迫,也或許是心態浮躁,反正就是沒辦法靜下心來仔細研讀,導致錯過了很多必須掌握的網路程式設計知識基礎(如果您正打算從零開發移動端IM,則建議您從此文開始《新手入門一篇就夠:從零開發移動端IM》

)。本次《網路程式設計懶人入門》系列文章(共3篇),將為大家(尤其是上面說的浮躁的開發者同行)提供懶人快速入門,希望在你沒辦法耐心讀完上面的幾個系列文章(但還是強烈建議優先去讀一讀)的情況還能對基本的網路程式設計知識有所瞭解和掌握,從而對您的IM系統或訊息推系統的技術選型、方案制定、程式碼編寫起到理論支撐作用。本文將從網路通訊協議講起,懶人們,動起來^_^ !

2、正文引言

我們每天使用網際網路,你是否想過,它是如何實現的?全世界幾十億臺電腦,連線在一起,兩兩通訊。上海的某一塊網絡卡送出訊號,洛杉磯的另一塊網絡卡居然就收到了,兩者實際上根本不知道對方的物理位置,你不覺得這是很神奇的事情嗎?

網際網路的核心是一系列協議,總稱為"網際網路協議"(Internet Protocol Suite)。它們對電腦如何連線和組網,做出了詳盡的規定。理解了這些協議,就理解了網際網路的原理。下面就是我的學習筆記。因為這些協議實在太複雜、太龐大,我想整理一個簡潔的框架,幫助自己從總體上把握它們。為了保證簡單易懂,我做了大量的簡化,有些地方並不全面和精確,但是應該能夠說清楚網際網路的原理。另外,如果您很好奇承載這些網路協議的物理裝置是怎麼工作的,可以先看看《網路程式設計懶人入門(六):史上最通俗的集線器、交換機、路由器功能原理入門》。

3、系列文章

本文是系列文章中的第1篇,本系列文章的大綱如下:

 

  • 網路程式設計懶人入門(三):快速理解TCP協議一篇就夠

    4、參考資料

    《TCP/IP詳解 - 第11章·UDP:使用者資料報協議》 《TCP/IP詳解 - 第17章·TCP:傳輸控制協議》 《TCP/IP詳解 - 第18章·TCP連線的建立與終止》 《TCP/IP詳解 - 第21章·TCP的超時與重傳》 《通俗易懂-深入理解TCP協議(上):理論基礎》 《通俗易懂-深入理解TCP協議(下):RTT、滑動視窗、擁塞處理》 《理論經典:TCP協議的3次握手與4次揮手過程詳解》 《理論聯絡實際:Wireshark抓包分析TCP 3次握手、4次揮手過程》 《計算機網路通訊協議關係圖(中文珍藏版)》 《高效能網路程式設計(一):單臺伺服器併發TCP連線數到底可以有多少》 《高效能網路程式設計(二):上一個10年,著名的C10K併發連線問題》 《高效能網路程式設計(三):下一個10年,是時候考慮C10M併發問題了》 《高效能網路程式設計(四):從C10K到C10M高效能網路應用的理論探索》 《簡述傳輸層協議TCP和UDP的區別》 《為什麼QQ用的是UDP協議而不是TCP協議?》 《移動端即時通訊協議選擇:UDP還是TCP?》

    5、內容概述

     

    5.1五層模型

    網際網路的實現,分成好幾層。每一層都有自己的功能,就像建築物一樣,每一層都靠下一層支援。使用者接觸到的,只是最上面的一層,根本沒有感覺到下面的層。要理解網際網路,必須從最下層開始,自下而上理解每一層的功能。如何分層有不同的模型,有的模型分七層,有的分四層。我覺得,把網際網路分成五層,比較容易解釋:150631sjf72dbo778jzlbl.png (800Ã476)

如上圖所示,最底下的一層叫做"實體層"(Physical Layer),最上面的一層叫做"應用層"(Application Layer),中間的三層(自下而上)分別是"連結層"(Link Layer)、"網路層"(Network Layer)和"傳輸層"(Transport Layer)。越下面的層,越靠近硬體;越上面的層,越靠近使用者。

它們叫什麼名字,其實並不重要。只需要知道,網際網路分成若干層就可以了。  

5.2層與協議

每一層都是為了完成一種功能。為了實現這些功能,就需要大家都遵守共同的規則。大家都遵守的規則,就叫做"協議"(protocol)。 網際網路的每一層,都定義了很多協議。這些協議的總稱,就叫做"網際網路協議"(Internet Protocol Suite)。它們是網際網路的核心,下面介紹每一層的功能,主要就是介紹每一層的主要協議。

6、實體層

我們從最底下的一層開始。 電腦要組網,第一件事要幹什麼?當然是先把電腦連起來,可以用光纜、電纜、雙絞線、無線電波等方式。150632oq2npnb3vn8nnc2n.png (564Ã205)

這就叫做"實體層",它就是把電腦連線起來的物理手段。它主要規定了網路的一些電氣特性,作用是負責傳送0和1的電訊號。

7、連結層

7.1 定義

單純的0和1沒有任何意義,必須規定解讀方式:多少個電訊號算一組?每個訊號位有何意義? 這就是"連結層"的功能,它在"實體層"的上方,確定了0和1的分組方式。  

7.2 乙太網協議

早期的時候,每家公司都有自己的電訊號分組方式。逐漸地,一種叫做"乙太網"(Ethernet)的協議,佔據了主導地位。 乙太網規定,一組電訊號構成一個數據包,叫做"幀"(Frame)。每一幀分成兩個部分:標頭(Head)和資料(Data)。150632r66n62l8s317shh1.png (650Ã112)

“標頭"包含資料包的一些說明項,比如傳送者、接受者、資料型別等等;"資料"則是資料包的具體內容。 "標頭"的長度,固定為18位元組。"資料"的長度,最短為46位元組,最長為1500位元組。因此,整個"幀"最短為64位元組,最長為1518位元組。如果資料很長,就必須分割成多個幀進行傳送。  

7.3MAC地址

上面提到,乙太網資料包的"標頭",包含了傳送者和接受者的資訊。那麼,傳送者和接受者是如何標識呢? 乙太網規定,連入網路的所有裝置,都必須具有"網絡卡"介面。資料包必須是從一塊網絡卡,傳送到另一塊網絡卡。網絡卡的地址,就是資料包的傳送地址和接收地址,這叫做MAC地址。150727cibxfbcpu3qx364t.jpg (500Ã371)

每塊網絡卡出廠的時候,都有一個全世界獨一無二的MAC地址,長度是48個二進位制位,通常用12個十六進位制數表示。

150749l7mzsvf9zoc9ku88.png (500Ã259)

前6個十六進位制數是廠商編號,後6個是該廠商的網絡卡流水號。有了MAC地址,就可以定位網絡卡和資料包的路徑了。

7.4廣播

定義地址只是第一步,後面還有更多的步驟:  

1)首先:一塊網絡卡怎麼會知道另一塊網絡卡的MAC地址? 回答是有一種ARP協議,可以解決這個問題。這個留到後面介紹,這裡只需要知道,乙太網資料包必須知道接收方的MAC地址,然後才能傳送。

2)其次:就算有了MAC地址,系統怎樣才能把資料包準確送到接收方? 回答是乙太網採用了一種很"原始"的方式,它不是把資料包準確送到接收方,而是向本網路內所有計算機發送,讓每臺計算機自己判斷,是否為接收方。150918zvus5vkv75vveotv.png (700Ã531)

上圖中,1號計算機向2號計算機發送一個數據包,同一個子網路的3號、4號、5號計算機都會收到這個包。它們讀取這個包的"標頭",找到接收方的MAC地址,然後與自身的MAC地址相比較,如果兩者相同,就接受這個包,做進一步處理,否則就丟棄這個包。這種傳送方式就叫做"廣播"(broadcasting)。 有了資料包的定義、網絡卡的MAC地址、廣播的傳送方式,"連結層"就可以在多臺計算機之間傳送資料了。

8、網路層

8.1網路層的由來

乙太網協議,依靠MAC地址傳送資料。理論上,單單依靠MAC地址,上海的網絡卡就可以找到洛杉磯的網絡卡了,技術上是可以實現的。 但是,這樣做有一個重大的缺點。乙太網採用廣播方式傳送資料包,所有成員人手一"包",不僅效率低,而且侷限在傳送者所在的子網路。也就是說,如果兩臺計算機不在同一個子網路,廣播是傳不過去的。這種設計是合理的,否則網際網路上每一臺計算機都會收到所有包,那會引起災難。 網際網路是無數子網路共同組成的一個巨型網路,很像想象上海和洛杉磯的電腦會在同一個子網路,這幾乎是不可能的。151051okn74sztyn4thytv.png (682Ã537)

因此,必須找到一種方法,能夠區分哪些MAC地址屬於同一個子網路,哪些不是。如果是同一個子網路,就採用廣播方式傳送,否則就採用"路由"方式傳送。("路由"的意思,就是指如何向不同的子網路分發資料包,這是一個很大的主題,本文不涉及。)遺憾的是,MAC地址本身無法做到這一點。它只與廠商有關,與所處網路無關。這就導致了"網路層"的誕生。它的作用是引進一套新的地址,使得我們能夠區分不同的計算機是否屬於同一個子網路。這套地址就叫做"網路地址",簡稱"網址"。於是,"網路層"出現以後,每臺計算機有了兩種地址,一種是MAC地址,另一種是網路地址。兩種地址之間沒有任何聯絡,MAC地址是繫結在網絡卡上的,網路地址則是管理員分配的,它們只是隨機組合在一起。網路地址幫助我們確定計算機所在的子網路,MAC地址則將資料包送到該子網路中的目標網絡卡。因此,從邏輯上可以推斷,必定是先處理網路地址,然後再處理MAC地址。  

8.2IP協議

規定網路地址的協議,叫做IP協議。它所定義的地址,就被稱為IP地址。目前,廣泛採用的是IP協議第四版,簡稱IPv4。IPv4這個版本規定,網路地址由32個二進位制位組成:

151225lt2n0hilb24sbvxo.png (500Ã269)

習慣上,我們用分成四段的十進位制數表示IP地址,從0.0.0.0一直到255.255.255.255網際網路上的每一臺計算機,都會分配到一個IP地址。這個地址分成兩個部分,前一部分代表網路,後一部分代表主機。比如,IP地址172.16.254.1,這是一個32位的地址,假定它的網路部分是前24位(172.16.254),那麼主機部分就是後8位(最後的那個1)。處於同一個子網路的電腦,它們IP地址的網路部分必定是相同的,也就是說172.16.254.2應該與172.16.254.1處在同一個子網路。但是,問題在於單單從IP地址,我們無法判斷網路部分。還是以172.16.254.1為例,它的網路部分,到底是前24位,還是前16位,甚至前28位,從IP地址上是看不出來的。那麼,怎樣才能從IP地址,判斷兩臺計算機是否屬於同一個子網路呢?這就要用到另一個引數"子網掩碼"(subnet mask)。所謂"子網掩碼",就是表示子網路特徵的一個引數。它在形式上等同於IP地址,也是一個32位二進位制數字,它的網路部分全部為1,主機部分全部為0。比如,IP地址172.16.254.1,如果已知網路部分是前24位,主機部分是後8位,那麼子網路掩碼就是11111111.11111111.11111111.00000000,寫成十進位制就是255.255.255.0知道"子網掩碼",我們就能判斷,任意兩個IP地址是否處在同一個子網路。方法是將兩個IP地址與子網掩碼分別進行AND運算(兩個數位都為1,運算結果為1,否則為0),然後比較結果是否相同,如果是的話,就表明它們在同一個子網路中,否則就不是。比如,已知IP地址172.16.254.1和172.16.254.233的子網掩碼都是255.255.255.0,請問它們是否在同一個子網路?兩者與子網掩碼分別進行AND運算,結果都是172.16.254.0,因此它們在同一個子網路。總結一下,IP協議的作用主要有兩個,一個是為每一臺計算機分配IP地址,另一個是確定哪些地址在同一個子網路。  

8.3IP資料包

根據IP協議傳送的資料,就叫做IP資料包。不難想象,其中必定包括IP地址資訊。但是前面說過,乙太網資料包只包含MAC地址,並沒有IP地址的欄位。那麼是否需要修改資料定義,再新增一個欄位呢?回答是不需要,我們可以把IP資料包直接放進乙太網資料包的"資料"部分,因此完全不用修改乙太網的規格。這就是網際網路分層結構的好處:上層的變動完全不涉及下層的結構。具體來說,IP資料包也分為"標頭"和"資料"兩個部分:

151327rjaydgd6yv1vnwu2.png (650Ã132)

"標頭"部分主要包括版本、長度、IP地址等資訊,"資料"部分則是IP資料包的具體內容。它放進乙太網資料包後,乙太網資料包就變成了下面這樣:

151348e5cwv7f9w2oowhch.png (655Ã137)

IP資料包的"標頭"部分的長度為20到60位元組,整個資料包的總長度最大為65,535位元組。因此,理論上,一個IP資料包的"資料"部分,最長為65,515位元組。前面說過,乙太網資料包的"資料"部分,最長只有1500位元組。因此,如果IP資料包超過了1500位元組,它就需要分割成幾個乙太網資料包,分開發送了。  

8.4ARP協議

關於"網路層",還有最後一點需要說明。因為IP資料包是放在乙太網資料包裡傳送的,所以我們必須同時知道兩個地址,一個是對方的MAC地址,另一個是對方的IP地址。通常情況下,對方的IP地址是已知的(後文會解釋),但是我們不知道它的MAC地址。 所以,我們需要一種機制,能夠從IP地址得到MAC地址。這裡又可以分成兩種情況:  

1)第一種情況:如果兩臺主機不在同一個子網路,那麼事實上沒有辦法得到對方的MAC地址,只能把資料包傳送到兩個子網路連線處的"閘道器"(gateway),讓閘道器去處理;

2)第二種情況:如果兩臺主機在同一個子網路,那麼我們可以用ARP協議,得到對方的MAC地址。ARP協議也是發出一個數據包(包含在乙太網資料包中),其中包含它所要查詢主機的IP地址,在對方的MAC地址這一欄,填的是FF:FF:FF:FF:FF:FF,表示這是一個"廣播"地址。它所在子網路的每一臺主機,都會收到這個資料包,從中取出IP地址,與自身的IP地址進行比較。如果兩者相同,都做出回覆,向對方報告自己的MAC地址,否則就丟棄這個包。

總之,有了ARP協議之後,我們就可以得到同一個子網路內的主機MAC地址,可以把資料包傳送到任意一臺主機之上了。

9、傳輸層

9.1傳輸層的由來

有了MAC地址和IP地址,我們已經可以在網際網路上任意兩臺主機上建立通訊。 接下來的問題是,同一臺主機上有許多程式都需要用到網路,比如,你一邊瀏覽網頁,一邊與朋友線上聊天。當一個數據包從網際網路上發來的時候,你怎麼知道,它是表示網頁的內容,還是表示線上聊天的內容? 也就是說,我們還需要一個引數,表示這個資料包到底供哪個程式(程序)使用。這個引數就叫做"埠"(port),它其實是每一個使用網絡卡的程式的編號。每個資料包都發到主機的特定埠,所以不同的程式就能取到自己所需要的資料。 "埠"是0到65535之間的一個整數,正好16個二進位制位。0到1023的埠被系統佔用,使用者只能選用大於1023的埠。不管是瀏覽網頁還是線上聊天,應用程式會隨機選用一個埠,然後與伺服器的相應埠聯絡。 "傳輸層"的功能,就是建立"埠到埠"的通訊。相比之下,"網路層"的功能是建立"主機到主機"的通訊。只要確定主機和埠,我們就能實現程式之間的交流。因此,Unix系統就把主機+埠,叫做"套接字"(socket)。有了它,就可以進行網路應用程式開發了。  

9.2UDP協議

現在,我們必須在資料包中加入埠資訊,這就需要新的協議。最簡單的實現叫做UDP協議,它的格式幾乎就是在資料前面,加上埠號。UDP資料包,也是由"標頭"和"資料"兩部分組成:

151829fdjgjn5brghqpi5e.png (666Ã146)

"標頭"部分主要定義了發出埠和接收埠,"資料"部分就是具體的內容。然後,把整個UDP資料包放入IP資料包的"資料"部分,而前面說過,IP資料包又是放在乙太網資料包之中的,所以整個乙太網資料包現在變成了下面這樣:

151838az43w44k43db03cg.png (622Ã123)

UDP資料包非常簡單,"標頭"部分一共只有8個位元組,總長度不超過65,535位元組,正好放進一個IP資料包。  

9.3TCP協議

UDP協議的優點是比較簡單,容易實現,但是缺點是可靠性較差,一旦資料包發出,無法知道對方是否收到。為了解決這個問題,提高網路可靠性,TCP協議就誕生了。這個協議非常複雜,但可以近似認為,它就是有確認機制的UDP協議,每發出一個數據包都要求確認。如果有一個數據包遺失,就收不到確認,發出方就知道有必要重發這個資料包了。 因此,TCP協議能夠確保資料不會遺失。它的缺點是過程複雜、實現困難、消耗較多的資源。 TCP資料包和UDP資料包一樣,都是內嵌在IP資料包的"資料"部分。TCP資料包沒有長度限制,理論上可以無限長,但是為了保證網路的效率,通常TCP資料包的長度不會超過IP資料包的長度,以確保單個TCP資料包不必再分割。

10、應用層

應用程式收到"傳輸層"的資料,接下來就要進行解讀。由於網際網路是開放架構,資料來源五花八門,必須事先規定好格式,否則根本無法解讀。"應用層"的作用,就是規定應用程式的資料格式。 舉例來說,TCP協議可以為各種各樣的程式傳遞資料,比如Email、WWW、FTP等等。那麼,必須有不同協議規定電子郵件、網頁、FTP資料的格式,這些應用程式協議就構成了"應用層"。這是最高的一層,直接面對使用者。它的資料就放在TCP資料包的"資料"部分。因此,現在的乙太網的資料包就變成下面這樣:

152043e1sb1n21r4knbsjk.png (745Ã254)

11、本文小結

至此,整個網際網路的五層結構,自下而上全部講完了。這是從系統的角度,解釋網際網路是如何構成的。下一篇《網路程式設計懶人入門(二):快速理解網路通訊協議(下篇)》,我反過來,從使用者的角度,自上而下看看這個結構是如何發揮作用,完成一次網路資料交換的。敬請期待!

網易雲信,你身邊的即時通訊和音視訊技術專家,瞭解我們,請戳網易雲信官網

想要閱讀更多行業洞察和技術乾貨,請關注網易雲信部落格

本文轉載自52im,作者:JackJiang