1. 程式人生 > >從ip addr add和ifconfig的區別看linux網絡卡ip地址的結構

從ip addr add和ifconfig的區別看linux網絡卡ip地址的結構

               

今天一個老外在郵件列表上問了一個問題,就是ip addr add和ifconfig的區別,我給他進行了解答,可能因為英語不好吧,解答的很簡單,因此我還是要在這裡詳細說明一下。其實它們之間沒有什麼區別,只 是表述方式不同罷了。如果你非常理解網路協議的原理以及網路的分層架構那麼我想你就不會有這個問題,實際上,每一個網絡卡裝置都有一個mac地址,但是卻可 以有多個網路層地址,比如IP地址,然而這個事實無法很好地像使用者提供操作介面,所以就引出了ip別名(IP aliases)和輔助ip(secondary IP addresses)的概念。其實很容易理解這個事實,按照分層的思想,下層總是為上層服務,也就是為上層提供舞臺,上層利用下層的服務,而不必讓下層知 道自己的情況,如果一個擁有合理mac地址的網絡卡沒有配置網路層地址(比如IP地址)這件事合理的話,那麼為這個裝置配置多個IP地址也是合理的,正好像 一個ip可以對應多個應用層埠一樣,也就是說,下層對上層總是一對多的關係,在分層架構中這種關係是合理的。下面我們就看一下linux的網絡卡的ip地 址結構。剛才說了在linux中,一個網絡卡可以有多個IP,那麼這多個ip有什麼關係呢?其實這些ip組成了一個吊鏈結構,所謂吊鏈結構就是一些節點連結 成一條鏈,然後每個節點帶有自己的一條鏈,如下圖所示:  

clip_image001clip_image002clip_image003clip_image004    每個節點代表的ip地址標識一個網段,這個節點的ip就是這個網段的 Primary地址,它下面所帶的ip就是這個網段的Secondary地址,也就是說一個網絡卡可以帶有各個節點所帶連結串列長度之和個ip地址,而且這些 ip不是線形的,而是上述的吊鏈結構。我們看一下這麼做有什麼好處。玩過Cisco路由器的朋友可能都知道有個Secondary IP的概念,這個特性可以建立邏輯子網,也就是說在一個物理網口上連線兩個子網,這咋看起來好像不可思議,其實很簡單,比如這個網口接到一臺交換機上,如 果這個網口沒有配置Secondary IP的話,那麼這臺交換機只能連線一個網段的主機,比如192.168.1.1/24,但是,如果它配置了Secondary IP,那麼就可以連線兩個網段的主機,比如192.168.1.1/24和10.0.0.1/24,道理就是這麼簡單,但是卻很有用,該機制可以被路由匯 總策略所使用。注意上面這個例子中的Secondary IP不是這裡說的linux的Secondary address,在linux中恰恰相反,只要一個網絡卡上配置的ip不是一個網段的,那麼都是Primary IP,就是吊鏈結構中上面的那條主鏈中的IP,linux中的Secondary address是主鏈結點的子鏈結點中的IP,這一點一定注意,概念是不能混淆的。前面說的只是吊鏈中主鏈的作用,那麼子鏈呢?其實想象一下也很簡單,比 如一臺機器上執行著一個代理伺服器或者負載均衡服務,代理伺服器或者負載均衡服務和主伺服器要監聽相同的埠,那麼就可以用secondary address來解決了,只要需要在同一網段監聽同一個埠的應用都是吊鏈中子鏈存在的原因,因此可以說,主鏈對外部或者說對下面鏈路層虛擬了多塊網絡卡, 而子鏈向上層虛擬了多臺機器,配置了吊鏈結構的linux主機如果說只有一塊網絡卡,那麼外部會認為它有多塊網絡卡,對於內部,應用層會認為彼此在不同的主機 上,這就是效果。    除了上面大體的介紹之外,還有很多細節,吊鏈在主鏈上是沒有主次的,子鏈除了第一個節點其它節點也不分主次,都是平行的關係,但是子鏈中的第一個節點總是 連結在主鏈中,它們攜帶的地址就是primary地址,它們下面隸屬的子鏈攜帶的地址就是這個primary地址的secondary地址,如此看來,一 旦主鏈上一個節點被刪除了,那麼它的子鏈也將不復存在,所謂皮之不存毛將焉附。但是這種策略總是顯得不是那麼優美,因為父親犯錯,兒子也要受連累,這在現 代社會早就不時行了,那麼就需要改變機制了,因此linux中特意有了一個選項,就是當一個primary地址被刪除時,如果它有secondary地址 的話,那麼它的第一個secondary地址(長子)繼承被刪除的primary地址的位置成為primary地址,這樣就顯得很合理了,要不然在刪除 primary地址的時候,如果有程式用secondary地址,那麼要麼延遲刪除,要麼程式崩潰,採用自動提升策略的話就不會出現問題。    至於說IP aliases,那是以前版本有的了,就是一個實現問題,解決的問題和現在的secondary IP機制一樣,它主要就是在物理網絡卡名字後面加上字尾從而成為虛擬網路介面,本質上和secondary IP機制沒有區別,區別就是IP aliases顯得不是那麼直觀,而secondary IP卻是真正讓應用看到了一個網絡卡的多個地址,比如你要是用IP aliases的話,有的時候你總是會問eth0:0是什麼?我就曾經在核心裡面拼命找eth0:0這個網路裝置的註冊程式碼,都要瘋掉了也沒有找到,其實 我並不是很傻,但是我卻因為那個該死的名字作出了傻事。    下面就可以看看linux核心的實現程式碼了,首先弄明白一些資料結構,最重要的就是net_device,其次就是in_device,然後就是in_ifaddr,明白了這三個資料結構,一切就明白了,這是真的。    struct net_device    {    ...         void                    *ip_ptr;       //指向一個in_device結構,這個欄位從net_device中分離表明一個網絡卡可以支援多種網路層協議的    ...    }    struct in_device    {             struct net_device       *dev;           //指向它隸屬的net_device,也就是網絡卡             atomic_t                refcnt;         //引用計數             int                     dead;             struct in_ifaddr        *ifa_list;      //所有的ip地址連結串列    ...    };    struct in_ifaddr   //代表一個ip地址    {             struct in_ifaddr        *ifa_next;       //上面的in_device中的ifa_list欄位就是靠這個欄位連成鏈的             struct in_device        *ifa_dev;        //回指in_device結構             struct rcu_head         rcu_head;             u32                     ifa_local;       //ip地址             u32                     ifa_address;             u32                     ifa_mask;        //掩碼             u32                     ifa_broadcast;   //廣播地址             u32                     ifa_anycast;             unsigned char           ifa_scope;           unsigned char           ifa_flags;           //只有IFA_F_SECONDARY標誌,因為除了這個就是primary地址了             unsigned char           ifa_prefixlen;             char                    ifa_label[IFNAMSIZ]; //名字,在ip aliases時代,它就可能是ethx:y的形式,在secondary ip時代,它統一就是ethx    };    注 意,上面的結構並沒有將linux網絡卡的ip地址結構表示為吊鏈結構,所謂的吊鏈結構只是邏輯上的,在資料結構上,一個網絡卡所有的ip地址全部都在 ifa_list中被連結成一個線性的連結串列,至於是primary地址還是secondary地址就看in_ifaddr的ifa_flags欄位了。每 當有新的地址被設定的時候,inet_insert_ifa總是被呼叫,linux為何沒有在程式碼上將ip地址表示為吊鏈結構呢?我也不知道,個人感覺一 個net_device帶有一個primary ip連結串列,然後每個primary ip節點帶有一個secondary ip連結串列,這樣會更好一些的,我覺得inet_insert_ifa實現的十分拙劣。新增地址可以通過兩個使用者空間程式搞定,一個是ifconfig,另 一個是ip addr add,ifconfig是基於ioctl進行地址新增的,而ip程式是基於netlink進行地址新增的,不管哪一種方式都可以達到目的,現在就可以看 看另一個問題了:為何用ip addr add新增的ip地址用ifconfig看不到,而ifconfig設定的地址ip addr show卻是可以看到。這個問題通過看程式碼一眼就可以明白,在ifconfig獲得ip地址的時候,程式碼:    for (ifap = &in_dev->ifa_list; (ifa = *ifap) != NULL; ifap = &ifa->ifa_next)     {        if (!strcmp(ifr.ifr_name, ifa->ifa_label) && sin_orig.sin_addr.s_addr == ifa->ifa_address)         {            break;         }    }    取 的是這個被找到的ifa的ip地址,而我們知道,所有的ifa連結成一個線性連結串列,那麼找到了第一個就不會再往後走了,因此只能得到一個結果,就是連結串列最 前面的那個,而ip add show就不同了,具體在函式inet_dump_ifaddr中實現,該函式遍歷所有的ifa,並且傳到使用者空間緩衝區。這裡可以做一個實驗:首先用 ip addr add新增幾個不在同一個網段的primary ip地址,然後再ifconfig一個和前面的ip都不在一個網段的ip,然後可以用ifconfig檢視一下,發現不是剛剛用ifconfig設定進去 的那個ip,而是用ip addr add新增進去的,這就說明ifconfig永遠都是取的ifa連結串列最前面的那一個,還有一點要注意,就是如果你用ip addr add添加了很多的secondary ip地址,那麼恰好你用ifconfig設定的ip地址和那些secondary ip在一個網段,那麼所有的secondary ip都將被刪除,這些都是sencondary ip的規範決定的,而且在程式碼中也有體現。另外還要注意,路由表的表項都是基於primary ip的,因為所有的操作都是以primary ip為主的,比如在新增路由的時候:    void fib_add_ifaddr(struct in_ifaddr *ifa)    {             struct in_device *in_dev = ifa->ifa_dev;             struct net_device *dev = in_dev->dev;             struct in_ifaddr *prim = ifa;    ...             if (ifa->ifa_flags&IFA_F_SECONDARY) {   //如果ifa是個sencondary地址,那麼就找到它隸屬的primary地址後然後以這個primary為主進行設定                     prim = inet_ifa_byprefix(in_dev, prefix, mask);                     if (prim == NULL) {                             printk(KERN_DEBUG "fib_add_ifaddr: bug: prim == NULL/n");                             return;                     }             }             fib_magic(RTM_NEWROUTE, RTN_LOCAL, addr, 32, prim);    //新增進路由表    ...    }    到 此為止我們知道了不少東西,最重要的就是linux中網絡卡ip地址的吊鏈結構以及這麼設計的好處,另外就是設定ip地址的方式有ioctl和 netlink。其實網絡卡擁有多個ip並不會帶來什麼衝突,本質上ip和網絡卡沒有什麼關係,它們唯一的關係就是靠網路分層模型聯絡在一起的,細節上就是靠 路由聯絡在一起的,比如我新增路由的時候指定了一個目的地址和下一跳ip地址以及一個網絡卡出口,那麼核心會根據提供的目的地址將路由插在合式的位置,然後 將nh的網路裝置設定為你提供的網絡卡出口,等到傳輸資料的時候就會查詢路由從而找到出口,就是這麼簡單,你自己手動設定的路由可以隨意設定,即使完全錯誤 核心也會將之加入路由表的,還有一種路由是核心自動生成的,就是在網絡卡剛剛up的時候,這時通過網絡卡的net_device找到其in_device然後 找到其ip地址,這樣的路由稱為鏈路路由。    通過secondary IP機制,你可以認為你的機器有很多網絡卡,對於應用,監聽同一埠的應用會認為它們在區域網中不同的機器上,你可以隨意使用這些ip地址而不會發生混亂,路由和底層的arp會處理好這一切,當然前提是你將路由設定對。    附: 使用者空間有ifup/ifdown,/sbin/ip,ifconfig,還有netplugd守護程序,這些有何關係嗎?這中間ip程式是最基本的,沒 有任何策略,策略就是引數指定,要麼就是別的程式呼叫它,而netplugd就是一個監控守護程序,通過netlink監控網絡卡狀態,然後根據不同的監控 結果呼叫/etc/netplug.d/netplug指令碼,進而可能呼叫ifup/ifdown指令碼,而後者就是指令碼,其中會呼叫ifup-eth腳 本,最終整理好引數後呼叫ip程式(典型的就是:ip link set eth0 up/down),當然ip程式完全可以自己呼叫,比如ip addr add以及ip route add等等,而ifconfig沒有那麼繞圈子,就是通過ioctl進行設定,可以通過strace來觀察。這其中奧妙大了去了,說白了就是策略和機制分 離,另外還體現出linux中的很多功能都是很小的程式組合而成的。

 

Linux的ip地址的吊鏈結構以及ip地址的定址特性(詳見《關於IP網段間互訪的問題—路由是根本》)充分說明了linux的協議棧實現多麼的完美,完全符合分層和封裝模型,使得下層的邏輯和上層的邏輯完全解除耦合,也就是說ip層完全不依賴鏈路層以及物理層的物理佈局,最後記住,ip層事情比如定址路由只由ip層實現,之所有有鏈路層發現的路由,完全是為了方便。