1. 程式人生 > >騰訊雲產品經理高航:人人都是網路工程師

騰訊雲產品經理高航:人人都是網路工程師

Hi 大家好,很高興今天能有機會和大家進行這個分享。我是騰訊雲負責IaaS網路產品策劃的產品經理高航,今天和大家分享的主題是《人人都是網路工程師》。

網路是個很複雜的東西,經常晚上有美女家裡上不了網,就打電話給我說“高老師,我家網路壞了,快來幫我修一下”。修了幾次之後,我就有了這樣一個心得:網路工程師的桃花運都比較好。

當然,修復無線路由器只是小菜一碟(PS:我一般都帶個新的路由器過去),網路工程師的日常更多的時候是這樣的:

凌晨1點,剛剛完成網路變更的你,躺在舒服的床上準備睡覺,望著枕邊熟睡的兒子,嘴邊泛起一絲微笑,感覺未來都是亮的。突然手機“bilibili”聲響起,短息告警顯示核心交換機網路異常,內網丟包率15%。你不能多想,立即然後穿好衣服,奔向機房,看著下面一坨網線,陷入沉思,想到底是哪裡又出了問題。

機房伺服器網線

所以大部分網路工程師都有一個特點:黑眼圈。哈哈,這裡就不調侃了,我們進入正題。

今天的主題是人人都是網路工程師,但是很明顯在過去的很長一段時間,網路工程是一件很專業的事情。那麼,我們先基本羅列一下在傳統的IT環境下,一個組織想獲得穩定可靠的網路環境需要做哪些事情呢?

一般來講,網路系統的交付可以分成兩個部分:網路的規劃建設 + 網路的監控運營。

1. 網路規劃和建設

一個典型的網路可能像下面一樣(圖片來自網際網路,僅用於本次交流分享):

網路結構圖

為了完成網路的規劃和建設部署,工程師需要了解以下內容:

  • 網路基礎知識:OSI協議、路由協議(OSPF、RIP、BGP等)、內網組網、Internet聯網
  • 網路裝置知識:常見品牌的交換機、路由器規格配置、價效比、可維護性
  • 運營商知識:中國各省市運營商狀況、專線及公網接入

其中第一條的網路基礎知識,花1年時間學習並完成CCIE課程應該可以搞定;

第二條的網路裝置知識需要工程師有多個專案交付經驗,對市場中常見品牌及型號有了解,同時具備熟悉的操作能力,2年左右時間可以搞定;

第三條需要有實際專案和運營商經驗,可以在第二條基礎之上一同學習。簡單來說,至少需要3年左右時間,才可以具備獨立搞定一套網路的知識儲備(當然大神學習特別快的不特殊而論哈)。不過很明顯,一般人真搞不定!

2. 網路監控及運營

網路建設整體交付後,為了保證整個網路的可運維性,需要配套開發一整套網路監控和管理系統。一般私有云交付會提供配套的網路監控系統,如果是按照自己的需求從頭到尾自己弄,那配套需要一個運營開發團隊才能按照ITIL的模式搭建起一套完成的網路監控、故障派單的系列管理系統。

系統搭建起來後,還需要僱用一個專業的網路運營團隊7*24小時不間斷進行網路的運維監控,發現問題在一定時間內完成系統的應急修復。如果發現基礎業務網路架構拓撲無法滿足需求,還需要額外補充建設環路以保證網路互連可用性。下面是一個看起來比較酷炫的NOC監控中心形象。

監控中心

說了這麼多,總結起來一句話:

在傳統的IT架構中,人人來做網路工程師,痴心妄想~不僅建設規劃的時候要下血本,後期的監控運維也要付出很大的人力代價。

然而,公有云的普及給人人都是網路工程師一個機會!

這是一個典型的公有云和使用者的服務分界。無論是通過標準的vxlan網路虛擬化協議,還是通過騰訊雲這樣自研的3層GRE隧道封裝,公有云服務商都普遍在網路層(IP)來劃定使用者和平臺的邊界。IP層協議全世界都是標準的,剛剛上面寫的傳統網路部署中,不標準的交換機、路由器和運營商網路環境,都被公有云提抽象成了標準的網路服務元件,複雜的運營商網路環境通過統一的BGP出口和附帶有SLA的標準網路服務來代替。

只要你在計算機專業學過簡單的圖知識,花1天時間看一下IP協議和基本的靜態路由知識,就可以分分鐘在公有云平臺上部署起一套金融級網路架構。下面我分別簡單介紹一下公有云提供的網路服務,並和傳統網路環境做一下對比。

公有云網路服務

1. 公網服務

使用者在公有云上部署的叢集,大部分用於對外提供服務。公有云的使用者不需要理解中國有多少家運營商(電信、聯通、移動、長城寬頻、教育網……..還有幾十家可以列出來),也不需要理解各家運營商分佈在哪些區域,覆蓋哪些客戶,自己的客戶都在用什麼網路。你只要知道有你有一個很NB的公網IP,這個IP很牛逼可以服務所有的客戶就好了。如果你是一個有追求的人,還可以從監控平臺看一下這個IP輻射中國大江南北各種使用者的時延和可用性。

公有云廠商為了實現這樣簡單的使用者體驗,至少要做以下幾樣事情:

  • 運營商融合:購買支援多運營商的公網IP和頻寬(騰訊雲聚合了20家運營商,還在增加)。如果是傳統網路,只能使用者自己一家一家的去接入,同時還要自己估算每家的接入頻寬,事實告訴我們這些預估總是不準確的,一部分超出的會導致成本徒增,一部分低估的會在業務增長時成為瓶頸。(公有云平臺一般都是按量的,不存在這樣的問題)
  • 大頻寬出口預備:通過足夠大的公網頻寬保證使用者的服務波峰不會阻塞網路出口,同時入流量DDoS攻擊不會影響正常網路服務,單出口沒有個500G都不好意思說平臺是搞公有云的。如果是傳統網路架構,多買100m的頻寬,就要付100m的成本,為了保證不停服需要提前購買很多網路頻寬導致網路頻寬成本居高不下,而公有云上面就可以實現全面的按量計費,用多少付多少的錢,平臺通過足夠多的客戶來削峰填谷降低單個客戶的成本。
  • 網路流量排程:使用SDN或手動方式使網路流量可以跨出口排程以應對運營商的網路故障,比如北京電信的網路斷了,就把流量切到上海電信。這個能力在國內也只有騰訊、阿里這樣的網際網路公司提供的網路有,其他中小型公有云廠商最多隻能做到運營商之間來做流量切換(電信流量臨時切換至聯通),業務峰值時跨運營商的流量切換業務時延基本沒有保證。而傳統網路下,基本沒可能做此類流量排程方案,原因很簡單:一個字,貴!
  • DDoS流量清洗:由於使用者體量大,公有云平臺被DDoS攻擊的風險也很大,過去一段時間我統計騰訊雲100Gbps左右的DDoS攻擊每天平均10次,300Gbps以上的攻擊每個星期也會出現幾次,因此強大的流量清洗能力也是公有云平臺的必備能力。傳統網路中只能藉助第三方DDos清洗平臺,而且價格十分之貴。

2. 內網服務

內網服務方面,公有云平臺為了方便使用者配置,一般會提供VPC這樣的虛擬專有云服務。通過對基礎網路環境進行虛擬化,使用者可以自行規劃自己雲主機的內網IP、內網網段、劃分子網、指定路由等等,底層的交換機、路由器裝置可能有各種各樣的型號,但是最終都通過虛擬化整合成了一套虛擬化後的網路結構,這樣使用者只要學習一邊公有云的網路架構後,再也不需要去感知硬體廠商的各種變化和更新了。

公有云上,劃分子網、變更路由等操作都是在視覺化的web 控制檯中操作的,不用擔心對網路物件的變更是否會影響到其他業務服務觸發重大事故。滑鼠點一點,輸入一下核心引數,一個網路變更就完成了。像AWS、騰訊雲這樣在VPC設計上還支援了子網的策略路由功能,每次路由變更也只會對關聯子網範圍內生效,其他子網根本不受影響。是不是感覺心裡頓時少了一塊大石?

為了更加簡化使用者使用公有云的網路服務,公有云廠商還會對標準的邊界閘道器進行開發,提供黑核型的邊界閘道器服務,以騰訊云為例,我們提供了:

  • NAT閘道器:用於雲主機主動訪問Internet
  • IPsec VPN閘道器:用於建立IPsec VPN連線
  • SSL VPN 閘道器:用於建立SSL VPN連線
  • 專線閘道器:用於接入專線,並提供專線兩端的網路地址轉換(NAT)功能
  • 對等連線:用於公有云上同地域或不同地域之間的VPC互聯

各種邊界閘道器、內網路由的可用性等都無需考慮雙路由等設計,因為雲平臺廠商已經在底層閘道器設計、路由設計底層做了主備容災切換邏輯,部分容災是在同機房的不同裝置上,部分容災是在不同機房的不同裝置上而已。

內網服務部分,各大雲廠商平臺還會提供安全組這樣的通用安全策略工具,通過為雲主機配置差異化的安全策略,就可以實現金融級的網路訪問許可權管理。

3. 網路監控、告警及故障處理

完成了系統部署之後,大部分公有云平臺還會提供全面的網路監控和告警功能,當每個監控物件觸發了告警策略之後,即會通過你所配置的通訊方式聯絡到你。如果是容量告警,您可以在控制檯分分鐘搞定網路擴容而不停服;如果是底層網路故障,那麼無論是運營商層、裝置層、服務物件層都會有云平臺的工程師第一時間為您處理,您自己無需做很多現場的操作。

這裡交給大型公有云廠商的好處顯而易見:網路的故障不僅會影響你的服務,也會影響QQ、微信等服務,你在雲上的部署相當於享受著和國際頂尖服務一樣的網路運維管理能力(當然中小型廠商的雲服務運維能力我這兒無法一一鑑定),比起自己搭建私有云,自己僱人來管理可靠得多!

那麼看著這麼眼花繚亂的功能,真的能做到人人都是網路工程師嗎?

當然可以!只要你掌握了下面幾個基礎知識,就可以完全勝任公有云平臺上的網路管理工作:

大學計算機基礎 or 計算機網路等級考試——及格即可(我記得大學考網路三級考試也就花了1天時間刷刷題,就過了…)

有了上面的基礎知識,如果讓我面授一下,基本上1天之後可以完成控制檯所有的網路操作和管理了。如果是看文件會比較抽象,不過自學能力強的同學有1個星期也可以玩個差不多了。

核心知識點:

  1. 定義VPC和子網 CIDR
  2. 公有云路由優先順序的匹配規則(一般是最精確路由匹配)
  3. 根據業務需要,熟悉常見的閘道器物件,比如NAT閘道器、VPN閘道器等
  4. 配置基本的安全組策略
  5. 上手實操,邊玩邊學
  6. NAT網路地址轉換(高階功能,上手可以先不用看)

只需要這幾步,已經可以給公有云上95%的使用者做網路架構規劃了,而自學這些最多不需要1周的時間,你說未來是不是一個“人人都是網路工程師”的年代?

當然“人人都是網路工程師”也不是特別好,因為越來越多的公司轉向公有云後,很多公司原有的網路工程師會被開發或者少數的幾個運維替代,從而不可避免的面臨失業問題。不過從全世界角度來看,私有云和混合雲的部署方式還會長期存在,所以也不用特別擔心這些問題哈。

好,今天的分享到此結束,感謝大家的參與!