陳佳媛:中國移動NFV實踐與思考
2018年11月14日-16日,由下一代網際網路國家工程中心主辦,南京市江北新區等單位支援對“GNTC全球網路技術大會”在南京火熱開幕。作為全球規模最大的網路技術盛會之一,本屆GNTC通過2場全體大會、7場技術峰會、1場測試活動及GNTC Awards頒獎典禮多項特別活動,彙集來自20個國家、50餘個國際組織、150多位技術專家,為現場超2000位現場觀眾奉上一場精彩絕倫的網路技術盛宴。
中國移動研究院網路技術研究所專案經理 陳佳媛
來自中國移動研究院網路技術研究所的專案經理陳佳媛為大家分享了“中國移動NFV實踐與思考”主題演講。演講中表示,目前邊緣、加速和容器還是處於商用的初期階段,以及中國在NFV領域未來的重點研究方向。
以下為陳佳媛現場演講實錄:
陳佳媛:各位專家大家下午好,我是來自中國移動研究院的陳佳媛,特別感謝大會給我們這樣一個機會跟大家分享一下我們在NFV的成果,商用包括落實過程當中我們獲得的一些成果,還有遇到的一些問題。我的演講分為兩個部分,第一個是我們到目前為止NFV實踐和應用,主要講一講中國在NFV這塊下一步的重點研究方向。
這個圖是中國移動定義(英文)兩層架構,這個架構裡面中國行動網路會分成兩個大層,一個核心層,第二下面邊緣層,核心層會主要部署控制源的網源,中國移動在NFV主要在核心層這一塊,到目前為止的話我們其實是把核心層這個商用已經推到商用這個階段了,核心層裡面把網源設計包括配置都已經規範化,滿足三層解耦的要求。其次對於硬體這一塊我們已經是確定了很明確伺服器配置要求,也確定會有分散式的儲存。從底層網路這一塊我們也是很明確是說,會把管理儲存以及這個業務分成三個獨立的業務平面進行一個組網。
虛擬層會基於(英文)社群版本,疊加中國移動需要定製化運維管理要求,在這個基礎上統一定製虛擬化的規範,還有業務側的網管的實現(英文)對接,也做了一部分通用(英文),包括(英文)標準化的工作。在這個核心雲的這個工作裡面我想重點介紹我們做NFV三層解耦,除了中國移動,包括聯通、電信包括移動運營商,他們肯定會遇到這樣的問題,怎麼來做解耦。在國外有一些運營商直接指定虛擬層的廠家,讓上層業務跟指定虛擬層進行對接,這樣就相對簡單一點,中國移動沒有短名單的機制,我們不可能說指定某一個虛擬層,第二個原因我們希望對這個虛擬層有一定的掌控力,不希望這個虛擬層頻繁迭代更新,這個平臺作為底層東西是要為上層業務服務的。基於這個原因,我們就做了一個三層解耦,希望按照中國移動希望一步一步演進,而且也是可管可控模組。對照右邊架構圖從五個維度對三層解耦進行一個定義。首先是虛擬層與網元相容性,在測試整合過程當中,我們經常會遇到,因為廠家這個網元增強一些定義,包括一些個性化的配置會導致這個廠家對接會出現問題,在這個介面上,可能是一個網元的對於底層虛擬資源的需求,包括虛擬層怎麼向上層提供能力這麼一個約定,我們把這個東西統一規範一下,保證廠家網元可以進行正常部署和執行。我們要求所有網元都按照這個進行設定和配置,確保三層解耦配置和執行。第二和第三結果處在統一位置,從功能角度分成兩個點,首先是B的話,叫(英文),這一塊我們基本上統一了,所有廠家對於介面一個引數設定。C這一塊我們稱作為(英文)管理流程,跟A介面相關度很大,在A上體現一些效能轉化到(英文)引數裡面,這樣網元實現可以保證A和C的對接,同等對待。D從組網層面,(英文)怎麼進行一個解耦,所有的ABCD定完以後再回到虛擬層本身,我們是從建設、組網、運維等等方面把虛擬層功能效能可靠性都進行統一定製。
目前的話我們三層解耦已經試點進行驗證了,廠家滿足程度還是可以的。我今天演講主要是想跟大家分享一下NFV下一步重點研究方向,好多點剛才趙院長都已經提到過了。第一個重點方向就是邊緣雲,大家也猜到了核心雲做完了就是往下走做邊緣雲,邊緣計算現在很火邊緣雲跟邊緣計算關係是什麼?邊緣雲其實組成邊緣計算裡面各種各樣不同型別基礎設施一種,這種對運營商來說非常重要,這一層上面運營商不僅可以部署的網元,4G、5G網元,同時也可以部署垂直行業邊緣計算新型網元,這些網元特點是什麼?非常突出,首先就是大容量,比如說CDN等等,其次實驗會非常短,還有一些計算密集型的業務,包括深度學習AI等等,部署在運營商網路裡面只有可能部署在邊緣雲,基於這個原因,要滿足這些業務需求,我們邊緣雲位置基本上也就確定了,從接入這個DC到曲線不超過300公里這個範圍。
剛才說邊緣雲跟這個核心層不一樣,核心層區域同質化,邊緣雲不一樣,但是我們也不可能讓這個邊緣雲泛化比較厲害,所以規定了幾個棧型,大型的邊緣雲認為部署在地市或者大型區縣的,規模大於25臺伺服器,機房條件比較好的區縣可能會到100臺伺服器的樣子。大型邊緣雲裡面包括(英文),同時這個控制組件,我們可以在物理上進行獨立的部署,保證底層效能和可靠性,組網層面具備(英文)結構,確保儲存業務和管理有這麼一個物理分離形態,從這個角度講,其實大型的(英文)跟剛才提到核心層其實比較類似,資源比較充足,也會有現場運維的可能。再小一點的話,跑到這種比較偏遠這個中型區縣裡面,為了達到一定資源利用率控制組件應該是可以部署的,如果佔用很大控制面的資源的話利用率會非常低,達不到應用這個業務的效果。
其次會具備(英文)結構,但是沒法確保管理業務和儲存物理隔離,我們在這個圖上建議儲存和業務接到(英文)。技術層面可以提供分散式儲存,再往下就是非常小的(英文)棧點了,這種情況比較適合於很邊緣包括供電、功耗等等都無法保證這麼一個機房,像這種機房的話,基本上我們不會再有SDN組網需求了,沒有多餘伺服器再分控制組件了,網路上也不會具備(英文)這樣一個結構 ,只要有一個交換機能夠接入到存在網上就可以了。儲存伺服器也是由本地硬碟提供了,這是我們把邊緣棧型三個大類。根據剛才提到三個大類越往邊緣管理能力越弱,就提出了一個問題,邊緣雲怎麼管理?我們感覺應該偏向集中化管理方式,第一個是業務的集中管理,第二個是資源池的集中管理,業務集中管理在邊緣雲參與到業務管理幾個模組,我們只會部署在核心層有一個業務編排需要從區縣的邊緣到地市邊緣,我們會從(英文)發起指令,做一個轉接或者簡單的(英文),這是業務集中管理的流程。
其次是雲資源一個集中管理,我們只看下兩層的話,我們認為邊緣雲資源池管理應該由地市一級(英文)進行管理,可以負責將租戶、映象進行一個統一管理和下發,並且還會負責自己故障運維監控。滿足集中管理化的需求,我們覺得現在還有幾個問題需要解決,第一個在地市邊緣對於(英文)管理要求,我們覺得到時候地市這個邊緣雲會有一個多VIM進行管理組建,有一個(英文)專案在進行當中,目前定義還不夠滿足我們實際運維一個需求,實際運維過程當中,會有一些運營商定製化需求,我們現在能夠看到的是多VIM應該有一個指令。
第二的話版本相容,因為我邊緣會分佈非常散,沒法保證時刻保持一致,對於多VIM管理元件我們要求相容(英文)版本,其次對於這個多VIM管理元件管理下層邊緣包括伺服器、防火牆等等,這個還沒有定義非常詳細。第二個問題在區縣級邊緣裡面,最小這個邊緣雲裡面,因為管理沒法佔用過多的資源(英文)進行一個輕量化的部署,目前我們看到有一些廠家會有一些產品的原型,實現VIM輕量化,實現方式裁減(英文)元件,包括一些重要的元件。還有一種方式通過容器化方式部署這個(英文),減少最大連線數,減少一些最大併發數量等等,目前有一些產品原型,但是產品本身從可靠性,從效能來講還需要進一步提升,所以我們在這裡呼籲廠家社群也好,在這一方面有一個更細化和進一步完善。
第二個方向是關於容器,即便不到今年年初的時候,怎麼引入容器,會對NFV有什麼影響,我們爭論很多,說到5G非常明顯商用時間點之前,其實還是處於一定弱勢的。正好跟容器化是一個非常吻合的設計,5G引入應該是最大的驅動力之一。其次就是考慮到剛才一些邊緣雲場景,資源非常受限,需要輕量化部署,提升資源利用率,對一些網元需要更快升級,等等都跟容器自己本身特性非常吻合,我覺得容器肯定是會引入的技術,但是怎麼引入是大家一個看法。
這是我們初步想法,中國移動會引入容器怎麼一個節奏,對於中國移動或者對於運營商來講,目前考慮如何引入容器面臨兩個問題,5G商用時間的提前,其次我們已經部署的NFV怎麼辦,我們考慮引入容器的時候非常擔心容器引入之後還沒有非常完備的NFV系統會變成一個什麼樣的系統,能不能實現收益最大化,我們分成三個階段圖裡面紅色框表現前一個框的差別,階段一跟5G商用時間契合起來,這個時間廠家可以通過時間來實現的網元,因為擔心容器會對運營商已經部署NFV系統產生影響,這個容器肯定被部署在虛擬機器之類的,我們叫虛機容器,對外就不可見,(英文)沒法排程跟容器相關的資源這個是容器近期可以實現唯一的一個途徑,這個途徑對運營商來說沒有收益,甚至因為套了一層虛擬機器會有更大的消耗,我們覺得這個時間持續不會太長。什麼時間過渡到第二階段呢?定義為容器從虛擬機器脫離出來一個階段,這個階段容器就變得可見的了,不管怎麼樣(英文)這一塊功能流程都要進行相應一個適配,所以在第二階段的時候這個紅線我們認為那些需要改變和新增的介面,第二階段對NFV平臺產生非常大影響的階段,同時也是我們可以收穫容器很多優勢這個時候,包括資源這個節省,輕量化部署,快速灰度升級等等,這個階段我們覺得也不會來得太早,產品也好標準化也好不太成熟。
第三階段平臺做大做強之後才會到的一個階段這個階段目前覺得還不是特別肯定會不會,至少中國移動會不會研究這個階段不是特別確定,這個階段特點是作為這個容器平臺,這個能力越來越強,可以把一些底層能力,比如說服務的治理,資料庫的能力,包括一些負載均衡能力都通過平臺來實現,通過容器來包裝,可以對上提供給網元,只需要關心自己業務構建是怎麼做的,所以是不是會進入到這個階段在於首先這個運營商或者這個廠家對於這個ICT是怎麼看的,會不會把這個上面(英文)做得越來越薄,只關心這個業務,還是關心運營商原有特徵,關於這個階段我們知道都是見仁見智的。
第三個是加速,加速這一塊的話應該是上週在北京(英文)這個產業聯盟,當時用了一天的時間跟大家業界各個專家開了一個討論會,內容非常多,各方觀點也非常鮮明,我只能從運營商這個角度跟大家聊一聊目前加速一個產業的情況以及從移動的角度我們對加速哪些問題比較關心,首先我們看一下加速的需求。大家知道5G業務相對於4G要求是非常高的,還有這種計算型業務部署,這些處理基本上都要消耗CPO很大資源,理論上如果底層我們部署足夠(英文)資源,那是非常好的,但是恰巧部署在邊緣,不得不用一些加速方式,所以這個是我們認為引數一定會引入的。
對於哪一些東西需要解除安裝到這個加速器上呢?有的廠家認為網路轉發因為消耗CPO太多,而且不適合CPO去做,還有一些比如說DPI,GDP或者是邊界碼轉換都可以下載從這個角度來看,目前對於哪些邏輯需要解除安裝到加速技術上大家還沒有達成一致的意見,在這個之上對於每一種功能解除安裝,大家採取方式也不一樣,有(英文),有華為中興主推NP的方式還有GPU這種方式,從目前看我們覺得產業需要收斂第一個前提是什麼?就是哪些功能需要解除安裝,第二解除安裝的時候用什麼樣的方式用一個什麼樣統一方式保證底層加速資源通用化的,一個池子。這是目前產業情況。
移動對於NFV加速關心哪些問題呢?作為運營商來講部署一個加速池子的話我的需求非常明確,可管、可用、可解耦,底層加速資源確保VIM可以識別他,同時確保(英文)解讀(英文)可以辨別哪些加速資源可以解析,只有在可管前提下才能夠把這個加速資源利用起來。目前在(英文)有一個(英文)這麼一個專案做加速資源管理,目前我們認為應該是剛剛啟動這個專案,可能定了一些架構,具體應該從介面上來說,包括VIM區別哪些是普通網絡卡,哪些是加速網絡卡。還是可以的,至少有一個社群可以讓大家探討,這個技術成熟是可指望的。
第二和第三,我們覺得關係非常密切,業界對於哪些邏輯需要解除安裝到加速器上沒有一個特別一致的意見,對一個網元來講,不管做(英文)也好,一定要解除安裝意味著我的網元需要變,比如說華為、中興我得跟運營商談好,哪些需要解除安裝到底層加速去,肯定會受到廠家一個非常順利可以推進,這是其一。第二的話我如果要把這些功能解除安裝到加速器上,前提要打通這個通路,通過NP的方式,通過(英文)方式,不管怎麼樣要有一個統一方案去實現。加入華為用(英文),因特爾用(英文),我發現網元和底層加速器就在一起了,相當又回到了之前狀態。我們是打破傳統裝置,我們把硬體和軟體進行解耦,底層資源變成一個池子,資源可以共享這是我的訴求,引入加速的時候反而把三層緊緊繫結在一起了,我為什麼不去買一個傳統網元裝置。這是我們運營商遇到問題,至少在加速這個領域不管在社群也好還是廠家產品也好,跟我們一起,找到幾個明確的方向,統一認知下推動這個技術的成熟。
總結一下我們剛才提到邊緣、加速包括容器,我們認為目前來看研究這一塊還是處於相對來講比較初級階段的,我們希望業界專家可以跟我們一起可以加速成熟商用化落地。謝謝大家。