1. 程式人生 > >張輝:“智慧網路構建高效雲端計算平臺” – 運維派

張輝:“智慧網路構建高效雲端計算平臺” – 運維派

由工業和資訊化部指導,中國資訊通訊研究院主辦,業界知名組織雲端計算開源產業聯盟(OSCAR)承辦的2017全球雲端計算開源大會於4月19日-20日在北京國家會議中心順利召開。本文為本屆大會嘉賓分享的大會演講速記內容,敬請瀏覽。

嘉賓介紹:張輝

公司職務:Mellanox公司亞太區解決方案營銷總監

大會演講速記

雲平臺

非常感謝在座各位和主持人,今天的演講題目是智慧網路高效構建雲平臺。

我們邁絡思是做網路的,我們起家是做高效能運算的InfiniBand高速網路,之後我們乙太網也做到了端到端,目前大家在資料中心用的比較多的還是萬兆居多。

雲端計算

我們現在做25G及以上的網路是我們絕對領先的技術,在早期40G網路,90%以上40G網路都是我們網路,新的25G、100G也佔據了市場的絕大部分份額,甚至下半年我們會出200G乙太網,目前可以說在網路方面沒有人能超過我們。

其實說到雲端計算,相信大家都是專家,從最開始做虛擬機器一直到現在落地,包括今天這麼大會議來講,相信對廣大使用者也好,企業也好,都是可接受的,並且在實施中。那麼邁絡思一個做網路的供應商,我們怎麼打造一個高效雲平臺,這就是我今天要講的東西。

虛擬化

大家知道做雲無論哪個階段,第一步是做虛擬化,相信大家都體驗到虛擬化好處了,但是所有東西都是雙刃劍,虛擬化的問題是會帶來其他的一些問題,比如效能會不可靠。虛擬化做雲技術的時候我們總結了幾個問題。

第一是低效的網路協議,比如TCP/IP是比較成熟的協議,起源於廣域網,TCP/IP是核心態的協議,對其所有處理要經過CPU做處理,它會有協議轉換的消耗,但是在當時那個年代網路速度沒有那麼快,TCP/IP協議延遲。

如果大家熟悉的話,差不多是在220—250微妙延遲,微妙級延遲對於我們早幾年的時候沒有感覺,但是在研究或者從今天開始,SSD的普及,高速網路的普及,包括延遲的普及,大概我們會發現慢慢的200多微妙延遲會影響整體效能,為什麼?

大家知道現在SSD延遲也在微妙級別了,網路延遲一般也是在微妙,我們的網路是納秒級別,如果大家發現網路卡在幾十微妙的時候,TCP/IP協議在200微妙以上,這時候大家發現真正影響效能的瓶頸就在協議本身,所以TTP協議未來會在高效能環境裡面,TCP/IP會變成瓶頸,所以就需要RDMA跑在你的乙太網上提高效率。

SR-IOV

大家知道在做虛擬化以後,有一個問題是通訊怎麼辦。從開始從零到一,用虛擬交換機解決從零到一,讓它工作了,但是效率怎麼樣?

你真正部署以後,虛擬交換機會變成你的瓶頸,它的效能沒有那麼高,會變成瓶頸。SR-IOV就把計算虛擬化和我們網路做了很好的結合,上層虛擬機器直接和底層網絡卡做對映,這樣不經過虛擬機器和核心,效率相當於訪問了我的裝置,虛擬化懲罰不到了。

DPDK

另外大家都知道DPDK是很流行的開發語言包,DPDK初衷也是類似的東西,因為TCP/IP也是制約了系統的效能,我們通過PMD可以更直接,更方便訪問我們裝置,我們會讓上層DPDK訪問的時候讓效率更高效,這樣同樣達到裸機的效果。

我們通過DPDK+PMD的結合,可以讓效率進一步提升。大家可以看到在40G網路裡,我們的鏈路可以到35.7GB,在雲環境裡,用了VXLAN解除安裝以後加上各種技術,到了37.5,同時不需要額外的CPU資源。

這時候大家會想到一個問題,我們一直講雲端計算,最重要的就是計算,在沒有采用這個技術之前,大家會發現你在封裝、解封裝甚至協議處理的時候,會消耗你相當大的CPU,我們有一個分享的資料。

CPU

我記得去年的時候,有一個廠商提到在萬兆環境下,用來做包處理的時候,會消耗CPU30%—40%,在這種情況下,能夠用來做計算的就非常有限了。所以用了VXLAN之後,會CPU釋放出來,不需要CPU,可以將35%的CPU釋放出來,如果沒有用VXLAN做的話,CPU會消耗35%,用了VXLAN以後,CPU不再消耗,這也是我們主要的貢獻。

ASAP2

還有一個叫ASAP2,ASAP大家比較熟,是儘可能快,我們ASAP2從字面來看我們是可以快到極致,這是我們自己開發新的技術,所謂加速交換包處理。在這個裡面我們有幾種方式,時間原因我只介紹幾個,第一個是ASAP2解除安裝,我們把上層虛擬機器和底層硬體做溝通,所有包處理,所有協議處理,都是通過網絡卡硬體本身直接做工作,這樣效率得到提升。當然還有可以部分來做,比如有控制部分,還是做傳統通過核心來控制,真正大量消耗CPU,這些我們都可以進行解決。

DPDK

另外是DPDK加速的OVS,在我們認為的世界裡,相當快的速度了,和ASAP2比,哪個孰高孰低?大家看到在第一個場景是1流,沒有用XVLAN,幾乎不消耗CPU,還有一種情況是2000流,用VXLAN可以到25MPPS,大家可以看到這兩個差距很大,同時CPU消耗沒有,但是在DPDK裡還是要消耗CPU的,只比之前好一些,但是還是需要四個核。所以我們真正在雲端計算世界裡,讓計算做CPU該做的事。

下面看一下怎麼加速我們的網路,因為剛才宋老師也提到儲存,現在儲存是不可避免的話題。所謂的網路三大件,網路本身我們做得很好,同時把CPU也能夠釋放CPU資源,我們再看儲存有什麼變化。我們做交換機實際上是這個領域比較成熟,有人說是紅海,我覺得不是紅海,整個新的架構和新的技術、應用出現,會對網路提出新的要求,這也是一個新的變化。

交換機

我們的交換機是從晶片和交換機本身都是我們自己的,和市面上看到絕大多數的交換機,第一個是高頻寬到極致,100G,低延遲在200納秒,還有包括在丟包問題。

我相信大家回去看一下,你們交換機做的時候都有丟包問題,但是我能告訴大家,我們交換機是不丟包的,在儲存裡面或者在雲端計算裡面是能夠提到效率很大的保障。大家知道丟包不是說不能接受,而是說會使你發了包要重新發,意味著對方接收的時候需要重新排列了組合,效率會降低,所以不丟包是最樸素的要求。

OpenStack

剛才提到儲存,我們看一下OpenStack儲存的加速,還是資料說話,可以看到TCP/IP網路和RDMA加速以後效能有什麼變化。

我們可以看到同樣網路下,效能會有6倍提升,其實6倍不止。為什麼?如果你的PCI足夠高的話,比如PCI3x16、32效能會進一步提升。另外在Ceph,大家看到用RDMA的時候效能也有三倍的提升。

另外在EC裡,它會消耗CPU,我們會把消耗CPU做運算的放在網卡里做,同時在分散式架構裡讓你的效能得到提升,成本降低的同時保證安全性。

前面講了對網路的加速,對儲存的加速,對CPU釋放,再講一下落地的東西,我相信所有的東西,落地一定要有易用性或者開放性。

開放網路

我們網路資料中心是開放網路,大家可以看到我們提供的檔案,也可以在上面跑不同的作業系統,利用我們高效能,低頻寬網路執行在這個環境裡。

OpenStack

這裡面有幾個抓圖,這是我們的介面,因為我們和OpenStack結合已經很成熟了,所以我也不講太多了。

RoCE

最後有幾個案例,大家知道微軟從2012的時候就開始支援我們的RoCE了,利用RoCE在同樣的硬體情況下,效能和頻寬有兩倍提升。

騰訊

還有在騰訊,我相信關注雲的應該在春節前,騰訊釋出了新聞,在整個雲端計算排序裡面,騰訊拿了第一名,第一個是比去年成績提高了5.8倍,單節點效能提高33倍,在騰訊雲裡面有騰訊領頭的,也有我們和IBM幫助騰訊的,這裡面用的就是我們100G的網路。

文章來自微信公眾號:雲端計算開源產業聯盟