1. 程式人生 > >美團雲&驢媽媽技術交流 支撐千萬日訂單的雲計算基礎運維

美團雲&驢媽媽技術交流 支撐千萬日訂單的雲計算基礎運維

研究院 數據匯總 監測 分享圖片 agent 健全 ups 繼續 選路

近日,中國旅遊研究院發布的《中國國內旅遊發展年度報告2017》顯示,2016年全年國內旅遊市場繼續保持12%以上的高速增長,旅遊人數和旅遊收入均創歷史新高。旅遊市場的持續火爆對在線旅行服務提出了更高要求,除了要滿足用戶一站式完成國內外機票、酒店、景點的預訂需求外,APP運行的速度和穩定性也不容忽視。

為了給用戶帶來完美的使用體驗,美團點評旗下共有雲平臺——美團雲與國內知名綜合性旅遊網站驢媽媽就在線旅行背後的基礎運維進行了深入交流。驢媽媽是國內自助遊的領軍品牌,同時也是中國景區門票在線預訂模式的開創者,在在線周邊自助遊領域占據行業領先優勢。

穩定的基礎平臺服務

提起基礎設施,一般會想起服務器、IDC和網絡,但作為國內最大的生活服務電商平臺,美團點評每日產生的訂單量超過1800萬單,在基礎運維方面需要更多保障。美團雲基礎運維負責人胡湘濤介紹稱,為了讓業務高效地傳遞給用戶,除了基礎設施,美團點評還構建了一個堅實穩定的基礎服務平臺,承載著團購、外賣、點評等全部業務。

技術分享圖片

美團點評基礎服務平臺結構圖

美團點評基礎服務平臺底層為物理層,包括服務器、網絡、動力環境。上面一層是IP的控制層,比如網絡、路由表、路由協議等。為了將服務穩定地交付給用戶,美團雲在TCP/UDP層的負載均衡和DNS上做了大量和穩定性相關的工作。

基礎設施方面,美團雲選用符合T3及以上標準IDC,還配有獨立的低壓配電系統。同時空調制冷方面一般選用2N或者N+1系統,任何單臺機組出現問題的情況下不會對機房產生影響。同時在物理空間方面,美團雲選用獨立的物理空間,機房可以按照實際需求進行定制。

然而僅靠高標準的基礎設施並不能完全保證服務的穩定性。所有非標準性的操作都可能給機房帶來災難性後果,因此,美團雲在運維方面建立了完善的SOP,嚴格進行標準化操作。還鋪設機房動力監控系統,能夠看到UPS負載、電力負載、機房的溫度濕度狀況,外加人工24小時動環的巡檢。同時,因為是物理獨立的空間,美團雲每季度都要在運營中的IDC進行模擬演練。

隨著業務量的快速上漲,如何在保證數據中心擴展的同時又能保證網絡穩定性?在網絡建設方面,美團雲選擇采用雙超核的架構來解決這一問題。美團雲的機房主要在北京、上海,各是一個IDC的集群,同時美團雲使用的是雙超內網,每個IDC在建設的時候都會通過兩條異路由光纖分別連到兩個超核。因為實現了雙超核互聯,通過雙線路OLP保護,主線路中斷實行20毫秒的切換備用鏈路,在單條線路出現問題時並不會對任何業務造成影響,甚至一個單超核故障業務仍能平穩運運行。

一般的業務發展軌跡,會從單個IDC到同城容災然後異地容災,而美團雲能通過北京、上海兩個region,為業務提供異地容災的支持。美團雲北京—上海專線利用率即將達到50%的時候,技術人員會提發起專線擴容,保障整體的IDC群之間的互聯帶寬。

其次,美團雲還在北京、上海自建了BGP平臺,接入了教育網、三大運營商、以及大部分小運營商,給基礎設施帶來了充足的資源。BGP平臺和IDC同樣具備非常靈活的擴展方式,美團雲BGP平臺基本采用雙路容災,在任何一個網絡設施出現了問題或者線路出現問題的情況下能夠實現業務無感知切換。

胡湘濤強調,在做整體網絡的架構和設計的時候,美團雲非常強調網絡架構的自愈能力。任何單一線路出現了問題,第一不能對業務造成任何的幹擾;第二業務恢復的時候,實現平滑恢復,這是美團雲在基礎設施架構的設計和運維過程中遵循的最重要原則。

高可用的基礎服務

技術分享圖片

基礎服務網絡拓撲

除了穩定的基礎服務平臺,基礎服務的高效性及高可用性同樣重要,為此,胡湘濤分享了美團雲的基礎設施技術方案。從基礎服務網絡拓撲圖中可以看出,ISP是美團雲自建的BGP平臺,下面是作為負載均衡產品的MGW。左側是NAT集群負責將內網地址轉換成公網地址,為內網的機器提供internet訪問,所有的MGW、NAT都以集群方式的部署,集群可以靈活地橫向擴張,避免單點問題。

其中,MGW是美團雲自研產品,能夠為用戶提供高效穩定的負載均衡服務。同時對外提供API,方便跟運維自動化系統集成,業務關系系統也可以通過接口調用的方式,快速進行部署。

技術分享圖片

MGW Session同步

如今,單臺服務器是1200萬Session。在一臺MGW出現故障的時候,Session可以無縫地遷移到同集群其他機器,為用戶提供穩定的負載均衡服務。美團雲采用二層同步機制進行Session同步,在百萬級Session切換miss率為零。在大量連接時,美團雲采用增量同步策略,能保障新增Session快速同步到集群內部。

DNS對於基礎服務的重要性不言而喻,一旦DNS故障,一家網站就可能完全癱瘓。通常,技術人員會在一個IDC裏面至少部署兩臺DNS做互備,如下圖所示的傳統DNS架構:

技術分享圖片

傳統DNS架構

但在雲計算平臺中,傳統架構並不適用。為此,美團雲采用基於AnyCast架構。該架構上,所有的DNS解析請求發到交換機時,通過網絡就能實現最佳選路。機器擴容也非常容易,方便整個基礎設施架構的部署,簡化了運維流程。

技術分享圖片

AnyCast DNS 架構

健全的基礎網絡質量監控

有了良好的架構和方案,影響穩定性的另一個因素便是運維。胡湘濤認為,運維是決定整個平臺穩定性的關鍵因素,如何快速發現異常找到根本原因,需依賴完善的監控體系和直觀的可視化交付。

美團點評業務及基礎設施體量非常大,情況復雜,在這種情況下,美團雲構建了完善的網絡質量監控系統,能夠對網絡狀況一目了然,快速發現問題並積極響應。

技術分享圖片

內網質量監控一期架構:監控全網ICMP質量

在內網質量監控一期中,美團雲實現了對全網ICMP質量的監控 。通過在每一組TOR下面的物理機上面部署一個Agent監控全網TOR的網絡情況。但是在美團雲如此大的體量下,完全依靠人工顯然不現實。因此,胡湘濤的團隊開發了一個叫sysop的基礎設施自動化平臺,裏面記錄了基礎設施的所有資源信息,通過自動化校驗信息的準確性。通過這個平臺可以獲取到IDC、交換機、服務器所有信息,例如監控所需的服務器SN、主機名、IP地址、上聯TOR等。一旦出現丟包、延時等情況並匹配警告策略後,系統可通過短信、電話等形式通知到對應人員。

技術分享圖片

內網質量監控二期架構:監控全網路由質量

雖然在內網質量監控一期中,美團雲完成了東西向流量端到端網絡監控,但並不能實現快速發現問題。於是,內網監控的第二期架構中加入了WJ和DBA兩個超核,每個IDC的內網核心是多線互聯的,美團雲跨機房帶寬按照業務不同在80-320G之間,在核心層面最多有32條路徑可達。而第二期所做的就是能夠同時監測到這32條路徑的網絡質量。監控二期架構完成後,通過拓撲圖和質量數據結合,網絡工程師可直觀地了解到整個網絡情況。

此外,美團雲還針對交換機、機房溫度、DNS解析以及整個機房之間的專線帶等構建了非常完善的監控體系。胡湘濤認為,沒有人能說自己的基礎設施永遠不出故障,基礎設施運維人員能做的就是最大程度避免故障,出現故障時能快速發現、快速定位、快速解決。

有了完善的監控系統,運維人員並不能就此高枕無憂。美團雲還通過監控系統,結合各項數據匯總的指標,實現了對資源的數據化運營,並且針對性的持續優化,讓基礎設施更加的穩定。目前,美團雲在基礎設施運維方面已經實現服務器操作流程的自動化、電力功耗系統的統計分析、現場可視化以及實時環境監測等。

在技術交流的最後,胡湘濤說:“平臺發展壯大是源自於用戶的選擇,我們需要給用戶提供更高質量的服務、更好的用戶體驗”。目前,美團點評已成為超6億用戶的選擇,連接著450萬商家,本月9日正式上線的美團旅行APP經過短短幾年耕耘,也已積累近億用戶。生活方式的變革離不開技術的突破,作為技術發展的底層支撐,雲計算基礎設施運維在提升在線旅行用戶體驗的過程中扮演著重要角色。

美團雲&驢媽媽技術交流 支撐千萬日訂單的雲計算基礎運維