1. 程式人生 > >當S8遇上邊緣計算:談阿里雲ENS對直播業務場景的支撐

當S8遇上邊緣計算:談阿里雲ENS對直播業務場景的支撐

近日,英雄聯盟S8全球總決賽落下帷幕,中國戰隊IG零封FNC奪得冠軍。這場比賽引起了國內網友的超高關注度,也給直播平臺帶來了不小的技術挑戰。虎牙直播平臺結合阿里雲邊緣節點技術方案,保障了總決賽當日7000萬線上使用者的低延時、穩定流暢以及實時互動,為觀眾提供了流暢的體驗。

那麼類似S8賽事這樣的大型活動直播的特點和技術挑戰是什麼?為什麼業務要下沉到邊緣?自建邊緣節點和與雲服務廠商合作到底該如何選擇?邊緣節點服務(ENS)又是如何進行技術支撐?提供的針對性優化方案有哪些?本文將為你一一揭曉。

為什麼要將業務下沉到邊緣?

互動直播場景,通常包括音視訊推流、轉碼、分發、播放等核心業務模組,和彈幕、打賞禮物等互動業務邏輯,在體驗上有清晰度、播放流暢度、播放延時等方面的要求。基於上述特點分析,結合直播的體驗需求,賽事直播面臨的技術挑戰主要在以下幾個方面:

1、瞬時流量增長時的效能保證

賽事直播的直播流和觀看使用者比較集中,而且賽事的時間是計劃性的,在開賽時間的負載會有一個突發,對系統高併發壓力較大。同時,在競技比賽中的瞬時熱點事件時刻,會有更加迅猛的業務和流量壓力變化,比如比賽在一個意外情況下突然分出勝負,將會激發觀眾傳送大量彈幕,當同房間所有觀眾同一時刻傳送資料時,資料量會有一個爆炸式的增長,瞬時負載可想而知。

應對瞬時流量增長和高併發等壓力,通常從根本上有效解決的方法,一是預留足夠的資源水位,確保流量峰值時系統處理能力是滿足需求的,這就要求系統具備很好的資源彈效能力;二是通過流量排程系統,把負載分散到不同資源上並行處理,緩解單點壓力。

2、秒開/低延時/流暢度等核心體驗保障

直播的核心體驗指標直接決定了使用者的播放和觀看體驗,最常見的指標就是播放延時和播放流暢度,提升體驗指標的方法有很多,比如排程和網路鏈路的質量優化、協議優化、P2P傳輸技術、播放器優化等。

保障體驗指標的關鍵,還是在於內容分發速度和網路傳輸質量等層面,直播中的分發環節就是依賴CDN系統的能力保證網路分發的速度和質量,同時形成使用者就近訪問的效果,降低網路時延,減少跨網或複雜網路鏈路訪問帶來的不穩定。其實除了直播流分發,直播場景中還可以將更多業務模組放到邊緣完成,比如推流後的轉碼、彈幕的分發等,充分利用邊緣網路和邊緣計算的優勢,達到更好的體驗。

3、服務穩定性

服務穩定的重要性毋庸置疑,尤其在大型賽事直播中,穩定性一旦出問題,影響會非常大。
服務的穩定性首先取決於架構和方案的設計,針對系統風險點進行高可用設計,確保不出現單點故障對全鏈路的影響,核心模組要有failover能力或降級方案。其次,穩定性要重點做好監控和運維,確保故障及時發現,並具備高效的問題定位和處置恢復能力。

實際上,在面臨了以上種種業務挑戰之後,越來越多的直播平臺已經在將業務下沉到邊緣,充分利用邊緣網路和計算的優勢,第一,可以降低網路延時,為使用者提供更好的觀看體驗。第二,緩解了中心資源和單點資源的壓力,化解瞬時壓力,保障業務洪峰的平穩度過。

那麼如果自建節點,會面臨哪些問題?

1

就像上圖所說,自建基礎設施的過程中會面臨很多痛點和挑戰:

1、資產重,成本高

首先,自建基礎設施意味著從商務採購、伺服器採購等供應鏈管理、到節點建設都要自己來做,會導致資產投入過重和成本過高等問題。

2、彈效能力差

其次,當應對一些突發業務需求的時候,由於新建節點交付的週期長,彈效能力比較差,而臨時業務高峰過後又會有很多的資源閒置。

3、運維難度大

另外,自建基礎設施還帶來運維的挑戰,首先需要將邊緣節點從建設、交付到執行的整個流程管理起來,其次要管理邊緣節點內物理伺服器層面、作業系統層面、以及軟體應用層面的運維問題,出現問題時要有一組工具幫助遠端檢視日誌和問題排查定位,這些對運維的自動化和白屏化提出了很高的要求。

4、安全、可靠性考驗

最後一個挑戰是安全和可靠性方面,首先邊緣DC基礎環境的可靠性依賴第三方運營商的服務,需要應對各種複雜的情形,包括針對運營商網路割接考慮應對策略等問題。針對邊緣節點中各種可能軟硬體故障,還要有及時發現和排程的能力,這些要求將直接體現到業務架構的設計開發中,挑戰和成本都很大。另外安全方面要著重考慮網路流量安全、主機安全等不同層面的安全問題,每個層面的安全方案開發成本都很高,比如DDoS防護,當針對某個邊緣節點內IP的攻擊發生時,可能整個節點的網路都出現不可用問題,而想要達到預期的防護效果,可能需要在每個邊緣節點都部署一套軟體加硬體的系統方案。

阿里雲推出的邊緣節點服務(ENS)這個雲產品,就是針對前面提到的目標場景,來應對客戶自建邊緣設施遇到的痛點和挑戰的。ENS將阿里雲的公共雲邊界進一步拓展到邊緣,與公共雲一起完整支撐客戶“中心+邊緣”的複雜業務架構需求,真正將雲的基礎設施能力做到下沉到使用者身邊。目前該服務已經在官網上線,同時在虎牙直播平臺S8賽事護航中,得了很好的場景應用和能力驗證。

2

邊緣節點服務(ENS)對直播業務場景的支撐

我們迴歸直播業務本身,它是一個非常依賴內容分發能力的業務場景,CDN系統能夠支援主播就近推流以及直播流的分發和就近訪問,確保整個流程的低時延,同時大大降低頻寬分發的成本。而ENS正是基於已有的CDN節點形成更豐富的計算、儲存、網路、安全等能力,可以很方便地支撐客戶自有的CDN系統,以及在邊緣DC中執行的直播服務模組。

1、更好的支撐資源彈性需求

前面提到應對業務流量突發以及瞬時流量增長最有效的方法是預留足夠的資源,實際上是資源彈性的需求。目前“中心-終端”架構的業務,已經可以通過使用阿里雲的彈性計算服務輕鬆的具備這個能力;直播業務由於需要基於大量的CDN節點進行分發,其資源彈性需求有很大部分在邊緣,實際上是一個“中心-邊緣-終端”的架構。

ENS正是面向這種架構和場景需求設計的,依託ENS在全國各地區和運營商的完整覆蓋,以及節點豐富的計算和頻寬資源能力,能夠支撐大型賽事或活動的直播的資源彈性需求。ENS具備應用和映象下發能力,資源建立可以在1分鐘左右完成,極大提升資源擴縮容的效率。

2、完整開放的場景服務能力

ENS封裝了邊緣節點底層複雜的基礎設施和網路環境,向客戶提供標準的計算、儲存、網路、及安全能力,客戶不需關心底層設施和環境的各種差異,也不需關心底層運維問題。

在這些邊緣例項和算力資源上,可以將直播業務中適合放到邊緣的任何模組進行下沉,指定好資源規格及頻寬用量即可。ENS提供了多種儲存方案,以及DDoS防護能力,能夠完整支撐直播及其他多種場景的基礎能力需求。

3、可靠的連續服務能力

ENS系統是基於阿里雲飛天2.0 Apsara Edge架構設計開發,繼承了阿里雲飛天系統多年的技術沉澱,結合阿里雲全球領先的自動運維繫統,形成可靠的連續服務能力。ENS例項和算力資源通過底層自動化遷移能力確保高可用,在節點網路方面也具備完整覆蓋監控能力,實時發現網路抖動。ENS支援客戶級別的資源隔離,避免資源爭搶,這些都確保了直播邊緣業務模組執行的穩定性。

4、方便高效的運維支撐

ENS有完整易用的Web管理控制檯和OpenAPI,支援邊緣例項的遠端線上管理,支援CPU/儲存IO/網路流量等各項執行指標的實時視覺化監控,以及資料的視覺化統計分析,極大提升了監控運維的能力和效率。

5、顯著降低中心頻寬成本

ENS除了能節省業務初始階段的資源建設、開發成本,和後期的運維、管理成本外,還可以節省中心到邊緣的頻寬成本,有資料統計,平均可節約30%的中心頻寬成本。

ENS針對賽事直播業務場景的優化

阿里雲ENS團隊針對常規活動/賽事/電競直播這一業務場景,也做了很多技術優化。同時,在大型賽事直播需求下,團隊也會啟動針對性的風險評估和護航規劃,在賽事初期就開始密切跟蹤直播平臺各項業務指標、效能指標以及穩定性方面的表現,每場比賽都有專人進行值班護航,及時發現和解決直播中遇到的問題。

1、邊緣節點內彈幕服務丟包問題優化

彈幕在直播平臺是非常常見的互動模式,從技術層面一般屬於多人線上聊天室的架構,每個線上使用者的發言均廣播給線上的所有其他使用者,因此在一些重要賽點,經常性的突發極高的瞬間流量,與其它常規業務流量模型差異較大。不同時間粒度的取樣頻寬曲線如下圖所示。

3

可以看到取樣粒度稍大時頻寬波動比較平滑,根本看不出任何問題,節點頻寬水位也很充足,但秒級的頻寬瞬時波動非常大,而且頻寬峰值會打到很高,正是因為這種突發的極高瞬間頻寬,會打滿伺服器網絡卡,單節點內多臺伺服器疊加形成對交換機瞬間極大處理壓力,導致丟包。

針對以上問題,ENS通過網絡卡流量整形的方式,避免資料瞬間集中廣播。流量整形後經線上驗證效果良好,可以有效避免丟包情況的出現。

2、部分網路傳輸業務例項丟包問題優化

直播的效果是依賴網路傳輸的,部分網路傳輸業務的例項會發現丟包問題,針對這個問題,ENS也會進行一些優化。首先進行排查,如交換機、例項本身有沒有異常,CPU負載高不高,丟包的嚴重程度與頻寬密切相關。然後,進一步對例項CPU多核負載進行分析,定位問題源頭所在。

4

比如部分核心負載過高,網絡卡中斷處理能力不足導致時延和丟包率上升的情況下,ENS可針對例項開啟RPS特性,從而保障例項的時延和丟包率的正常。在平時業務5倍壓力的情況下,ENS例項仍能保證效能和服務穩定。

3、定製化監控

針對直播的業務特點,以及活動/賽事/電競等大型活動期間核心關注點,阿里雲邊緣計算團隊基於過往經驗,和客戶的溝通,進行了深入分析,將該業務場景下的資料進行視覺化監控。

ENS支援定製化開發,更貼近使用者業務需求的監控報警能力,在網路抖動、節點和例項實時服務能力等方面確保第一時間發現問題並通知客戶,與客戶的系統形成聯動,在最短的時間內響應並解決問題。在重大賽事的護航方面,根據比賽時間開發自動化排班值班系統,形成響應和處理的專項綠色通道,保障服務穩定性。

關於ENS多儲存方案及安全能力

除了直播場景,ENS在其他邊緣場景支撐上還有不少關鍵能力。

1、多種儲存方案支撐更豐富的場景需求

不同業務場景對例項塊儲存的需求差異比較大,體現在儲存容量、IO效能、儲存可靠性等不同方面,業務邏輯有狀態的場景可能需要確保資料不丟失或可恢復,像CDN等業務場景則需要海量儲存空間,並且IO讀效能足夠高。這些需求用統一一套儲存方案很難將各類需求支撐到極致,ENS設計開發了雲盤、本地盤等多種儲存架構的方案,能夠支援各種儲存需求。從目前線上的反饋看,無論是IO效能、IO吞吐,還是儲存容量、儲存高可用等各方面都形成了穩定的服務能力。

  1. 邊緣節點安全能力

ENS邊緣節點還具備網路流量安全防護能力,支援DDoS檢測和清洗,當針對某個邊緣節點內IP的攻擊發生時,能夠秒級實時檢測發現並自動進行流量清洗,同時結合IP黑洞能力為節點提供高可用的穩定持續服務能力,控制風險範圍。客戶還可以結合阿里雲的雲盾等其他安全產品一起使用,達到更好的整體安全防護效果。

除了直播,其他業務如何應用ENS?

邊緣節點可以支援全網廣覆蓋、本地化服務兩個類業務場景。
5

第一,在全網廣覆蓋這類場景中,主要以網際網路行業的線上業務為主,對服務的目標範圍一般是沒有太多區域限制的,邊緣節點也要做到全網足夠廣泛的覆蓋。比如CDN業務本身就是典型的邊緣計算場景,可以無縫地直接跑到ENS上,從而為整體成本、運維能力等方面帶來明顯的收益和提升。互動直播和實時音視訊通訊,則是低時延的要求以及頻寬成本節省的訴求。探測監控這類業務需求主要是希望在距離使用者最近的邊緣,匹配真實的業務和網路環境,去探測一些業務邏輯的正確性、業務穩定性以及核心業務的效能指標等。遊戲加速和SD-WAN,這類場景本質是希望在邊緣節點上做邊緣軟閘道器或軟路由,通過網路協議和網路鏈路的優化,完成加速和安全等目標,邊緣節點在其中起到的作用與實時通訊是類似的。

第二大類的典型場景是本地化,關注的是十公里以內超低時延及大頻寬業務場景,要求延時在1ms以內來滿足業務需求。這類場景更多偏向傳統行業或者線下業務,具有區域性的特點。比如城市大腦這類場景中的視訊監控上雲,新零售場景中一些店鋪在視訊AI及監控的自動化識別和售賣等環節的應用上雲,本地行業的一些IT設施上雲等,這些阿里雲都在逐步形成成熟的案例。

目前,ENS服務已經在阿里雲官網正式上線,支援直接線上申請開通、控制檯建立算力資源、進行業務部署和效果測試。同時,業務正式上線運營後,可直接通過控制檯管理、檢視用量和動態監控。產品諮詢可加入加釘釘群:21740823

6

在本月,ENS也推出了包年7折特惠活動,歡迎大家點選連結,瞭解活動詳情與購買
https://promotion.aliyun.com/ntms/apsaravideo1111.html?spm=a2c4e.11153940.blogcont667325.16.5df7322eWnGqqx
7

作為國內最大的雲端計算服務商,阿里雲沉澱了一整套大型賽事直播護航實戰經驗及解決方案。全球範圍內擁有1500多個CDN節點和連線使用者最後10公里的大量邊緣節點,結合視訊雲的實時媒體處理、智慧稽核、雲導播、雲剪輯、安全防護等解決方案,給予直播平臺能力與效率的全面提升。如今,超大規模的媒體處理平臺與CDN、ENS深度融合,更可以實現豐富計算能力、低時延、低成本的協同,使得在邊緣節點上可以直接完成視訊的分析和計算,為客戶創造更多價值。
瞭解活動詳情與購買
https://promotion.aliyun.com/ntms/apsaravideo1111.html?spm=a2c4e.11153940.blogcont667325.16.5df7322eWnGqqx
7
原文連結 https://yq.aliyun.com/articles/667325