1. 程式人生 > >一文深度解讀阿里雲CDN實時日誌的前世今生:挖掘實時資料的無限價值

一文深度解讀阿里雲CDN實時日誌的前世今生:挖掘實時資料的無限價值

阿里雲CDN實時日誌服務可以將CDN採集的日誌,秒級的交付給使用者, 並且可以對採集到的日誌進行實時、互動式分析和報表呈現,為監控、報警、渠道分析、運營分析提供實時、可靠的資料參考,讓使用者遠離鎖事,專注資料價值。

12月26日,阿里雲CDN實時日誌服務舉辦線上直播發佈會,全網首次深度解讀阿里雲CDN大資料系統技術演進、產品特性、應用場景與業務實操。

CDN實時日誌源起何處?

阿里雲CDN從2014年正式商業化至今,服務了百萬域名,每天處理數PB的資料,並應對億級併發的洪峰流量,實現最低秒級延遲,並且提供100%的高資料準確性服務。伴隨系統規模發展,CDN產生的日誌資料量也越來越龐大,同時CDN業務場景下的原始資料分佈廣泛、處理環節複雜、使用場景繁多等等現狀也給阿里雲大資料系統帶來了不小的挑戰。

另一方面,阿里雲CDN服務了全球三十多萬客戶,在與客戶溝通中,通常會面臨這樣的問題:

1. 使用者無資料來源

絕大部分的CDN產商都只提供離線日誌下載,日誌資料從產生,到使用者可下載,需要幾十分鐘到數個小時不等。這樣大的資料產生延時,大大削減了高實時性要求場景的資料分析價值,無法驅動運營調整策略

2. 無法進行實時監控報警

無法實時把握CDN服務效能,對線上問題排查的不及時,遇到問題的災備方案對客戶端有感,進而無法實現更自動化、智慧化的運維,不能提前發現業務瓶頸,進一步提升CDN的服務質量

3. 資料分析及視覺化的開發、運維成本高昂

為了解決各類定製化的資料分析需求,使用者通常需要自建資料倉庫, 自建流式和離線分析平臺, 資料視覺化平臺。投入大量建設資金的同時, 還需要投入大量的研發和運維人力

4. 自建系統技術挑戰大

整個資料平臺的資料來源廣泛,資料處理方式複雜,隨著業務的快速發展, 對系統穩定性、資料實時性、資料準確性、全球化服務能力也不斷提出嚴苛的要求。使用開源軟體對企業的技術挑戰很大, 在效能、成本、定製化、穩定性也未必能跟上業務要求。

綜上所述,更通用、實時、準確的日誌獲取, 分析和視覺化的需求逐漸凸顯,阿里雲CDN大資料系統在這個背景之下走上了技術演進之路。

阿里雲CDN大資料系統架構演進

起初,阿里雲CDN大資料業務架構完全基於開源軟體搭建,但是隨著業務系統越來越大,我們發現在開源方案中解決問題的成本也越來越高,考慮到成本和後續服務的及時性、穩定性、定製化等因素,逐漸將開源方案以集團內部自研方案來替換。

比如,Scroll這個協議就是自研的一套日誌資料編解碼方案;Crimea是在節點上進行資料基礎的採集、降維分析以及資料持久化的自研應用;Blink是阿里集團的流式計算平臺; MaxCompute是阿里雲對外售賣的通用離線分析平臺。

阿里雲高階技術專家姜曉東表示:“整個CDN的業務逐漸複雜,對業務的穩定性要求也更高,資料是穩定性的基礎條件,網路條件再好,硬體條件再好,缺少資料決策的能力,也不可能做到非常高服務能力。我們可以預測到阿里雲CDN系統會有PB/EB級別的規模資料增長,同時我們對於資料的完整性、可用性、全球化部署等指標都有比較高的追求,所以我們逐漸演進、整合沉澱了現有的大資料解決方案。”

如今的架構在CDN節點上實現了資料採集和第一步資料降維分析,延遲低,穩定性高;所有資料傳輸通過阿里雲SLS和OSS來完成,通過SLS遍佈全球的接入點實現秒級可見,對於批量或者檔案處理,通過節點把資料寫入OSS,再進行讀取和分析;在資料分析這層,採用了阿里集團的MaxCompute和Blink的方案,實現離線大規模資料分析和線上流式分析。同時,SLS也使用了CDN的動態加速能力,提高在海外和弱網情況下的資料投遞成功率。

該技術架構具有以下兩個技術優勢:

一、在資料採集階段,自研了Scroll+Crimea應用,具備優秀的計算和容災能力,運用內容自解釋、高效編碼、邊緣預處理與降維分析、自動容災處理、任務隔離等方案,確保了資料完整性、實時性和準確性。
二、基於SLS實現全球多部署點寫入,無縫對接儲存和分析平臺,達到秒級延遲,支援單次10億級別的分析,並且無需付出程式碼和運維成本,能夠實現快速、穩定、低成本、高容量的傳輸和分析

用資料價值賦能使用者 CDN實時日誌服務誕生

CDN實時日誌服務基於阿里雲CDN大資料系統解決方案,將日誌的實時採集、多維分析、視覺化運營、監控與報警打通,形成一站式解決方案,整個系統中複雜的事情都交給阿里雲來做,讓使用者儘可能地可以遠離“瑣事”,更專注挖掘資料價值,專注在業務本身。

它具有以下五大優勢:

一、延時不超過60秒

CDN實時日誌可以從全球多個區域、數萬節點實時採集日誌,通常延時不超過60秒,否則日誌的實時價值大打折扣。同時,在開通服務後,CDN將日誌資料自動投遞到日誌服務(SLS),免去繁瑣的傳統日誌分析的流程,實時檢視日誌分析結果。

二、平均節省60%成本

使用實時日誌還可以大幅降低資源、人力運維、分析等成本,以某家大型公司為例,每天系統產生日誌約100億條,自建Hadoop+Es叢集,叢集規模1500+伺服器,運維+研發10人左右,一年總成本大約需要5000多萬。而使用實時日誌,平均減少投入60%以上,運維只需要將精力集中在訪問監控上,而運營將精力聚焦在業務分析上,更專注業務本身。

三、多維度SQL分析,秒級10億+規模

CDN實時日誌系統支援每天千億、萬億的日誌7*24小時不間斷採集,並實時對海量日誌進行多維度分析,流計算系統在毫秒級。讓使用者更加專注於和業務更緊密、更有價值的資料“分析”上。

四、資料視覺化及大資料探勘

最終分析結果的展示也非常關鍵,CDN實時日誌可以為使用者提供基於業務的視覺化報表服務,使用者可輕鬆地掌控業務健康度、快取命中率、平均下載速度、流量情況、網速、運營商、延時分佈等資料。

五、日誌、監控、告警聯動的一站式解決方案

在CDN場景下,對服務的可用性、效能要求苛刻,需要對於各類異常進行實時、準確的報警,這就需要依賴可靠的監控報警系統。CDN日誌系統未來將和監控、告警、處理機制聯動,自動化的解決常規問題,縮短業務故障的時間,避免使用者損失。

CDN實時日誌典型應用場景

適用場景一:直播

在直播場景下,使用者訪問集中,資料時效性非常強,對系統的穩定性要求又極其高,通過CDN實時日誌可以獲取秒級推流狀態,並通過日誌分析自定義報表,快速進行訪問監控和錯誤追蹤。

• 推流概覽 : 實時知道當前的推流數量、各個推流的流量和速度、從各省、運營商維度統計 
• 推流質量:多維度的推流質量統計、重點推流的實時質量監控 
• 錯誤根源追蹤:快速定位錯誤產生的源頭(直播源、服務端、客戶端、運營商等)

比如,虎牙直播就採用了CDN的實時日誌服務,將訪問節點的日誌實時獲取後對日誌進行分析,對可能的使用者執行風險進行及時預警,實現故障自愈和問題定位,同時實時評價CDN節點健康度,主動發現影響客戶體驗因素,遮蔽質量較差的節點和線路。

適用場景二:大型活動或突發事件監控

在類似雙12雙11的大型營銷活動中,網站的訪問突然激增,通過CDN實時日誌可以快速搭建當前節點一系列資料報表,判斷節點和運營商的訪問質量,保證終端使用者訪問順暢。在此基礎上,運營可以通過使用者分佈、終端分佈和版本分佈,優化資源投放以及實時調整策略,真正實現資料驅動決策。

• 整體質量: 
健康度 : 在所有的訪問中,有多少請求是成功的 
Cache命中率 : 命中率越高,使用者訪問延時越低,體驗越好 
下載速度 : 這也是關係到播放質量的重要因素 
• 多維度分析: 
top域名訪問次數、流量 : 重點域名的訪問質量 
地域、運營商統計:各個鏈路的質量 
下載量、速度、延時:多項關鍵指標 
• 錯誤診斷: 
實時錯誤QPS、比例 : 整體錯誤情況 
錯誤Top 域名、URI : 錯誤是否和自身相關 
錯誤Top 地域、運營商 : 錯誤是否和外部因素相關 
錯誤客戶端分別 : 是否是新發布版本引入的問題

除了以上兩個典型場景,CDN實時日誌還可以應用在遊戲直播監控或報警、線上教育直播監控或報警、網站大型推廣或內容投放效果分析,網站促銷活動監控或效果分析,內容運營效果分析等場景之下。適用不僅限於遊戲、電商、教育、體育賽事、機酒訂購等行業。

CDN實時日誌接入與實操指南

點選連結跳轉服務詳細文件與開通指南

開通僅需三步:

一、開啟CDN控制檯,點選日誌-實時日誌推送,點選開通日誌服務,按照指引步驟操作。

二、單擊建立實時日誌推送服務,配置Project、Logstore、地區等資訊,然後單擊下一步。

三、選擇關聯域名並繫結,然後單擊建立。

開通完畢,如何檢視報表,進行日誌分析?

CDN預設幫使用者建立了4張報表,分別是CDN基礎資料、錯誤分析、熱門資源和使用者分析,使用者可以通過這四張報表可以快速的去檢視CDN的質量和分佈資料。

同時,使用者也可以通過日誌分析進行定製化的查詢,查詢完成後,可以將查詢內容儲存到現有的報表,或者是新建一份報表。另外,也可以將報表的任意統計項或者當前查詢項儲存為報警項,及時的發現和定位問題。

 

實操演示:

釋出會直播的最後,CDN高階產品經理容蓓帶著使用者實操演練了整個開通和操作的流程,點選回顧視訊版,上手更輕鬆:https://yq.aliyun.com/live/699

此前,阿里雲CDN實時日誌系統經過了長期演進,已經成功運用在世界盃、雙11等阿里集團大型活動之中,為活動提供實時、可靠、全面詳實的資料監控系統。在當今大資料時代,阿里雲會將同款能力開放賦能給行業使用者,挖掘資料的無限價值,讓業務決策快人一步。

技術紅利來啦:12月26日至2月28日,CDN實時日誌7折優惠,低至0.042元/萬條,歡迎大家登入CDN控制檯開通與使用。


原文連結
本文為雲棲社群原創內容,未經允許不得轉載。