1. 程式人生 > >“阿裏巴巴大數據系統體系”學習筆記-綱領篇

“阿裏巴巴大數據系統體系”學習筆記-綱領篇

同時 廣告 計算 業務需求 學習筆記 com 之一 離線 滿足

“你是做什麽的?”

“數據產品經理”看到對方一臉懵逼之後,再補充一句“大數據相關的工作”

“哦~,高大上,不懂”

過去5年,“大數據”是最火的一個概念,被紛繁解讀。在我看來,數據跟石油、煤炭一樣是一種資源。這種資源其實很早之前就被發現、被應用。只不過因為互聯網的發展,數據這種資源呈現出了“爆炸式”的增長,而人們也發現了它巨大的潛在價值;預計到2020年,全球數據總量將超過40ZB(相當於40萬億GB)。

所以面對如此“量大”、“價值大”的資源,我們需要建立一套從數據采集、計算到服務到應用的“大數據體系”,就跟“石油體系’一樣有勘探、采集、傳輸、加工、應用等;由此也萌生出一批“大數據體系”相關的工種。

阿裏巴巴作為距離大數據最近的公司之一,既有豐富的數據資源也有豐富的應用場景,從它建構的大數據體系了解“大數據”這條生態鏈的全貌,我認為是比較科學的。

“阿裏巴巴大數據系統體系”設計原則:滿足不斷變化的業務需求,同時實現系統的高度擴展性、靈活性以及數據展現的高性能。

“阿裏巴巴大數據系統體系”主要分為數據采集、數據計算、數據服務和數據應用四大層次;

數據采集

Web端日誌采集技術方案:Aplus.JS

APP端日誌采集技術方案:UserTrack

生產業務—>大數據系統傳輸:

TimeTunnel(TT),既包括數據庫的增量數據傳輸,也包括日誌數據的傳輸;既支持實時流式計算,也支持各種時間窗口的批量計算;

數據同步工具(DataX和同步中心)直連異構數據庫來抽取各種時間窗口的數據;

數據計算

MaxCompute-離線計算平臺:阿裏自研的離線大數據平臺,擁有強大的存儲和計算能力;

StreamCompute-實時計算平臺:阿裏自研的流式大數據平臺,支持流式計算需求;

OneData-數據整合及管理體系:數據整合及管理的方法體系和工具,大數據工程師在這一體系下,構建統一、規範、可共享的全域數據體系,避免數據的冗余和重復建設,規避數據煙囪和不一致性。

數據服務

OneService-統一的數據服務平臺:以數據倉庫整合計算好的數據作為數據源,對外通過接口的方式提供數據服務,主要提供簡單數據查詢服務、復雜數據查詢服務和實時數據推送服務三大特色數據服務

數據應用

數據作為新能源,需要通過合適的應用提供給用戶,讓數據最大化地發揮價值。應用表現可以在搜索、推薦、廣告、金融、物流等各個方面。

f183c15f90e53f86346258be025f4c0f1710124b
轉載:數據產品筆記本

“阿裏巴巴大數據系統體系”學習筆記-綱領篇