1. 程式人生 > >數據中臺專欄(五):數棧,企業級一站式數據中臺PaaS

數據中臺專欄(五):數棧,企業級一站式數據中臺PaaS

從數據 創建 現在 產品設計 left 引擎 采集 可能 方便

技術分享圖片

本文作者:江楓


袋鼠雲CTO,花名江楓,本名寧海元。

2007年加入淘寶,曾是雙十一大促技術指揮部成員,“去IOE”數據庫負責人。
打造過千億級實時日誌平臺、手機淘寶日誌分析創始人、阿裏雲數加平臺技術創始人。



正文:


技術分享圖片


2014年還在阿裏雲的時候,內部有一個5K+的項目,集合了當時CDO的多支團隊在北京聯合關小黑屋,希望能夠將內部廣泛使用的一套大數據開發工具打造成在公共雲上對外服務的大數據PaaS。事後來看,這個項目當時有很多爭執,也算不上多成功,尤其是和前一個名字類似的5K項目相比,有點雷聲大雨點小。但當時三豐為項目組打氣時說,外面的企業客戶對大數據PaaS產品的需求已經嗷嗷直叫,就看我們什麽時候能做出來。現在看來,這個市場在當時已經萌芽,但離真正成熟,還得有這幾年的不斷鋪墊。



5K+項目結束後,CDO整體合並進了阿裏雲事業群,在公共雲上打造大數據PaaS平臺的組織保障應該說更好了。所以2015年啟動了數加內部創業,在5K+項目的基礎上,這一次經過半年左右的時間,平臺的商業化進展順利,最終在2016年1月的上海雲棲大會上,數加正式對外發布。帶著對大數據PaaS平臺的市場認可,我也出來做了袋鼠雲,做為阿裏雲數加的首個合作夥伴,幫助不少企業客戶基於公共雲數加打造了完整的數據中臺,也可以說為這些客戶的數據化運營和數據資產化做了一些工作。


兩年多來,接觸了不少行業客戶,包括新零售、工業、文化教育、政府等,發現不同行業的企業信息化和企業數據化處於不同的階段,對於大數據的需求和理解也處於不同的程度。像數加這種基於公共雲IaaS的多租戶隔離的大數據PaaS,解決了一部分行業客戶的訴求。但還有更多的企業,基於各種不同因素的考慮,也希望構建服務自己內部的數據中臺。市場的需求比在阿裏雲內部時感受得更為強烈。數加在公共雲上有著獨一無二的優勢,但在私有化部署方面,由於一開始設計時,參照的是阿裏巴巴內部的需求,未來的願景則是負責阿裏雲公共雲上所有客戶的大數據平臺需求,集群的規模較大,在需要輕量化部署的場景,會存在一些限制。雖然內部這兩年也一直在驅動輕量化大數據專有雲產品的建設,但最小規模要做到10臺以內還有不小的難度,並且和開源生態的兼容方面也還需要繼續努力。所以市場上對於輕量級、多租戶、開源兼容的數據中臺PaaS,我認為還有著非常大的機會。


提到大數據,了解的人一定會想到Hadoop生態。Hadoop開源生態應該說比較好的解決了大數據的計算和存儲的問題,也就是大數據的基礎設施的能力問題,也可以說是大數據的IaaS。但大數據除了需要計算和存儲能力,同樣需要業務的理解,需要對數據進行采集、清洗、加工、治理、應用等一系列的處理,才可能真正的做到數據資產化和數據業務化。企業都想做數據業務化,外面的大數據公司這麽多年來也提供了很多的IaaS能力,但在這兩者之間,還存在這一個很大的gap,這個gap一方面需要有生產力工具類的產品來幫助提供升數據處理的效率,另外一方面也需要懂業務和懂技術的專家利用這樣的生產力工具來做落地,尤其是企業數據多而亂的情況下,如何規範的治理和利用數據,一直是擺在企業面前的一道難題。


說到數據中臺,不少人或許會問,和數據平臺是什麽關系?有什麽區別?這是個好問題,三言兩語還不一定能說得清楚。我把數據中臺這個概念分成廣義的和狹義的來看:


  • 廣義的數據中臺:既包括前面提到的數據生產力工具,也包括利用生產力工具來做落地的過程、組織和結果。

  • 狹義的數據中臺:專指生產力工具

從這個定義來說,袋鼠雲研發的數棧就是這麽一套數據中臺生產力工具,是一組定位在大數據PaaS層的產品集合。核心包括數據開發套件、數據治理套件和數據應用引擎。當然,為了方便客戶,數棧自身也基於Flink和Spark構建了一套支持實時計算、離線計算和學習型計算的數據計算引擎。但是,數棧不僅僅支持自帶的數據計算引擎,大部分產品模塊也支持市場上第三方的數據計算引擎,包括Cloudera、星環、MaxCompute等。所以,數棧的核心是數據開發套件、數據治理套件和數據應用引擎,而數據計算引擎是可替換可兼容的。


當然,數據開發套件、數據治理套件和數據應用引擎從最終的產品設計來看,更多是邏輯模塊的劃分。實際上為了用戶使用過程中的體驗流暢性,一部分數據治理的產品模塊也直接放進到數據開發套件,比如數據地圖和數據模型;數據治理套件目前主要包含的是數據質量;數據應用引擎則包括數據API、標簽工廠和大屏引擎,數據應用引擎根據行業和業務場景,可以不斷的從數據應用產品中下沈演化,將通用部分的功能抽象成數據應用引擎。


技術分享圖片

袋鼠雲數棧產品demo


數據開發套件是整個數據中臺PaaS的核心,是基於開源生態的Spark和Flink做為計算引擎的基礎上,為數據開發者提供了一套開發界面。一方面是方便開發者使用數據平臺,簡化數據同步和數據開發任務的創建、發布、調度、運維等一系列數據開發任務,提升生產效率。另外一方面,通過統一的開發入口,可以實現元數據的自動錄入、數據血緣關系的識別等,再配合數據地圖的類目管理和權限管理,為數據治理提供了極大的便利。數據開發是落地數據中臺的關鍵過程,既需要開發工具的支持,也需要數據建模的約束,數棧開發套件中也引入了一套基於阿裏巴巴多年數據中臺實踐的數據模工具,來幫助企業規範數據建模,提升模型的生命力。數棧的數據開發平臺,可以兼容多個物理集群,並支持在單集群上實現多租戶資源隔離,既可以幫助企業實現一套大數據平臺多個部門分租使用,也可以幫助企業整合現有多個集群統一管理。


除了數據開發套件,當前版本的數棧還有三個相對可以獨立部署的產品,包括數據質量、數據API和標簽工廠。


  • 數據質量,主要用於檢查數據任務生產的數據的質量情況。數據開發和應用開發不同的地方,在於即使數據開發任務運行成功沒有報錯,最終的結果表中的數據還是有可能不滿足業務需要,原因可能有很多,比如源表中數據異常、調度時間錯誤等等。數據質量產品支持針對表級和字段級別設定校驗規則,既可以針對單張表做校驗,也可以針對兩張表做逐行校驗。更重要的是,數據質量產品中內置了大量經過阿裏數據生產實踐沈澱下來的校驗規則,即配即用,非常方便。

  • 數據API,顧名思義,可以將數據表快速的通過配置創建成對外服務的API,加速數據業務化的過程。傳統的數據倉庫通常用於分析報表,有大量的報表類產品可以讀取數據倉庫的數據來做展現。但企業花費巨大的人力物力財力構建數據中臺,當然不會僅僅滿足於分析報表類的應用,而是希望以數據驅動為中心,實現數據和業務產品的流轉閉環,可以說數據中臺80%以上的應用場景應該是直接形成數據產品和業務產品之間實現服務連接。數據API可以提升數據服務化的效率和能力,結合API Gateway的能力,也可以將數據服務對外開放。

  • 標簽工廠,一定程度上和數據API有一些共通的地方。為什麽還要單獨設計一款產品?在多年的大數據踩坑經驗中,數據的標簽化是一個非常有效的經驗。不管是新零售場景中最關註的人的數據,一方面需要通過ID識別出人,另外一方面更重要的是將人的各種相關的數據包括行為數據、交易數據、娛樂數據等關聯到這個ID上,但這些數據有些是結構化的,有些是非結構化的,有些是顯性的,有些是隱性的,怎麽有效的利用這些數據一直是一個難題。從數據中臺的理念出發,將這些數據通過統計、算法等手段,加工成容易被上層各種數據應用產品利用的標簽,是被實踐證明高效可行的方案。標簽工廠產品的定位,就是希望將這個經驗落地成工具,加速這個過程。


當然,做為企業級一站式數據中臺PaaS,數棧的產品體系還在不斷豐富當中,比如袋鼠雲實時炫酷的數據可視化大屏的背後,也有一套可獨立部署的成熟的大屏引擎Easy[V],配合數據API,也可以賦能企業客戶自己定制大屏。同時,為了更高效的部署和監控數棧,還有一套稱之為底座的EasyManager產品做為幕後英雄,數棧集群的日誌分析則有袋鼠雲日誌可以提供完整的支撐。


現階段來說,袋鼠雲還需要不斷深入行業客戶一起共創,隨需定制。數棧,讓數據產生價值。


下篇預告


基於數據中臺的理念,成熟好用的數棧平臺可以加速釋放數據的價值。

如何做好上層的數據應用,在具體的業務場景裏挖掘數據的巨大潛力,數據中臺專欄第六篇,為大家解答。


數據中臺專欄(五):數棧,企業級一站式數據中臺PaaS