1. 程式人生 > >大資料平臺架構思考

大資料平臺架構思考

筆者早期從事資料開發時,使用spark開發一段時間,感覺大資料開發差不多學到頭了,該會的似乎都會了。在後來的實踐過程中,發現很多事情需要站在更高的視角來看問題,不然很容易陷入“不識廬山真面目”的境界。最近在思考資料資產管理平臺的建設,進行血緣分析開發,有如下感悟:

大資料平臺從資料層面來說,包括資料本身和元資料;從業務層面來說,在資料中心(資料倉庫)的基礎上,支撐資料分析、資料探勘,提高其分析、挖掘效率;從管理角度來說,為了提升開發效率,需要利用好元件管理平臺,對元資料進行管理,打造資料開發運維平臺。

在此基礎上,一個完善的大資料架構,至少包括三個方面:

  1. 開發元件管理平臺:用於搭建和管理大資料開發元件,如etl、hdfs、hbase、presto、kerbose等;
  2. 資料資產(元資料)管理平臺:元資料採集、元資料管理、血緣分析、資料質量、資料標準、資料指標、資料生命週期管理等。
  3. 開發運維平臺:資料脫敏、許可權管理、排程管理、開發管理、釋出管理、運維監控與預警等等。

大資料架構設計需要兼顧不同需求,根據不同的資料分析、資料探勘場景,在資源限制與效能要求下,提供不同的平臺方案。

對於大資料架構師,不僅要熟悉各種元件的使用及其適用場景,還需要熟悉元件管理、元資料管理、開發運維管理等。其搭建的平臺,能否提高資料分析效率,能否提高資料探勘的效率,能否保證資料質量,能否打通整個資料鏈條等。