1. 程式人生 > >元資料與資料治理|大資料治理(第九篇)

元資料與資料治理|大資料治理(第九篇)

   魅族大資料平臺的一個技術分享活動,話題是《大資料治理之路》.魅族大資料平臺工作人員分享了一些他們的大資料治理經驗,很有內容。
首先,他們整理了一個治理流程,架構圖

然後,依照架構圖,大致講了架構圖中的每個模組,以及將模組串聯起來的一個管理流程,流程圖如下:

然後,依照架構圖,大致講了架構圖中的每個模組,以及將模組串聯起來的一個管理流程,流程圖如下: 


流程圖上面,其中,“主資料管理” 模組是本人根據理解加的,下文會講到。

接著,他們重點講了“元資料管理” 模組。可能是做這方面,他們講的細一些。主要是“自研”還是使用“開源解決方案”,其中,他們介紹使用了一種叫“Apache Atlas” 的開源框架,來做元資料的管理。他們有一個“元資料平臺架構”,包括“多源資料採集”, “WEB UI” 呼叫”MetaData Api” 做資料展示,而“MetaData Core” 從底層,也就是“Apache Atlas” 獲取資料。架構圖細節比較多,如圖: 

 

然後,他們介紹了元資料採集,以及資料度量(校驗)規則。度量規則如圖: 

 

 

接著,還有介紹了他們的“資料質量管理系統”,細節比較多,就不上圖了。

 

最後,計算出來的結果資料合不合理,以及準確性高不高?為此,還有個“質量評價體系”,如圖: 


其中,指標定義:

  1. 離線任務失敗個數
  2. 離線任務整體延遲分鐘數
  3. 九點之前未完成的任務數
  4. 流平臺告警次數
  5. 規則執行完整度以及報錯情況

總之,講的側重架構方面,由於本人目前做具體開發方面比較多,現把本人對一些內容的理解分享一下。

先介紹下這些所謂“元資料”門類的概念。

元資料是什麼?
元資料(Meta Data)概念是”描述資料的資料” ,聽上去,感覺,不是很明白.哈佛大學圖書館專案定義是:”元資料是幫助查詢,存取,使用和管理資訊資源的資訊” .這下清晰了一些, 比如,如果一個app功能是用來查詢,存取等管理資料的,那麼元資料是用來幫助管理的. 再舉一個例子可能更明白一點:例如在一座圖書館中,如果認為每本書的內容都是資料,用來查詢每一本書的索引就是元資料.

這下對它的意義和功能清楚了一些,但是在管理元資料中,僅僅知道幾個例子是不夠的.我找了一張元資料的架構圖:

架構圖: 


網站上找了一張圖,從圖上看起來,元資料也是一個牽涉甚廣的東西.

元資料的一般存在形式有:

(1) 資料庫結構,和表之間的關係描述

(2) 配置檔案,如xml格式檔案;

(3) Sql 指令碼

(4) 流程圖

(5) UML圖,E-R圖

(6) …

以上大多東西,在開發中都會有用到,是實際用到的東西,以前我們知道這些東西,現在我們知道它們都屬於元資料. 魅族工作人員有介紹了一種管理工具,叫做”Apache atlas”,它能管理元資料,似乎是一個強大的工具,那麼它是什麼呢?

它的網站(https://atlas.apache.org/)介紹說:

Data Governance and Metadata framework for Hadoop

用谷歌翻譯,就是:用在hadoop上的資料治理和元資料框架工具.

它可以提供哪些功能,這裡有個功能圖:

它能治理上面提及的元資料形式嗎?

有一個使用例子,是用來使用Apache atlas 檢視資料血緣關係:

參考索引: 
https://community.hortonworks.com/articles/36121/using-apache-atlas-to-view-data-lineage.html

還有使用例子,是用來定義型別(Type)的:

pdf教程:

https://atlas.apache.org/0.7.1-incubating/AtlasTechnicalUserGuide.pdf

有興趣可以慢慢研究.

這是它的原始碼,應該是吧:

https://github.com/apache/incubator-atlas

總結: 
元資料是一個數據門類,用來描述資料,它的表現形式多樣,具有一定的抽象性,對資料整體,或區域性資料,都有一些相應的描述語言,規則和工具。 
Apache atlas 是一個hadoop系列的元資料管理工具, 它提供了完成度比較高的功能. 作為大資料開發工作者, 以前用蒼白的語言描述自己做的事情, 給之的反饋是真的不屑或假的不屑;現在有了一個可以看的東西, 給之的反饋是真的理解或假的理解.

其實元資料只是資料門類裡面的一個類別,其它的還有 主資料,參考資料,交易資料等等.這些也是一個個大類. 
下面介紹一些其它資料型別的概念。

主資料(Master Data)概念

主資料指例項化的企業關鍵資料.

主資料一般存在形式有:

(1)企業組織架構,如員工,部門等

(2)企業財務資料,如預算,利潤,合同等

(3)企業產品等資訊. 
(4)…

聽起來,開辦一個企業,就會有以上的資料,它們叫做主資料.

參考資料(Reference Data)概念

參考資料指幫助解釋和理解資料的資料.

比如, 資料庫中關於性別(sex)的資料,我們一般用1和2,而不是男和女. 這個1和2 是一個約定俗成的方式;還有,如果一個欄位peopleSum ,它表示的是一個村子的人口總數,還是一個國家,還是一個世界的人口,這個註釋就是參考資料。如果是國家人口,是哪個國家,國家有哪些,這些國家名的相關欄位,也是參考資料。

還有一個數據門類,是交易資料。

交易資料(Transaction Data)的概念

交易資料指用於記錄業務事件的資料,比如客戶的訂單,交易流水,申請記錄等。它往往用於描述在某一個時間點上業務系統發生的行為。

介紹了以上幾種資料門類,以後在描述資料時,起碼對資料範疇和資料的關聯會清晰一點,是不是?其實本人,並不知道有什麼用。

不過,本人感興趣的是,應用層面,能否藉以上概念做些定性分析?

這裡本人做了一點分析:https://blog.csdn.net/cafebar123/article/details/79836259

此外,還介紹了2個圖形視覺化工具,功能比較不錯,以後再研究下:

SuperSet
Metabase
未完待續

參考資料: 
https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0904loulj/index.html 
http://atlas.apache.org/QuickStart.html 
https://github.com/apache/incubator-atlas 
https://wenku.baidu.com/view/9b39d5b5fe4733687f21aa25.html?from=search 
https://atlas.apache.org/ 
https://community.hortonworks.com/articles/36121/using-apache-atlas-to-view-data-lineage.html 
https://hortonworks.com/blog/apache-atlas-project-proposed-for-hadoop-governance/ 
http://www.cbdio.com/BigData/2016-02/16/content_4617126.htm
--------------------- 
作者:texture_texture 
來源:CSDN 
原文:https://blog.csdn.net/cafebar123/article/details/79776701 
版權宣告:本文為博主原創文章,轉載請附上博文連結!