1. 程式人生 > >使用Atlas進行元資料管理之Atlas簡介

使用Atlas進行元資料管理之Atlas簡介

背景:筆者和團隊的小夥伴近期在進行資料治理/元資料管理方向的探索, 在接下來的系列文章中, 會陸續與讀者們進行分享在此過程中踩過的坑和收穫。

元資料管理系列文章:

[0] - 使用Atlas進行元資料管理之Atlas簡介
[1] - 使用Atlas進行元資料管理之Glossary(術語)
[2] - 使用Atlas進行元資料管理之Type(型別)

0. 當我們談論資料治理/元資料管理的時候,我們究竟在討論什麼?

談到資料治理,自然離不開元資料。元資料(Metadata),用一句話定義就是:描述資料的資料。元資料打通了資料來源、資料倉庫、資料應用,記錄了資料從產生到消費的全過程。因此,資料治理的核心就是元資料管理

資料的真正價值在於資料驅動決策,通過資料指導運營。通過資料驅動的方法判斷趨勢,幫住我們發現問題,繼而推動創新或產生新的解決方案。隨著企業資料爆發式增長,資料體量越來越難以估量,我們很難說清楚我們到底擁有哪些資料,這些資料從哪裡來,到哪裡去,發生了什麼變化,應該如何使用它們。因此元資料管理(資料治理)成為企業級資料湖不可或缺的重要組成部分。

可惜很長一段時間內,市面都沒有成熟的資料治理解決方案。直到2015年,Hortonworks終於坐不住了,約了一眾小夥伴公司倡議:咱們開始整個資料治理方案吧。然後,包含資料分類、集中策略引擎、資料血緣、安全和生命週期管理功能的Atlas應運而生。(PS:另一個應用的較多的元資料開源專案是Linkedin 在2016年新開源的專案:WhereHows

)Atlas目前最新的版本為2018年9月18日釋出的1.0.0版本。

1. Atlas介紹

Atlas 是一個可伸縮和可擴充套件的核心基礎治理服務集合 ,使企業能夠有效地和高效地滿足 Hadoop 中的合規性要求,並允許與整個企業資料生態系統的整合。

Apache Atlas為組織提供開放式元資料管理和治理功能,用以構建其資料資產目錄,對這些資產進行分類和管理,併為資料科學家,資料分析師和資料治理團隊提供圍繞這些資料資產的協作功能。
Atlas High Level Architecture

2. 特性

2.1 元資料型別 & 例項

  • 各種Hadoop和非Hadoop元資料的預定義型別
  • 能夠為要管理的元資料定義新型別
  • 型別可以具有原始屬性,複雜屬性,物件引用;可以繼承其他型別
  • 型別(type)例項(稱為實體entities)捕獲元資料物件詳細資訊及其關係
  • 可以更輕鬆地進行整合用於處理型別和例項的REST API

2.2 分類

  • 能夠動態建立分類 - 如PII,EXPIRES_ON,DATA_QUALITY,SENSITIVE。
  • 分類可以包含屬性 - 例如EXPIRES_ON分類中的expiry_date屬性。
  • 實體(entities)可以與多個分類(classifications)相關聯,從而實現更輕鬆的發現和安全實施。
  • 通過血緣傳播分類 - 自動確保分類在進行各種處理時遵循資料。

2.3 血緣

  • 直觀的UI,用於在資料流轉時,通過各種流程時檢視資料。
  • 用於訪問和更新血緣的REST API。

2.4 搜尋/發現

  • 直觀的UI,按型別(type),分類(classification),屬性值(attribute)或自由文字搜尋實體。
  • 豐富的REST API,可按複雜條件進行搜尋。
  • SQL搜尋實體的查詢語言 - 域特定語言(DSL)。

2.5 安全和資料遮蔽

  • 用於元資料訪問的細粒度安全性,實現對實體例項的訪問控制以及新增/更新/刪除分類等操作。
  • 與Apache Ranger整合可根據與Apache Atlas中的實體相關的分類對資料訪問進行授權/資料遮蔽。例如:
    • 誰可以訪問分類為PII,SENSITIVE的資料。
    • 客戶服務使用者只能看到分類為NATIONAL_ID的列的最後4位數字。