1. 程式人生 > >Pandora資料工廠之資料儲存系統架構

Pandora資料工廠之資料儲存系統架構

資料儲存系統概述

資料儲存系統作為大資料平臺最核心的資料基礎,不再僅是傳統分散的、單一的底層裝置。除了要具備高效能、高安全、高可靠等特徵之外,還要有虛擬化、並行分佈、自動分層、彈性擴充套件、異構資源整合、多樣性等多方面的特點,才能滿足具備大資料特徵的業務應用需求。針對數量的持續增長、多樣性以及快速移動性等特點,我們需要採用多種大資料儲存技術相結合來解決大資料儲存的不斷變化的多樣性需求。大資料平臺數據儲存採用了關係型資料庫Mysql、HDFS、記憶體儲存、物件儲存、網路檔案儲存、文件儲存和歸檔儲存等儲存技術來滿足不同的業務需求。

資料儲存架構

在這裡插入圖片描述

  • 客戶端

    負責把前端使用者訪問的請求,封裝成command,傳給邏輯層

  • 邏輯層

    主要有兩個功能,一是維護資料字典,二是接受客戶端的command,並把command轉化成action傳給物理層

    • catalog

      同關係資料庫的catalog

    • schema

      同關係資料庫的schema

    • table

      同關係資料庫的catalog

  • 物理層

    • Interface

      接受上層傳過來的action和讀取資料字典,呼叫Parser轉化為相應的執行操作,對於關係資料庫而言就是SQL Interface

    • Parser

      把Action轉化為底層Operator,具體流程為:根據action、資料字典和儲存引擎,轉化為底層引擎的操作。如上層action是建立表,底層儲存引擎是mysql,轉化為create table sql語句

    • Optimizer

      優化Parser的解析結果

  • 儲存層

    資料儲存的介質,型別如下:

儲存引擎型別

  • mysql
  • Hbase
  • Hive
  • Kafka
  • Elasticsearch or Mongodb
  • ceph

資料型別

  • 關係型資料庫(mysql)

  • 資料倉庫

    ​ 資料倉庫的加工鏈路遵循業界通用的分層理念,包括ODS、DWD、DWS和ADS。通過資料倉庫不同層次之間的加工過程實現從資料資產向資訊化資產轉化,並且對整個過程進行有效的元資料管理及資料質量處理。

  • 文件資料

  • 非結構化資料

    ​ 物件儲存是一種海量、安全、低成本、高可靠的雲端儲存服務。使用RESTful API 可以在網際網路任何位置儲存和訪問,具有容量和處理能力彈性擴充套件併兼容多種儲存型別來全面優化儲存成本的特點。物件儲存適合存放任意型別的檔案,既可以選用高速磁碟儲存也可以選擇成本更低、儲存期限更長的低頻訪問型別和歸檔型別的物件儲存作為不經常訪問資料的備份和歸檔。

  • 記憶體儲存

    ​ 記憶體儲存主要是充當兩個作用:過熱資料的快取和計算引擎的中間資料狀態。我們可以採用redis來作為記憶體儲存。

​—

原創詩詞一首

雅女湖•瓦屋山
湖光青山雲舒倦,秋水長天影徘徊。
美人一夜相思淚,換得梅花緩緩開。