1. 程式人生 > >HBase(六): HBase體系結構剖析(上)

HBase(六): HBase體系結構剖析(上)

 

Posted on 2016-09-10 19:37 天戈朱 閱讀(3591) 評論(2) 編輯 收藏

      HBase隸屬於hadoop生態系統,它參考了谷歌的BigTable建模,實現的程式語言為 Java, 建立在hdfs之上,提供高可靠性、高效能、列儲存、可伸縮、實時讀寫的資料庫系統。它僅能通過主鍵(row key)和主鍵的range來檢索資料,主要用來儲存非結構化和半結構化的鬆散資料。與hadoop一樣,Hbase目標主要依靠橫向擴充套件,通過不斷增加廉價的商用伺服器,來增加計算和儲存能力。Hbase資料庫中的表一般有這樣的特點:

  • 大: 一個表可以有上億行,上百萬列
  • 面向列:  面向列(族)的儲存和許可權控制,列(族)獨立檢索
  • 稀疏: 對於為空(null)的列,並不佔用儲存空間,因此,表可以設計的非常稀疏

目錄:

  • 系統架構
  • 資料模型
  • RegionServer
  • nameSpace
  • HBase定址

系統架構:


  • HBase採用Master/Slave架構搭建叢集,由HMaster節點、HRegionServer節點、ZooKeeper叢集組成,而在底層,它將資料儲存於HDFS中,因而涉及到HDFS的NN、DN等,總體結構如下(注意:在
    hadoop(四): 本地 hbase 叢集配置 Azure Blob Storage 
    介紹過,也可以將底層的儲存配置為 Azure Blob Storage 或 Amazon Web Services),圖A較清楚表達各元件之間的訪問及內部實現邏輯,圖B更直觀表達hbase 與 hadoop hdfs 部署結構及 hadoop NN 和 HMaster 的 SPOF 解決方案
  •  
  •                                     架構圖A                                                                                                架構圖B
  • Client的主要功能:
    1. 使用HBase的RPC機制與HMaster和HRegionServer進行通訊
    2. 對於管理類操作,Client與HMaster進行RPC
    3. 對於資料讀寫類操作,Client與HRegionServer進行RPC
  • Zookeeper功能:
    1. 通過選舉,保證任何時候,叢集中只有一個master,Master與RegionServers 啟動時會向ZooKeeper註冊
    2. 實時監控Region server的上線和下線資訊,並實時通知給Master
    3. 存貯所有Region的定址入口和HBase的schema和table元資料
    4. Zookeeper的引入實現HMaster主從節點的failover
    5. 詳細工作原理如下圖:
      1. 在HMaster和HRegionServer連線到ZooKeeper後建立Ephemeral節點,並使用Heartbeat機制維持這個節點的存活狀態,如果某個Ephemeral節點失效,則HMaster會收到通知,並做相應的處理
      2. HMaster通過監聽ZooKeeper中的Ephemeral節點(預設:/hbase/rs/*)來監控HRegionServer的加入和宕機
      3. 在第一個HMaster連線到ZooKeeper時會建立Ephemeral節點(預設:/hbasae/master)來表示Active的HMaster,其後加進來的HMaster則監聽該Ephemeral節點,如果當前Active的HMaster宕機,則該節點消失,因而其他HMaster得到通知,而將自身轉換成Active的HMaster,在變為Active的HMaster之前,它會建立在/hbase/back-masters/下建立自己的Ephemeral節點
  • HMaster功能:
    1. 管理HRegionServer,實現其負載均衡
    2. 管理和分配HRegion,比如在HRegion split時分配新的HRegion;在HRegionServer退出時遷移其內的HRegion到其他HRegionServer上
    3. 監控叢集中所有HRegionServer的狀態(通過Heartbeat和監聽ZooKeeper中的狀態)
    4. 處理schema更新請求 (建立、刪除、修改Table的定義), 如下圖:
  • HRegionServer功能:
    1. Region server維護Master分配給它的region,處理對這些region的IO請求
    2. Region server負責切分在執行過程中變得過大的region
  • 小結:
    1. client訪問hbase上資料的過程並不需要master參與(定址訪問zookeeper,資料讀寫訪問regione server),master僅僅維護者table和region的元資料資訊,負載很低
    2. HRegion所處理的資料儘量和資料所在的DataNode在一起,實現資料的本地化

資料模型:


  • Table: 與傳統關係型資料庫類似,HBase以表(Table)的方式組織資料,應用程式將資料存入HBase表中
  • Row: HBase表中的行通過 RowKey 進行唯一標識,不論是數字還是字串,最終都會轉換成欄位資料進行儲存;HBase表中的行是按RowKey字典順序排列
  • Column Family: HBase表由行和列共同組織,同時引入列族的概念,它將一列或多列組織在一起,HBase的列必須屬於某一個列族,在建立表時只需指定表名和至少一個列族
  • Cell: 行和列的交叉點稱為單元格,單元格的內容就是列的值,以二進位制形式儲存,同時它是版本化的
  • version: 每個cell的值可儲存資料的多個版本(到底支援幾個版本可在建表時指定),按時間順序倒序排列,時間戳是64位的整數,可在寫入資料時賦值,也可由RegionServer自動賦值
  • 注意:
    1. HBase沒有資料型別,任何列值都被轉換成字串進行儲存
    2. 與關係型資料庫在建立表時需明確包含的列及型別不同,HBase表的每一行可以有不同的列
    3. 相同RowKey的插入操作被認為是同一行的操作。即相同RowKey的二次寫入操作,第二次可被可為是對該行某些列的更新操作
    4. 列由列族和列名連線而成, 分隔符是冒號,如  d:Name  (d: 列族名, Name: 列名)
  • 以一個示例來說明關係型資料表和HBase表各自的解決方案(示例:博文及作者),關係型資料庫表結構設計及資料如下圖:
  •  
  •                (表結構設計)                                                                                       (示例資料)
  • 用HBase設計表結構如下圖:
  • 儲存示例資料如下:
  • 小結:
    1. HBase不支援條件查詢和Order by等查詢,讀取記錄只能按Row key(及其range)或全表掃描
    2. 在表建立時只需宣告表名和至少一個列族名,每個Column Family為一個儲存單元,在下節物理模型會詳細介紹
    3. 在上例中設計了一個HBase表blog,該表有兩個列族:article和author,但在實際應用中強烈建議使用單列族
    4. Column不用建立表時定義即可以動態新增,同一Column Family的Columns會群聚在一個儲存單元上,並依Column key排序,因此設計時應將具有相同I/O特性的Column設計在一個Column Family上以提高效能。注意:這個列是可以增加和刪除的,這和我們的傳統資料庫很大的區別。所以他適合非結構化資料
    5. HBase通過row和column確定一份資料,這份資料的值可能有多個版本,不同版本的值按照時間倒序排序,即最新的資料排在最前面,查詢時預設返回最新版本。如上例中row key=1的author:nickname值有兩個版本,分別為1317180070811對應的“一葉渡江”和1317180718830對應的“yedu”(對應到實際業務可以理解為在某時刻修改了nickname為yedu,但舊值仍然存在)。Timestamp預設為系統當前時間(精確到毫秒),也可以在寫入資料時指定該值
    6. 每個單元格值通過4個鍵唯一索引,tableName+RowKey+ColumnKey+Timestamp=>value, 例如上例中{tableName=’blog’,RowKey=’1’,ColumnName=’author:nickname’,Timestamp=’ 1317180718830’}索引到的唯一值是“yedu”
    7. 儲存型別
      • TableName 是字串
      • RowKey 和 ColumnName 是二進位制值(Java 型別 byte[])
      • Timestamp 是一個 64 位整數(Java 型別 long)
      • value 是一個位元組陣列(Java型別 byte[])

RegionServer:


  • HRegionServer一般和DN在同一臺機器上執行,實現資料的本地性,如圖B。HRegionServer包含多個HRegion,由WAL(HLog)、BlockCache、MemStore、HFile組成,如圖A,其中圖A是0.94-的架構圖,圖B是0.96+的新架構圖
  •                                 圖A                                                                                                               圖B
  • WAL(Write Ahead Log):它是HDFS上的一個檔案,所有寫操作都會先保證將資料寫入這個Log檔案後,才會真正更新MemStore,最後寫入HFile中
  • 採用這種模式,可以保證HRegionServer宕機後,依然可以從該Log檔案中讀取資料,Replay所有的操作,來保證資料的一致性
  • 一個HRegionServer只有一個WAL例項,即一個HRegionServer的所有WAL寫都是序列,這當然會引起效能問題,在HBase 1.0之後,通過HBASE-5699實現了多個WAL並行寫(MultiWAL),該實現採用HDFS的多個管道寫,以單個HRegion為單位
  • Log檔案會定期Roll出新的檔案而刪除舊的檔案(那些已持久化到HFile中的Log可以刪除)。WAL檔案儲存在/hbase/WALs/${HRegionServer_Name}的目錄中
  • BlockCache(圖B):是一個讀快取,將資料預讀取到記憶體中,以提升讀的效能
  • HBase中提供兩種BlockCache的實現:預設on-heap LruBlockCache和BucketCache(通常是off-heap)。通常BucketCache的效能要差於LruBlockCache,然而由於GC的影響,LruBlockCache的延遲會變的不穩定,而BucketCache由於是自己管理BlockCache,而不需要GC,因而它的延遲通常比較穩定,這也是有些時候需要選用BucketCache的原因
  • HRegion:是一個Table中的一個Region在一個HRegionServer中的表達,是Hbase中分散式儲存和負載均衡的最小單元
  • 一個Table擁有一個或多個Region,分佈在一臺或多臺HRegionServer上
  • 一臺HRegionServer包含多個HRegion,可以屬於不同的Table
  • 見圖A,HRegion由多個Store(HStore)構成,每個HStore對應了一個Table在這個HRegion中的一個Column Family,即每個Column Family就是一個集中的儲存單元
  • HStore是HBase中儲存的核心,它實現了讀寫HDFS功能,一個HStore由一個MemStore 和0個或多個StoreFile組成
  • MemStore:是一個寫快取(In Memory Sorted Buffer),所有資料的寫在完成WAL日誌寫後,會 寫入MemStore中,由MemStore根據一定的演算法將資料Flush到底層HDFS檔案中(HFile),通常每個HRegion中的每個 Column Family有一個自己的MemStore
  • HFile(StoreFile): 用於儲存HBase的資料(Cell/KeyValue)。在HFile中的資料是按RowKey、Column Family、Column排序,對相同的Cell(即這三個值都一樣),則按timestamp倒序排列
  • 小結:
    1. Table中的所有行都按照row key的字典序排列,Table 在行的方向上分割為多個Hregion,如下圖A
    2. region按大小分割的,每個表一開始只有一個region,隨著資料不斷插入表,region不斷增大,當增大到一個閥值的時候,Hregion就會等分會兩個新的Hregion,如下圖B
    3.                           
    4.                                    圖A                                                                      圖B
    5. HRegion是Hbase中分散式儲存和負載均衡的最小單元。最小單元就表示不同的Hregion可以分佈在不同的HRegion server上。但一個Hregion是不會拆分到多個server上的,如下圖
    6. HRegion雖然是分散式儲存的最小單元,但並不是儲存的最小單元。事實上,HRegion由一個或者多個Store組成,每個store儲存一個columns family,每個Strore又由一個memStore和0至多個StoreFile組成,如下圖,說明:StoreFile以HFile格式儲存在HDFS上

nameSpace:


  • 在HBase中,namespace名稱空間指對一組表的邏輯分組,類似RDBMS中的database,方便對錶在業務上劃分。
  • Apache HBase從0.98.0, 0.95.2兩個版本開始支援namespace級別的授權操作,HBase全域性管理員可以建立、修改和回收namespace的授權
  • HBase系統預設定義了兩個預設的namespace,見如下圖的目錄結構:
    1. hbase:系統內建表,包括namespace和meta表
    2. default:使用者建表時未指定namespace的表都建立在此
  •   

HBase定址:


  • 本節主要討論的問題:Client訪問使用者資料時如何找到某個row key所在的region?
  • 0.94- 版本 Client訪問使用者資料之前需要首先訪問zookeeper,然後訪問-ROOT-表,接著訪問.META.表,最後才能找到使用者資料的位置去訪問,中間需要多次網路操作,如下圖:
  • 0.96+ 刪除了root 表,改為zookeeper裡面的檔案,如下圖 A, 以讀為例,定址示意圖如B
  •          
  •                圖A                                                                                                 圖B
  • 思考:如果root表資訊儲存在zookeeper檔案,叢集重建後,檔案是如何還原?

 

分類: HBase

標籤: HBase

好文要頂 關注我 收藏該文