1. 程式人生 > >HBase筆記:儲存結構

HBase筆記:儲存結構

從HBase的架構圖上可以看出,HBase中的儲存包括HMaster、HRegionServer、HRegion、Store、MemStore、StoreFile、HFile、HLog等,本篇文章統一介紹他們的作用即儲存結構。

以下是網路上流傳的HBase儲存架構圖:

hbase-structure

HBase中的每張表都通過行鍵按照一定的範圍被分割成多個子表(HRegion),預設一個HRegion超過256M就要被分割成兩個,這個過程由HRegionServer管理,而HRegion的分配由HMaster管理。

HMaster的作用:

  • 為Region server分配region
  • 負責Region server的負載均衡
  • 發現失效的Region server並重新分配其上的region
  • HDFS上的垃圾檔案回收
  • 處理schema更新請求

HRegionServer作用:

  • 維護master分配給他的region,處理對這些region的io請求
  • 負責切分正在執行過程中變的過大的region

可以看到,client訪問hbase上的資料並不需要master參與(定址訪問zookeeper和region server,資料讀寫訪問region server),master僅僅維護table和region的元資料資訊(table的元資料資訊儲存在zookeeper上),負載很低。

HRegionServer存取一個子表時,會建立一個HRegion物件,然後對錶的每個列族建立一個Store例項,每個Store都會有一個MemStore和0個或多個StoreFile與之對應,每個StoreFile都會對應一個HFile, HFile就是實際的儲存檔案。因此,一個HRegion有多少個列族就有多少個Store。

一個HRegionServer會有多個HRegion和一個HLog。

HRegion

table在行的方向上分隔為多個Region。Region是HBase中分散式儲存和負載均衡的最小單元,即不同的region可以分別在不同的Region Server上,但同一個Region是不會拆分到多個server上。

Region按大小分隔,每個表一行是隻有一個region。隨著資料不斷插入表,region不斷增大,當region的某個列族達到一個閾值(預設256M)時就會分成兩個新的region。

每個region由以下資訊標識:

  • <表名,startRowkey,建立時間>
  • 由目錄表(-ROOT-和.META.)可值該region的endRowkey

HRegion定位:

Region被分配給哪個Region Server是完全動態的,所以需要機制來定位Region具體在哪個region server。

HBase使用三層結構來定位region:

  • 1、 通過zk裡的檔案/hbase/rs得到-ROOT-表的位置。-ROOT-表只有一個region。
  • 2、通過-ROOT-表查詢.META.表的第一個表中相應的region的位置。其實-ROOT-表是.META.表的第一個region;.META.表中的每一個region在-ROOT-表中都是一行記錄。
  • 3、通過.META.表找到所要的使用者表region的位置。使用者表中的每個region在.META.表中都是一行記錄。

-ROOT-表永遠不會被分隔為多個region,保證了最多需要三次跳轉,就能定位到任意的region。client會講查詢的位置資訊儲存快取起來,快取不會主動失效,因此如果client上的快取全部失效,則需要進行6次網路來回,才能定位到正確的region,其中蠶絲用來發現快取失效,另外三次用來獲取位置資訊。

Store

每一個region有一個或多個store組成,至少是一個store,hbase會把一起訪問的資料放在一個store裡面,即為每個ColumnFamily建一個store,如果有幾個ColumnFamily,也就有幾個Store。一個Store由一個memStore和0或者多個StoreFile組成。

HBase以store的大小來判斷是否需要切分region。

MemStore

memStore 是放在記憶體裡的。儲存修改的資料即keyValues。當memStore的大小達到一個閥值(預設64MB)時,memStore會被flush到檔案,即生成一個快照。目前hbase 會有一個執行緒來負責memStore的flush操作。

StoreFile

memStore記憶體中的資料寫到檔案後就是StoreFile,StoreFile底層是以HFile的格式儲存。

HFile

HBase中KeyValue資料的儲存格式,是hadoop的二進位制格式檔案。

首先HFile檔案是不定長的,長度固定的只有其中的兩塊:Trailer和FileInfo。Trailer中又指標指向其他資料塊的起始點,FileInfo記錄了檔案的一些meta資訊。

Data Block是hbase io的基本單元,為了提高效率,HRegionServer中又基於LRU的block cache機制。每個Data塊的大小可以在建立一個Table的時候通過引數指定(預設塊大小64KB),大號的Block有利於順序Scan,小號的Block利於隨機查詢。每個Data塊除了開頭的Magic以外就是一個個KeyValue對拼接而成,Magic內容就是一些隨機數字,目的是煩著資料損壞,結構如下。

HFile結構圖如下:

Data Block段用來儲存表中的資料,這部分可以被壓縮。

Meta Block段(可選的)用來儲存使用者自定義的kv段,可以被壓縮。

FileInfo段用來儲存HFile的元資訊,本能被壓縮,使用者也可以在這一部分新增自己的元資訊。

Data Block Index段(可選的)用來儲存Meta Blcok的索引。

Trailer這一段是定長的。儲存了每一段的偏移量,讀取一個HFile時,會首先讀取Trailer,Trailer儲存了每個段的起始位置(段的Magic Number用來做安全check),然後,DataBlock Index會被讀取到記憶體中,這樣,當檢索某個key時,不需要掃描整個HFile,而只需從記憶體中找到key所在的block,通過一次磁碟io將整個 block讀取到記憶體中,再找到需要的key。DataBlock Index採用LRU機制淘汰。

HFile的Data Block,Meta Block通常採用壓縮方式儲存,壓縮之後可以大大減少網路IO和磁碟IO,隨之而來的開銷當然是需要花費cpu進行壓縮和解壓縮。目標HFile的壓縮支援兩種方式:gzip、lzo。

另外,針對目前針對現有HFile的兩個主要缺陷:

  • a) 暫用過多記憶體
  • b) 啟動載入時間緩慢

提出了HFile Version2設計:https://issues.apache.org/jira/secure/attachment/12478329/hfile_format_v2_design_draft_0.1.pdf

HLog

其實HLog檔案就是一個普通的Hadoop Sequence File, Sequence File的value是key時HLogKey物件,其中記錄了寫入資料的歸屬資訊,除了table和region名字外,還同時包括sequence number和timestamp,timestamp是寫入時間,equence number的起始值為0,或者是最近一次存入檔案系統中的equence number。

Sequence File的value是HBase的KeyValue物件,即對應HFile中的KeyValue。

HLog(WAL log):WAL意為write ahead log,用來做災難恢復使用,HLog記錄資料的所有變更,一旦region server 宕機,就可以從log中進行恢復。

LogFlusher

前面提到,資料以KeyValue形式到達HRegionServer,將寫入WAL,之後,寫入一個SequenceFile。看過去沒問題,但是因為資料流在寫入檔案系統時,經常會快取以提高效能。這樣,有些本以為在日誌檔案中的資料實際在記憶體中。這裡,我們提供了一個LogFlusher的類。它呼叫HLog.optionalSync(),後者根據hbase.regionserver.optionallogflushinterval (預設是10秒),定期呼叫Hlog.sync()。另外,HLog.doWrite()也會根據 hbase.regionserver.flushlogentries (預設100秒)定期呼叫Hlog.sync()。Sync() 本身呼叫HLog.Writer.sync(),它由SequenceFileLogWriter實現。

LogRoller

Log的大小通過$HBASE_HOME/conf/hbase-site.xml 的 hbase.regionserver.logroll.period 限制,預設是一個小時。所以每60分鐘,會開啟一個新的log檔案。久而久之,會有一大堆的檔案需要維護。首先,LogRoller呼叫HLog.rollWriter(),定時滾動日誌,之後,利用HLog.cleanOldLogs()可以清除舊的日誌。它首先取得儲存檔案中的最大的sequence number,之後檢查是否存在一個log所有的條目的“sequence number”均低於這個值,如果存在,將刪除這個log。

每個region server維護一個HLog,而不是每一個region一個,這樣不同region(來自不同的table)的日誌會混在一起,這樣做的目的是不斷追加單個檔案相對於同時寫多個檔案而言,可以減少磁碟定址次數,因此可以提高table的寫效能。帶來麻煩的時,如果一個region server下線,為了恢復其上的region,需要講region server上的log進行拆分,然後分發到其他region server上進行恢復。