1. 程式人生 > >HBase資料讀取流程解析

HBase資料讀取流程解析

 

和寫流程相比,HBase讀資料是一個更加複雜的操作流程,這主要基於兩個方面的原因:其一是因為整個HBase儲存引擎基於LSM-Like樹實現,因此一次範圍查詢可能會涉及多個分片、多塊快取甚至多個數據儲存檔案;其二是因為HBase中更新操作以及刪除操作實現都很簡單,更新操作並沒有更新原有資料,而是使用時間戳屬性實現了多版本。刪除操作也並沒有真正刪除原有資料,只是插入了一條打上”deleted”標籤的資料,而真正的資料刪除發生在系統非同步執行Major_Compact的時候。很顯然,這種實現套路大大簡化了資料更新、刪除流程,但是對於資料讀取來說卻意味著套上了層層枷鎖,讀取過程需要根據版本進行過濾,同時對已經標記刪除的資料也要進行過濾。
 

總之,把這麼複雜的事情講明白並不是一件簡單的事情,為了更加條理化地分析整個查詢過程,接下來筆者會用兩篇文章來講解整個過程,首篇文章主要會從框架的角度粗粒度地分析scan的整體流程,並不會涉及太多的細節實現。大多數看客通過首篇文章基本就可以初步瞭解scan的工作思路;為了能夠從細節理清楚整個scan流程,接著第二篇文章將會在第一篇的基礎上引入更多的實現細節以及HBase對於scan所做的基礎優化。

 

Client-Server互動邏輯

運維開發了很長一段時間HBase,經常有業務同學諮詢為什麼客戶端配置檔案中沒有配置RegionServer的地址資訊,這裡針對這種疑問簡單的做下解釋,客戶端與HBase系統的互動階段主要有如下幾個步驟:

 

1.客戶端首先會根據配置檔案中zookeeper地址連線zookeeper,並讀取/<hbase-rootdir>/meta-region-server節點資訊,該節點資訊儲存HBase元資料(hbase:meta)表所在的RegionServer地址以及訪問埠等資訊。使用者可以通過zookeeper命令(get /<hbase-rootdir>/meta-region-server)檢視該節點資訊。
2.根據hbase:meta所在RegionServer的訪問資訊,客戶端會將該元資料表載入到本地並進行快取。然後在表中確定待檢索rowkey所在的RegionServer資訊。
3.根據資料所在RegionServer的訪問資訊,客戶端會向該RegionServer傳送真正的資料讀取請求。伺服器端接收到該請求之後需要進行復雜的處理,具體的處理流程將會是這個專題的重點。

通過上述對客戶端以及HBase系統的互動分析,可以基本明確兩點:
1.客戶端只需要配置zookeeper的訪問地址以及根目錄,就可以進行正常的讀寫請求。不需要配置叢集的RegionServer地址列表。
2.客戶端會將hbase:meta元資料表快取在本地,因此上述步驟中前兩步只會在客戶端第一次請求的時候發生,之後所有請求都直接從快取中載入元資料。如果叢集發生某些變化導致hbase:meta元資料更改,客戶端再根據本地元資料表請求的時候就會發生異常,此時客戶端需要重新載入一份最新的元資料表到本地。

RegionServer接收到客戶端的get/scan請求之後,先後做了兩件事情:構建scanner體系(實際上就是做一些scan前的準備工作),在此體系基礎上一行一行檢索。舉個不太合適但易於理解的例子,scan資料就和開發商蓋房一樣,也是分成兩步:組建施工隊體系,明確每個工人的職責;一層一層蓋樓。


構建scanner體系-組建施工隊
scanner體系的核心在於三層scanner:RegionScanner、StoreScanner以及StoreFileScanner。三者是層級的關係,一個RegionScanner由多個StoreScanner構成,一張表由多個列族組成,就有多少個StoreScanner負責該列族的資料掃描。一個StoreScanner又是由多個StoreFileScanner組成。每個Store的資料由記憶體中的MemStore和磁碟上的StoreFile檔案組成,相對應的,StoreScanner物件會僱傭一個MemStoreScanner和N個StoreFileScanner來進行實際的資料讀取,每個StoreFile檔案對應一個StoreFileScanner,注意:StoreFileScanner和MemstoreScanner是整個scan的最終執行者。


對應於建樓專案,一棟樓通常由好幾個單元樓構成(每個單元樓對應於一個Store),每個單元樓會請一個監工(StoreScanner)負責該單元樓的建造。而監工一般不做具體的事情,他負責招募很多工人(StoreFileScanner),這些工人才是建樓的主體。下圖是整個構建流程圖:

1.RegionScanner會根據列族構建StoreScanner,有多少列族就構建多少StoreScanner,用於負責該列族的資料檢索
1.1 構建StoreFileScanner:每個StoreScanner會為當前該Store中每個HFile構造一個StoreFileScanner,用於實際執行對應檔案的檢索。同時會為對應Memstore構造一個MemstoreScanner,用於執行該Store中Memstore的資料檢索。該步驟對應於監工在人才市場招募建樓所需的各種型別工匠。


1.2 過濾淘汰StoreFileScanner:根據Time Range以及RowKey Range對StoreFileScanner以及MemstoreScanner進行過濾,淘汰肯定不存在待檢索結果的Scanner。上圖中StoreFile3因為檢查RowKeyRange不存在待檢索Rowkey所以被淘汰。該步驟針對具體的建樓方案,裁撤掉部分不需要的工匠,比如這棟樓不需要地暖安裝,對應的工匠就可以撤掉。


1.3 Seek rowkey:所有StoreFileScanner開始做準備工作,在負責的HFile中定位到滿足條件的起始Row。工匠也開始準備自己的建造工具,建造材料,找到自己的工作地點,等待一聲命下。就像所有重要專案的準備工作都很核心一樣,Seek過程(此處略過Lazy Seek優化)也是一個很核心的步驟,它主要包含下面三步:

定位Block Offset:在Blockcache中讀取該HFile的索引樹結構,根據索引樹檢索對應RowKey所在的Block Offset和Block Size
Load Block:根據BlockOffset首先在BlockCache中查詢Data Block,如果不在快取,再在HFile中載入
Seek Key:在Data Block內部通過二分查詢的方式定位具體的RowKey
整體流程細節參見《HBase原理-探索HFile索引機制》,文中詳細說明了HFile索引結構以及如何通過索引結構定位具體的Block以及RowKey


1.4 StoreFileScanner合併構建最小堆:將該Store中所有StoreFileScanner和MemstoreScanner合併形成一個heap(最小堆),所謂heap是一個優先順序佇列,佇列中元素是所有scanner,排序規則按照scanner seek到的keyvalue大小由小到大進行排序。這裡需要重點關注三個問題,首先為什麼這些Scanner需要由小到大排序,其次keyvalue是什麼樣的結構,最後,keyvalue誰大誰小是如何確定的:

為什麼這些Scanner需要由小到大排序?
最直接的解釋是scan的結果需要由小到大輸出給使用者,當然,這並不全面,最合理的解釋是隻有由小到大排序才能使得scan效率最高。舉個簡單的例子,HBase支援資料多版本,假設使用者只想獲取最新版本,那隻需要將這些資料由最新到最舊進行排序,然後取隊首元素返回就可以。那麼,如果不排序,就只能遍歷所有元素,檢視符不符合使用者查詢條件。這就是排隊的意義。

工匠們也需要排序,先做地板的排前面,做牆體的次之,最後是做門窗戶的。做牆體的內部還需要再排序,做內牆的排前面,做外牆的排後面,這樣,假如設計師臨時決定不做外牆的話,就可以直接跳過外牆部分工作。很顯然,如果不排序的話,是沒辦法臨時做決定的,因為這部分工作已經可能做掉了。

HBase中KeyValue是什麼樣的結構?
HBase中KeyValue並不是簡單的KV資料對,而是一個具有複雜元素的結構體,其中Key由RowKey,ColumnFamily,Qualifier ,TimeStamp,KeyType等多部分組成,Value是一個簡單的二進位制資料。Key中元素KeyType表示該KeyValue的型別,取值分別為Put/Delete/Delete Column/Delete Family等。KeyValue可以表示為如下圖所示:

瞭解了KeyValue的邏輯結構後,我們不妨再進一步從原理的角度想想HBase的開發者們為什麼如此對其設計。這個就得從HBase所支援的資料操作說起了,HBase支援四種主要的資料操作,分別是Get/Scan/Put/Delete,其中Get和Scan代表資料查詢,Put操作代表資料插入或更新(如果Put的RowKey不存在則為插入操作、否則為更新操作),特別需要注意的是HBase中更新操作並不是直接覆蓋修改原資料,而是生成新的資料,新資料和原資料具有不同的版本(時間戳);Delete操作執行資料刪除,和資料更新操作相同,HBase執行資料刪除並不會馬上將資料從資料庫中永久刪除,而只是生成一條刪除記錄,最後在系統執行檔案合併的時候再統一刪除。


HBase中更新刪除操作並不直接操作原資料,而是生成一個新紀錄,那問題來了,如何知道一條記錄到底是插入操作還是更新操作亦或是刪除操作呢?這正是KeyType和Timestamp的用武之地。上文中提到KeyType取值為分別為Put/Delete/Delete Column/Delete Family四種,如果KeyType取值為Put,表示該條記錄為插入或者更新操作,而無論是插入或者更新,都可以使用版本號(Timestamp)對記錄進行選擇;如果KeyType為Delete,表示該條記錄為整行刪除操作;相應的KeyType為Delete Column和Delete Family分別表示刪除某行某列以及某行某列族操作;


不同KeyValue之間如何進行大小比較?
上文提到KeyValue中Key由RowKey,ColumnFamily,Qualifier ,TimeStamp,KeyType等5部分組成,HBase設定Key大小首先比較RowKey,RowKey越小Key就越小;RowKey如果相同就看CF,CF越小Key越小;CF如果相同看Qualifier,Qualifier越小Key越小;Qualifier如果相同再看Timestamp,Timestamp越大表示時間越新,對應的Key越小。如果Timestamp還相同,就看KeyType,KeyType按照DeleteFamily -> DeleteColumn -> Delete -> Put 順序依次對應的Key越來越大。


2. StoreScanner合併構建最小堆:上文討論的是一個監工如何構建自己的工匠師團隊以及工匠師如何做準備工作、排序工作。實際上,監工也需要進行排序,比如一單元的監工排前面,二單元的監工排之後… StoreScanner一樣,列族小的StoreScanner排前面,列族大的StoreScanner排後面。


scan查詢-層層建樓
構建Scanner體系是為了更好地執行scan查詢,就像組建工匠師團隊就是為了蓋房子一樣。scan查詢總是一行一行查詢的,先查第一行的所有資料,再查第二行的所有資料,但每一行的查詢流程卻沒有什麼本質區別。蓋房子也一樣,無論是蓋8層還是蓋18層,都需要一層一層往上蓋,而且每一層的蓋法並沒有什麼區別。所以實際上我們只需要關注其中一行資料是如何查詢的就可以。


對於一行資料的查詢,又可以分解為多個列族的查詢,比如RowKey=row1的一行資料查詢,首先查詢列族1上該行的資料集合,再查詢列族2裡該行的資料集合。同樣是蓋第一層房子,先蓋一單元的一層,再改二單元的一層,蓋完之後才算一層蓋完,接著開始蓋第二層。所以我們也只需要關注某一行某個列族的資料是如何查詢的就可以。


還記得Scanner體系構建的最終結果是一個由StoreFileScanner和MemstoreScanner組成的heap(最小堆)麼,這裡就派上用場了。下圖是一張表的邏輯檢視,該表有兩個列族cf1和cf2(我們只關注cf1),cf1只有一個列name,表中有5行資料,其中每個cell基本都有多個版本。cf1的資料假如實際儲存在三個區域,memstore中有r2和r4的最新資料,hfile1中是最早的資料。現在需要查詢RowKey=r2的資料,按照上文的理論對應的Scanner指向就如圖所示:

這三個Scanner組成的heap為<MemstoreScanner,StoreFileScanner2, StoreFileScanner1>,Scanner由小到大排列。查詢的時候首先pop出heap的堆頂元素,即MemstoreScanner,得到keyvalue = r2:cf1:name:v3:name23的資料,拿到這個keyvalue之後,需要進行如下判定:


檢查該KeyValue的KeyType是否是Deleted/DeletedCol等,如果是就直接忽略該列所有其他版本,跳到下列(列族)
檢查該KeyValue的Timestamp是否在使用者設定的Timestamp Range範圍,如果不在該範圍,忽略
檢查該KeyValue是否滿足使用者設定的各種filter過濾器,如果不滿足,忽略
檢查該KeyValue是否滿足使用者查詢中設定的版本數,比如使用者只查詢最新版本,則忽略該cell的其他版本;反正如果使用者查詢所有版本,則還需要查詢該cell的其他版本。

現在假設使用者查詢所有版本而且該keyvalue檢查通過,此時當前的堆頂元素需要執行next方法去檢索下一個值,並重新組織最小堆。即圖中MemstoreScanner將會指向r4,重新組織最小堆之後最小堆將會變為<StoreFileScanner2, StoreFileScanner1, MemstoreScanner>,堆頂元素變為StoreFileScanner2,得到keyvalue=r2:cf1:name:v2:name22,進行一系列判定,再next,再重新組織最小堆…


不斷重複這個過程,直至一行資料全部被檢索得到。繼續下一行…