全面認識HBase架構（建議收藏）

阿新 • • 發佈：2020-03-10

在網上看過很多HBaes架構相關的文章，內容深淺不一，直到發現了一篇MapR官網的文章https://mapr.com/blog/in-depth-look-hbase-architecture/#.VdMxvWSqqko，寫得實在太sheng dong了。

因此，以這篇文章作為骨架，翻譯了許多原文的內容，同時對一些細節進行自己的擴充套件，形成本文。

1.HBase架構組成

從物理結構上，HBase包含了三種類型的server，zookeeper、HMaster、region server，採用一種主從模式的結構。

region server主要用來服務讀和寫操作。當用戶通過client訪問資料時，client會和HBase RegionServer 進行直接通訊。

HMaster主要進行region server的管理、DDL（建立、刪除表）操作等。
Zookeeper是HDFS（Hadoop Distributed File System）的一部分，主要用來維持整個叢集的存活，保障了HA，故障自動轉移。

而底層的儲存，還是依賴於HDFS的。

Hadoop的DataNode儲存了Region Server所管理的資料，所有HBase的資料都是存在HDFS中的。
Hadoop的NameNode維護了所有物理資料塊的metadata。

1.1 region server

HBase 的tables根據rowkey的範圍進行水平切分，切分後分配到各個regions。一個region包含一個表在start key和end key所有行。region會被分配到叢集中的各個region server，而使用者都是跟region server進行讀寫互動。一個region一般建議大小在5-10G。

1.2 HBase HMaster

一般也叫作HMaster，HMaster主要職責包括兩個方面：

與region server的互動，對region server進行統一管理：
啟動時region的分配崩潰後恢復的region重新分配負載均衡的region重新分配
Admin相關功能：
建立、刪除、更新表結構等DDL操作

1.3 Zookeeper

HBase使用Zookeeper作為分散式協調服務，來維護叢集內的server狀態。

Zookeeper通過 heartbeat 維護了哪些server是存活並可用的，並提供server的故障通知。同時，使用一致性協議來保證各個分散式節點的一致性。

這裡，需要特別關注，zookeeper負責來HMaster的選舉工作，如果一個HMater節點宕機了，就會選擇另一個HMaster節點進入active狀態。

1.4 這些元件如何一起協調工作

Zookeeper用來共享分散式系統中成員的狀態，它會和region server、HMaster（active）保持會話，通過heartbeat維持與這些ephemeral node（zk中的臨時節點概念）的活躍會話。

下面，我們可以看到，zk在其中起到了最核心的作用。

多個HMaster會去競爭成為zookeeper上的臨時節點，而zookeeper會將第一個建立成功的HMaster作為唯一當前active的HMaster，其他HMater進入stand by的狀態。這個active的HMaster會不斷髮送heartbeat給zk，其他stand by狀態的HMaster節點會監聽這個active HMaster的故障資訊。一旦發現active HMaster宕機了，就會重新競爭新的active HMaster。這就實現了HMaster的高可用。

每個region server會建立一個ephemeral node。HMaster會監視這些節點來確認哪些region server是可用的，哪些節點發生了故障宕機了。

如果一個region server或者active的HMaster 沒有傳送heatbeat給zk，那麼和zk之間的會話將會過期，並且zk上會刪掉這個臨時節點，認為這個節點發生故障需要下線了。

其他監聽者節點會收到這個故障節點被刪除的訊息。比如actvie的HMaster會監聽region server的訊息，如果發現某個region server下線了，那麼就會重新分配region server來恢復相應的region資料。再比如，stand by的HMaster節點會監聽active 的HMaster節點，一旦收到故障通知，就會競爭上線成為新的active HMaster。

1.5 第一次訪問HBase

有一個特殊的HBase目錄表，叫做META table，儲存了叢集中各個region的位置。zookeeper中儲存了這個meta table 的位置資訊。

當我們第一次訪問HBase叢集時，會做以下操作：

1）客戶端從zk中獲取儲存meta table的位置資訊，知道meta table儲存在了哪個region server，並在客戶端快取這個位置資訊；

2）client會查詢這個儲存meta table的特定的region server，查詢meta table資訊，在table中獲取自己想要訪問的row key所在的region在哪個region server上。

3）客戶端直接訪問目標region server，獲取對應的row

進一步，我們瞭解一下meta table的儲存結構。

Meta table儲存了所有region資訊的一張表
Meta table儲存的資料形式類似一顆b樹
以keyvalue形式儲存資料
Key: region的table name, start key等資訊 Values: region server的相關資訊

2.深入region server

一個region server執行在一個HDFS的data node上，並且擁有以下元件：

WAL：全稱Write Ahead Log，屬於分散式系統上的檔案。主要用來儲存還未被持久化到磁碟的新資料。如果新資料還未持久化，節點發生宕機，那麼就可以用WAL來恢復這些資料。

BlockCache：是一個讀快取。它儲存了被高頻訪問的資料。當這個快取滿了後，會清除最近最少訪問的資料。
MenStore: 是一個寫快取。它儲存了還未被寫入磁碟的資料。它會在寫入磁碟前，對自身資料進行排序，從而保證資料的順序寫入。每個region的每個colum family會有一份對應的memstore。（沒錯，如果節點宕機了，存在這個快取裡的資料沒有落盤，可以通過WAL保證這些資料不會丟失）
HFiles：按照字典序儲存各個row的鍵值。

2.1 HBase寫資料與region server的互動

整個寫的過程更加複雜，而與region server的互動式最重要的一部分，這裡只介紹跟region server的互動。

主要分為兩個步驟，寫WAL 和寫快取。

“實際上，這裡除了保證資料不丟，還跟提高寫入效率有關，具體後續專門寫一個相關文件進行展開說明”

1）寫WAL

當客戶端提交了一個put 請求，那麼在region server上需要首先寫WAL(write-ahead-log)。

需要注意三點

Hlog是一個region server上一個，並不是一個region一個
寫入資料是新增在log尾部
log上的資料主要為了保證沒有落盤的資料能在server崩潰後不丟失

2）寫快取

資料寫入WAL成功，才會繼續寫入MemStore。

然後才會返回ack給客戶端，表示寫入成功了。

2.2 HBase MemStroe

MemStore主要儲存資料更新在記憶體中，以字典序的KeyValue形式，跟HFile裡面儲存的一樣。

每一個column family會有一個對應的memstore

更新的資料會在memstore中以key-value形式排好序儲存，注意看圖，按字典序排，同時按version的倒序排列。

我們可以看到，key的組成包括rowkey-cf-col-version。

2.3 HBase region flush

當MemStore儲存了足夠多的資料，整個有序集會被寫入一個新的HFile檔案中，儲存在HDFS。

HBase中每個colum family會有多個HFile，用來儲存實際的keyValue。

注意，這裡解釋了為什麼HBase中columfaily的數量是有限制的（具體是多少？）。

每一個cf有一個對應的MemStore，當一個MemStore滿了，所屬region的所有memstore都會被flush到磁碟。所以MemStore的flush的最小單位是一個region，而不是一個MemStore。

flush的同時，它還會儲存一些額外的資訊，比如最後一個寫的序列號，讓系統知道它當前持久化到什麼位置了。

最大的序列號作為元資料，會被儲存在每個HFile中，表示持久化到哪個位置了，下一次持久化應該從哪裡繼續。一個region啟動時，會讀取每個HFile的序列號，然後最大的序列號會被用來作為新的起始序列號。

3. 深入HFile

3.1 HFile的寫入

HBase中，資料以有序KV的形式，儲存在HFile中。當MemStore儲存了足夠的資料，全部kv對被寫入HFile存入HDFS。

這裡寫檔案的過程是順序寫，避免了硬碟大量移動磁頭的過程，比隨機寫高效很多。

HFile的邏輯結構如圖

主要分為四個部分：Scanned block section，Non-scanned block section，Opening-time data section和Trailer。

Scanned block section：表示掃描HFile時，這部分所有資料塊都會被讀取，包括Leaf Index Block和Bloom Block。
Non-scanned block section：表示在掃描HFile時不會被讀取，主要包括Meta Block和Intermediate Level Data Index Blocks兩部分。
Load-on-open-section：表示在HBase的region server啟動時，會被載入到記憶體中。包括FileInfo、Bloom filter block、data block index和meta block index。
Trailer：表示HFile的基本資訊、各個部分的偏移值和定址資訊。

檔案中採用類似b+樹都多層索引：

Kv對按遞增順序儲存；
Root index指向非葉子結點
每個資料塊的最後一個key被放入中間索引(b+樹的非葉子結點)
每個資料塊有自己的葉子索引（b+樹的葉子結點）
葉子索引通過row key指向64kb的kv資料塊

檔案的末尾有個trailer節點，指向了meta block。trailer節點還擁有其他資訊，比如布隆過濾器和時間範圍資訊。

布隆過濾器幫助我們過濾那些不包含在這個HFilfe中的rowkey。

時間範圍資訊用來跳過那些不在這個HFilie時間範圍內的row。

因此，當一個HFile被讀取後，HFile的索引資訊就會被快取在BlockCache中，這樣使得查詢只需要一次磁碟查詢操作，後續查詢只需要讀取blockcache內的索引資訊即可。

region server上的實體結構關係如下：

regionserver : region = 1 : n，每個region server上有多個region。

region : store= 1 ： n，每個region裡面有多個store

store : memstore = 1 : 1。

Memstore:Hfile = 1:n。

看到這裡了，原創不易，點個關注、點個贊吧，你最好看了～

知識碎片重新梳理，構建Java知識圖譜：https://github.com/saigu/JavaKnowledgeGraph（歷史文章查閱非常方便）

掃碼關注我的公眾號“阿丸筆記”，第一時間獲取最新更新。同時可以免費獲取海量Java技術棧電子書、各個大廠面試題。

&n

全面認識HBase架構（建議收藏）

在網上看過很多HBaes架構相關的文章，內容深淺不一，直到發現了一篇MapR官網的文章https://mapr.com/blog/in-depth-look-hbase-architecture/#.VdMxvWSqqko，寫得實在太sheng dong了。因此，以這篇文章作為骨架，翻譯了許多原文的內容，同

工作常用 Git 命令小清單（建議收藏）

需要學習的東西太多了，很多命令用到時卻忘了，分享一個經典的Git 常用命清單，建議收藏，或者收進你的雲筆記中，方便用到時查閱。名詞翻譯必須知： workspace：工作區 Index / Stage：暫存區 Repository：倉庫區（本地倉庫）

推薦6個國內技術大牛部落格，全棧工程師修行的祕籍！（建議收藏）

學習PHP語言、JavaScript語言、Python語言及前端的知識點，光是自己學習還是不夠的，我們還要借鑑大牛們的程式設計思路，瞭解程式設計的技巧和方法，這樣才能事半功倍。今天就為大家推薦我認為比較不錯的6個技術大牛部落格，大家有興趣可以關注一下，看看大牛們的程式設計思路，學習他們思考問題

你所不知道的 Python 冷知識！(二)（建議收藏）

首發於微信公眾號：Python程式設計時光'每週三更新五個冷知識，歡迎前往訂閱! 01. 互動式“_”操作符對於 _ ，我想很多人都非常熟悉。給變數取名好艱難，用 _；懶得長長的變數名，用 _；無用的垃圾變數，用 _；以上，我們都很熟悉了，今天要介紹的是他在互動式中使

小白剛入門Python，學完基礎後，接下來的學習步驟！（建議收藏）

自學Python要學多久可以學會? 如果是自學，從零基礎開端學習python的話，按照每個人理解能力的不同，大致上需求半年到一年半左右的時刻，當然，如果有其它程式設計言語的經歷，入門還是比較快的，大概需求2~3個月可以用Python言語編寫一些簡單的使用，只要進行體系的學習，才能更好的掌握Pyt

【材料課堂】材料科學基礎108個重要知識點！（建議收藏）

考研複習的同學們，為你們再次送上這篇材料科學基礎知識要點彙總，108個重要知識點，這是我們材料學科的一百單八天罡地煞！ 1.晶體–原子按一定方式在三維空間內週期性地規則重複排列，有固定熔點、各向異性。 2.中間相–兩組元A 和B 組成合金時，除了形成以A 為基或

資料分析最具價值的49個案例（建議收藏）

導讀：本文是近年來不同行業、不同領域的大資料公司的一些經典案例總結。儘管有些已經是幾年前的案例，但其中的深層邏輯對於未來仍有啟發。本文力圖從企業運營和管理的角度，梳理出發掘大資料價值的一般規律：一是以資料驅動的決策，主要通過提高預測概率，來提高決策成功率；二是以資料驅動的流程，主要是形成營銷閉

資源 | 機器學習、NLP、Python和Math最好的150餘個教程（建議收藏）

編輯 | MingMing儘管機器學習的歷史可以追溯到1959年，但目前，這個領域正以前所未有的

Git常用命令速查表（建議收藏）

rep aec 工作區 dag posit jcs lan 提交常用名詞 master: 默認開發分支 origin: 默認遠程版本庫 Index / Stage：暫存區 Workspace：工作區 Reposito

一篇文章搞懂裝飾器所有用法（建議收藏）

01. 裝飾器語法糖如果你接觸 Python 有一段時間了的話，想必你對 @ 符號一定不陌生了，沒錯 @ 符號就是裝飾器的語法糖。它放在一個函式開始定義的地方，它就像一頂帽子一樣戴在這個函式的頭上。和這個函式繫結在一起。在我們呼叫這個函式的時候，第一件事並不是執行這個函式，而是將這個函式做為引數傳入它頭頂

萬字超強圖文講解AQS以及ReentrantLock應用（建議收藏）

| **好看請贊，養成習慣** > - 你有一個思想，我有一個思想，我們交換後，一個人就有兩個思想 > > - If you can NOT explain it simply, you do NOT understand it well enough 現陸續將Demo程式碼和技術文

Linux 終端最全推薦（建議收藏）

本文來自網路整理，如有侵權，則可刪除。如果你跟我一樣，整天要花大量的時間使用Linux命令列，而且正在尋找一些可替代系統自帶的老舊且乏味的終端軟體，那你真是找對了文章。我這裡蒐集了一些非常有趣的終端軟體，可以用來替代debian系的Linux原生終端。 Tilda image 這是一款可配置的雷神之錘

ElasticSearch 叢集基本概念及常用操作彙總（建議收藏）

內容來源於本人的印象筆記，簡單彙總後釋出到部落格上，供大家需要時參考使用。 [原創宣告：作者：Arnold.zhao 部落格園地址：https://www.cnblogs.com/zh94](https://www.cnblogs.com/zh94) 目錄： * [ElasticSearch叢集特性](

JSP、EL表示式、JSTL標籤庫乾貨（建議收藏）

> JSP（Java Server Pages）類似於[ASP](https://www.w3school.com.cn/asp/asp_intro.asp)技術，它是**在傳統的網頁HTML**檔案(.htm，.html)中**插入Java程式段（Scriptlet）**和**JSP標記（tag**）

上萬字詳解Spark Core（建議收藏）

揭祕阿里Java架構師背後的技術體系支撐（詳細分層，建議收藏）

前言系統架構師是一個既需要掌控整體又需要洞悉區域性瓶頸並依據具體的業務場景給出解決方案的團隊領導型人物。一個架構師得需要足夠的想像力,能把各種目標需求進行不同維度的擴充套件，為目標客戶提供更為全面的需求清單。從一個程式設計師到架構師是一個很大的變化，架構師需要從大的方面考慮，而不只是考慮

HBase 底層原理詳解（深度好文，建議收藏）

## HBase簡介 HBase 是一個分散式的、面向列的開源資料庫。建立在 HDFS 之上。Hbase的名字的來源是 Hadoop database，即 Hadoop 資料庫。HBase 的計算和儲存能力取決於 Hadoop 叢集。它介於 NoSql 和 RDBMS 之間，僅能通過主鍵(row ke

java小白必看入門學習路線~~ （建議收藏哦！）

java是一門通用的程式語言，其實可以幹很多事情，怎麼學java就看怎麼用了熟悉一種文字編輯器，比如：vim，Emacs，Notepad++，TextMat等。知道哪些是開源的，哪些是閉源的，哪些要收費。養成不用盜版軟體的習慣。最近看資料的時候，瀏覽到一個程式設計師小哥

java學習乾貨分享，從小白到年薪50萬（建議收藏多看幾遍）

今天準備來點乾貨，因此咱們就不說一些學習方法和技巧了，直接來談每個階段要學習的內容甚至是一些書籍。這一部分的內容，同樣適用於一些希望轉行到Java的同學。文章寫的有點長，可以收藏或關注我，以便深入瞭解和學習。（PS:全文共5000多字，各位同學通過收藏或關注作者，慢慢細讀學習，同時也可以發表

.NET應用架構設計—重新認識分層架構（現代企業級應用分層架構核心設計要素）

閱讀目錄： 1.背景介紹 2.簡要回顧下傳統三層架構 3.企業級應用分層架構（現代分層架構的基本演變過程） 3.1.服務層中應用契約式設計來解決動態條件不匹配錯誤（通過契約式設計模式來將問題線上下暴露出來） 3.2.應用層中的應用控制器模式（通過控制器模式物件化應用層的職責） 3.