1. 程式人生 > >Hbase學習之概念與原理

Hbase學習之概念與原理

兩個 都是 block 快速 關於 圖片 存在 獲取 寫到

一、hbase與列式存儲

  hbase最早起源於谷歌的一篇BigTable的論文,它是由java編寫的、開源的一個nosql數據庫,同時它也是一個列式存儲的、支持分布式(基於hdfs)的數據庫。什麽是列式存儲呢?簡單來講就是:傳統的關系數據庫幾乎都是行式存儲的,這種存儲的特點是,將每一行的數據連起來進行存儲;而列式存儲是將每一列的數據連起來進行存儲的。

  列式存儲相對於行式存儲有哪些優點呢?

  1.壓縮空間:一張表裏面,我存儲的數據可以是非常松散的,就是說這一列可以有值也可以沒有值,沒有值就不會占用空間,而行式存儲不行,它的結構非常規範,就算是某一列不賦值,那麽這一行的這一列空間也是占用的,而且後期如果我想對某張表擴張字段的話,前面的的數據都必須強制開辟這個字段的存儲空間。

  2.查詢性能:行式存儲在查詢的時候若我們制定某一個字段進行查詢,他會遍歷這一行的所有字段,然後找到匹配的字段進行返回,這樣是很耗費IO的,而列式存儲由於它本來就是按列來進行數據存儲的,就是說不同的列的數據是存儲在不同地方的,所以檢索指定列的時候只需要找到對應的列存儲的位置,然後針對性檢索就行了。

二、hbase的表結構

  既然hbase是一個數據庫,那麽必然會有表的概念,它也有行鍵和列名的概念,不過與傳統關系數據庫不同的是它引入了列族的概念。

  hbase的表分為兩類,一類的系統表(又稱meta表),另一類是用戶表。meta表由系統創建與維護,主要存儲表和分區的元數據信息,用戶權限等。而用戶表是我們自己創建的表,我們用戶用來存儲業務數據的表。

  hbase的表裏面有很多概念:行、列、行鍵、單元格、值、時間戳等。

  如下圖所示是一張hbase表,RowKey就是行鍵的概念,一行只有一個用來作為唯一標示。同時下圖有兩個列族,CF1和CF2,在它們下面又各有兩個列,分別是name/age和sex/class,每一個行可以有多個時間戳標示不同的版本,例如下面的00001就有3個不同的時間戳版本,而hbase在查詢的時候默認是獲取最新的時間戳版本的數據。由rowkey、列(clomun)、timestamp可以確定一個唯一的單元格,如00001的t1時間的name是zhangsan。

技術分享圖片

同時我們可以看到有些列裏面是沒有值的,而hbase只對於有值的列存儲進文件系統。

  這裏有一個rowkey排序的問題,hbase是根據rowkey的字節值進行數據排序的,且rowkey一般都是字符串形式存儲的,存儲的時候會將字符串轉換為二進制流。也就是說,對於這裏的rowkey00001和00002來說,00001是排在00002前面的。同時由於這麽一個排序的問題,如果rowkey的設計不合理的話,很有可能會導致hbase的熱點問題。

三、hbase的表存儲

  下圖是hbase的一個table的存儲結構,一個table有一個或者多個region組成,這也是hbase能夠支持分布式存儲的重要原因。同時一個region裏由一個或者多個列族組成,一個列族有一個store實體組成,store實體裏面有MEMStore、HFil,MEMStore是內存實體,HFile是實際的存儲物理文件,HFile裏面又由多個block組成,block裏面存儲的就是單元格數據cell。

技術分享圖片

  Region

  如果是單機的話,所有行和列組成的單元格數據全部存儲在一張表中就可以了,但是hbase為了支持集群分布式,就必須把一張很大的表拆分成多個region。每個region都有一個起始的rowkey和一個結束的rowkey來定義它的邊界。同時每個region裏面存儲的那些rowkey都會保存在hbase的meta表中,查詢的時候可以通過meta數據快速定位到需要查詢的rowkey數據在哪個region裏面。hbase裏面有一個regionserver的角色,每個region會被分配到各自的regionserver中,這個是有hbase的負載均衡器自動完成的。同時當某個region很大的時候,它是可以分裂的,當然如果有需要,多個小的region也是可以合並的。

  列族

  列族是hbase獨有的概念,在同一個region裏面,不同的列族的數據會存儲在不同的文件中。而列族如何分配,可以根據存儲的數據的類型來決定,不同類型的數據可以存儲在不同的列族中,如文本數據和圖片數據就可以分開存儲。

  但是列族數量不宜過多,因為有一個列族就會有一個store,而region達到一定的大小之後就會進行分裂,這個時候列族過多就會出現問題。

  例如:一個region裏面有列族A和列族B,A有1000萬數據,而B有10萬數據,當region到達設定的閾值之後開始執行分裂,假設分裂為10份。那麽對於列族A來說每一份就是有100萬數據,但是對於B來說每一份就只有1萬數據,那麽當去檢索B的數據的時候就需要遍歷很多region從而導致性能降低。

  Store

  一個store對應一個列族。store對象由memstore和hfile組成,memstore是數據寫入的緩存區,而hflie是物理文件。數據寫進來的時候首先進入到memstore裏面,當memstore達到一定的閾值的時候Hfile就會被創建。

  Block

  Hflie是由block組成的,這裏的block與hdfs的block不同,一個hdfs的block可能會包含多個hfile的block。

四、Hbase的角色

  hbase在集群的情況下主要有兩個角色:HMaster和RegionServer。

  HMaster

  職責:1.Region分配 2.負載均衡 3.RegionServer恢復 4.監控Region分裂 5.追蹤活躍或者宕機的服務器

  RegionServer

  RegionServer是托管並且服務Region以及Hbase數據的應用程序。

  如下圖所示是一個9臺的hbase集群,其中3臺主機,6臺從機。主機上面運行Hmaster,hdfs的NN服務,以及zk服務,而從機上面運行RegionServer服務以及hdfs的DN服務。我們連接hbase進行讀寫的時候都是先連接主機的zk,然後zk找到對應的master服務器,然後master服務器通過meta數據找到數據在哪個region上面,然後找到這個region在具體哪個regionserver上面並且建立連接,由regionserver再執行數據操作。

技術分享圖片

五、總結

  關於hbase的概念呢以及存儲結構就寫這些好了,其實上面還有很多東西沒寫到,比如分裂合並的流程,讀寫流程什麽的,同時我們在實際應用hbase的時候也有很多技巧,比如rowkey設計,二級索引等,如果不懂hbase的原理的話,在使用的時候經常會踩很多坑,如果有寫的不對的地方也請大家多多指正,謝謝。

Hbase學習之概念與原理