1. 程式人生 > >HBase資料結構與基本語法詳解

HBase資料結構與基本語法詳解

HBase中的表一般有這樣的特點:

1 大:一個表可以有上億行,上百萬列

2 面向列:面向列(族)的儲存和許可權控制,列(族)獨立檢索。

3 稀疏:對於為空(null)的列,並不佔用儲存空間,因此,表可以設計的非常稀疏。

邏輯檢視

HBase以表的形式儲存資料。表有行和列組成。列劃分為若干個列族(row family)

Row Key

與nosql資料庫們一樣,row key是用來檢索記錄的主鍵。訪問hbase table中的行,只有三種方式:
1通過單個row key訪問
2 通過row key的range
3 全表掃描

Row key行鍵 (Row key)可以是任意字串(最大長度是 64KB,實際應用中長度一般為 10-100bytes),在hbase內部,row key儲存為位元組陣列。

儲存時,資料按照Row key的字典序(byte order)排序儲存。設計key時,要充分排序儲存這個特性,將經常一起讀取的行儲存放到一起。(位置相關性)

注意:

字典序對int排序的結果是:
 1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序,行鍵必須用0作左填充。

行的一次讀寫是原子操作 (不論一次讀寫多少列)。這個設計決策能夠使使用者很容易的理解程式在對同一個行進行併發更新操作時的行為。

列族

hbase表中的每個列,都歸屬與某個列族。列族是表的chema的一部分(而列不是),必須在使用表之前定義。列名都以列族作為字首。例如courses:history,courses:math都屬於courses 這個列族。

訪 問控制、磁碟和記憶體的使用統計都是在列族層面進行的。實際應用中,列族上的控制權限能幫助我們管理不同型別的應用:我們允許一些應用可以新增新的基本數 據、一些應用可以讀取基本資料並建立繼承的列族、一些應用則只允許瀏覽資料(甚至可能因為隱私的原因不能瀏覽所有資料)。

時間戳

HBase 中通過row和columns確定的為一個存貯單元稱為cell。每個 cell都儲存著同一份資料的多個版本。版本通過時間戳來索引。時間戳的型別是 64位整型。時間戳可以由hbase(在資料寫入時自動 )賦值,此時時間戳是精確到毫秒的當前系統時間。時間戳也可以由客戶顯式賦值。如果應用程式要避免資料版本衝突,就必須自己生成具有唯一性的時間戳。每個 cell中,不同版本的資料按照時間倒序排序,即最新的資料排在最前面。

為了避免資料存在過多版本造成的的管理 (包括存貯和索引)負擔,hbase提供了兩種資料版本回收方式。一是儲存資料的最後n個版本,二是儲存最近一段時間內的版本(比如最近七天)。使用者可以針對每個列族進行設定。

Cell

由{row key, column(= + ), version} 唯一確定的單元。cell中的資料是沒有型別的,全部是位元組碼形式存貯。

物理儲存

1 已經提到過,Table中的所有行都按照row key的字典序排列。
 2 Table 在行的方向上分割為多個Hregion。

3 region按大小分割的,每個表一開始只有一個region,隨著資料不斷插入表,region不斷增大,當增大到一個閥值的時候,Hregion就會等分會兩個新的Hregion。當table中的行不斷增多,就會有越來越多的Hregion。

4 HRegion是Hbase中分散式儲存和負載均衡的最小單元。最小單元就表示不同的Hregion可以分佈在不同的HRegion server上。但一個Hregion是不會拆分到多個server上的。

5 HRegion雖然是分散式儲存的最小單元,但並不是儲存的最小單元。

事實上,HRegion由一個或者多個Store組成,每個store儲存一個columns family。

每個Strore又由一個memStore和0至多個StoreFile組成。如圖:

StoreFile以HFile格式儲存在HDFS上。

HFile的格式為:

HFile分為六個部分:

Data Block 段–儲存表中的資料,這部分可以被壓縮

Meta Block 段 (可選的)–儲存使用者自定義的kv對,可以被壓縮。

File Info 段–Hfile的元資訊,不被壓縮,使用者也可以在這一部分新增自己的元資訊。

Data Block Index 段–Data Block的索引。每條索引的key是被索引的block的第一條記錄的key。

Meta Block Index段 (可選的)–Meta Block的索引。

Trailer– 這一段是定長的。儲存了每一段的偏移量,讀取一個HFile時,會首先讀取Trailer,Trailer儲存了每個段的起始位置(段的Magic Number用來做安全check),然後,DataBlock Index會被讀取到記憶體中,這樣,當檢索某個key時,不需要掃描整個HFile,而只需從記憶體中找到key所在的block,通過一次磁碟io將整個 block讀取到記憶體中,再找到需要的key。DataBlock Index採用LRU機制淘汰。

HFile的Data Block,Meta Block通常採用壓縮方式儲存,壓縮之後可以大大減少網路IO和磁碟IO,隨之而來的開銷當然是需要花費cpu進行壓縮和解壓縮。

目標Hfile的壓縮支援兩種方式:Gzip,Lzo。

shell

進入hbase shell console
$HBASE_HOME/bin/hbase shell

如果有kerberos認證,需要事先使用相應的keytab進行一下認證(使用kinit命令),認證成功之後再使用hbase shell進入可以使用whoami命令可檢視當前使用者
hbase(main)> whoami

表的管理

1)檢視有哪些表
hbase(main)> list

使用exists 命令驗證表是否被刪除。
hbase(main)> exists 'test'
Table test does not exist

2)建立表
# 語法:create <table>, {NAME => <family>, VERSIONS => <VERSIONS>}
# 例如:建立表t1,有兩個column family:f1,f2,且版本數均為2
hbase(main)> create 't1',{NAME => 'f1', VERSIONS => 2},{NAME => 'f2', VERSIONS => 2}

3)刪除表
 分兩步:首先disable,然後drop
 例如:刪除表t1
hbase(main)> disable 't1'
hbase(main)> drop 't1'

4)查看錶的結構
# 語法:describe <table>
# 例如:查看錶t1的結構
hbase(main)> describe 't1'

5)修改表結構

修改表結構必須先disable

新增列族
# 語法:alter 't1', {NAME => 'f1'}, {NAME => 'f2', METHOD => 'delete'}
# 例如:修改表t1的cf的TTL為180天
hbase(main)> disable 't1'
hbase(main)> alter 't1',{NAME=>'body',TTL=>'15552000'},{NAME=>'meta', TTL=>'15552000'}
hbase(main)> alter 't1','body1','meta1'
hbase(main)> enable 't1'

刪除列族
hbase> alter 'table name', 'delete' => 'column family'

許可權管理

1)分配許可權
# 語法 : grant <user> <permissions> <table> <column family> <column qualifier> 引數後面用逗號分隔
# 許可權用五個字母表示: "RWXCA".
# READ('R'), WRITE('W'), EXEC('X'), CREATE('C'), ADMIN('A')
# 例如,給使用者'luanpeng'分配對錶t1有讀寫的許可權,
hbase(main)> grant 'luanpeng','RW','t1'

2)檢視許可權
# 語法:user_permission <table>
# 例如,查看錶t1的許可權列表
hbase(main)> user_permission 't1'

3)收回許可權
# 與分配許可權類似,語法:revoke <user> <table> <column family> <column qualifier>
# 例如,收回luanpeng使用者在表t1上的許可權
hbase(main)> revoke 'luanpeng','t1'

表資料的增刪改查

1)新增資料
# 語法:put <table>,<rowkey>,<family:column>,<value>,<timestamp>
# 例如:給表t1的新增一行記錄:rowkey是rowkey001,family name是f1,column name是col1,value是value01,timestamp:系統預設
hbase(main)> put 't1','rowkey001','f1:col1','value01'

用法比較單一。

2)查詢資料
 a)查詢某行記錄
# 語法:get <table>,<rowkey>,[<family:column>,....]
# 例如:查詢表t1,rowkey001中的f1下的col1的值
hbase(main)> get 't1','rowkey001', 'f1:col1'
# 或者:
hbase(main)> get 't1','rowkey001', {COLUMN=>'f1:col1'}
# 查詢表t1,rowke002中的f1下的所有列值
hbase(main)> get 't1','rowkey001'

b)掃描表
# 語法:scan <table>, {COLUMNS => [ <family:column>,.... ], LIMIT => num}
# 另外,還可以新增STARTROW、TIMERANGE和FITLER等高階功能
# 例如:掃描表t1的前5條資料
hbase(main)> scan 't1',{LIMIT=>5}

c)查詢表中的資料行數
# 語法:count <table>, {INTERVAL => intervalNum, CACHE => cacheNum}
# INTERVAL設定多少行顯示一次及對應的rowkey,預設1000;CACHE每次去取的快取區大小,預設是10,調整該引數可提高查詢速度
# 例如,查詢表t1中的行數,每100條顯示一次,快取區為500
hbase(main)> count 't1', {INTERVAL => 100, CACHE => 500}

3)刪除資料
 a )刪除行中的某個列值
# 語法:delete <table>, <rowkey>,  <family:column> , <timestamp>,必須指定列名
# 例如:刪除表t1,rowkey001中的f1:col1的資料
hbase(main)> delete 't1','rowkey001','f1:col1'

注:將刪除改行f1:col1列所有版本的資料

b )刪除行
# 語法:deleteall <table>, <rowkey>,  <family:column> , <timestamp>,可以不指定列名,刪除整行資料
# 例如:刪除表t1,rowk001的資料
hbase(main)> deleteall 't1','rowkey001'

c)刪除表中的所有資料
# 語法: truncate <table>
# 其具體過程是:disable table -> drop table -> create table
# 例如:刪除表t1的所有資料
hbase(main)> truncate 't1'

Region管理

1)移動region
# 語法:move 'encodeRegionName', 'ServerName'
# encodeRegionName指的regioName後面的編碼,ServerName指的是master-status的Region Servers列表
# 示例
hbase(main)>move '4343995a58be8e5bbc739af1e91cd72d', 'db-41.xxx.xxx.org,60020,1390274516739'

2)開啟/關閉region
# 語法:balance_switch true|false
hbase(main)> balance_switch

3)手動split
# 語法:split 'regionName', 'splitKey'

4)手動觸發major compaction
#語法:
#Compact all regions in a table:
#hbase> major_compact 't1'
#Compact an entire region:
#hbase> major_compact 'r1'
#Compact a single column family within a region:
#hbase> major_compact 'r1', 'c1'
#Compact a single column family within a table:
#hbase> major_compact 't1', 'c1'

配置管理及節點重啟

1)修改hdfs配置
 hdfs配置位置:/etc/hadoop/conf
# 同步hdfs配置
cat /home/hadoop/slaves|xargs -i -t scp /etc/hadoop/conf/hdfs-site.xml [email protected]{}:/etc/hadoop/conf/hdfs-site.xml
#關閉:
cat /home/hadoop/slaves|xargs -i -t ssh [email protected]{} "sudo /home/hadoop/cdh4/hadoop-2.0.0-cdh4.2.1/sbin/hadoop-daemon.sh --config /etc/hadoop/conf stop datanode"
#啟動:
cat /home/hadoop/slaves|xargs -i -t ssh [email protected]{} "sudo /home/hadoop/cdh4/hadoop-2.0.0-cdh4.2.1/sbin/hadoop-daemon.sh --config /etc/hadoop/conf start datanode"

2)修改hbase配置
 hbase配置位置:/home/hadoop/hbase
# 同步hbase配置
cat /home/hadoop/hbase/conf/regionservers|xargs -i -t scp /home/hadoop/hbase/conf/hbase-site.xml [email protected]{}:/home/hadoop/hbase/conf/hbase-site.xml
 
# graceful重啟
cd ~/hbase
bin/graceful_stop.sh --restart --reload --debug inspurXXX.xxx.xxx.org

hbase shell 指令碼

編寫一個文字檔案hbasedemo.txt:
disable 'table1'
drop 'table1'
create 'table1', 'column_family1','column_family2' 
list 'table1' 
put 'table1', 'row_key1', 'column_family1:col1', 'value1' 
put 'table1', 'row_key2', 'column_family1:col2', 'value2' 
put 'table1', 'row_key3', 'column_family2:col3', 'value3' 
put 'table1', 'row_key4', 'column_family2:col4', 'value4' 
scan 'table1' 
scan 'table1',{LIMIT=>5}
get 'table1', 'row_key1' 
get 'table1','row_key1', 'column_family1:col1'
count 'table1'

 

disable 'table1' 
alter 'table1',NAME=>'column_family3'
alter 'table1','delete'=>'column_family3'
enable 'table1'
describe 'table1'
grant 'root','RW','table1'
user_permission 'table1'

delete 'table1','row_key1','column_family1:col1'
deleteall 'table1','row_key1'
truncate 'table1'

在HBase shell中執行這個指令碼
hbase shell hbasedemo.txt

需要注意的是,如果編寫的txt檔案中沒有exit這條命令的話,當指令碼執行完成後,會停留在hbase shell的介面中,如果有exit命令的話,就會退出到系統shell中。