1. 程式人生 > >Hadoop之HBase

Hadoop之HBase

索引 通過 抓取 hbase 區別 訪問 hba 計算 ase

從BigTable說起:

BigTable用於解決互聯網的搜索問題

1.  建立互聯網的索引

  爬蟲持續不斷的抓取新的網頁,這些網頁每一頁一行的存儲到BIgTable中

  MapReduce計算作業運行在整個表上,生成索引,為網絡搜索應用做準備

2.  搜索互聯網

  用戶發起網絡搜索請求

  搜索網絡應用查詢建立好的索引,從BigTable中得到網頁

  提交用戶

HBase:高可靠,高性能,面向列,可伸縮的分布式數據庫。存儲非結構化或者半結構數據的松散數據。

與傳統的關系型數據庫之間的主要區別

1.  數據索引:關系型數據庫都有一個主索引,或者有多個二級索引。HBase只有一個索引,行鍵。HBase中的所有的訪問方法,或者通過行鍵訪問,或者通過行鍵掃描,從而使得整個系統不會慢下來。

2.  數據維護:HBase在數據修改之後會保留舊的數據和新的數據

3.  可伸縮性:可以輕易的增加集群。

Hadoop之HBase