1. 程式人生 > >Hive定義、Hive與HBase關係、Hive與RDBMS的關係、資料庫與資料倉庫的區別

Hive定義、Hive與HBase關係、Hive與RDBMS的關係、資料庫與資料倉庫的區別

1、Hive定義

Hive 是建立在 Hadoop 上的資料倉庫基礎構架。它提供了一系列的工具,可以用來進行資料提取轉化載入(ETL),這是一種可以儲存、查詢和分析儲存在 Hadoop 中的大規模資料的機制。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的使用者查詢資料。同時,這個語言也允許熟悉 MapReduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的複雜的分析工作。

    Hive是一個構建在Hadoop上的資料倉庫平臺,其設計目標是使Hadoop上的資料操作與傳統SQL結合,讓
    熟悉SQL程式設計的開發人員能夠輕鬆向Hadoop平臺轉移

Hadoop1.x的專案結構除了核心內容MapReduce和HDFS,還包括Common、Avro、
    Chukwa、Hive、HBase等子專案,它們之間相互提供服務,或在核心層上為更高提供服務


免費的日誌分析工具有:Awstats  Webalizer 頁面中嵌入js程式碼
    日誌分析的方式有:Linux Shell指令碼、SQL查詢、基於Hadoop的日誌分析

2、Hive與HBase關係


Hive是基於Hadoop的一個數據倉庫工具,是為簡化編寫MapReduce程式而生的,Hive十分適合資料倉庫的統計分析
 
HBase是一個分散式的、面向列的開源資料庫,它是一個適合於非結構化資料儲存的資料庫,列式資料庫

3、Hive與RDBMS的關係

Hive除了用了和資料庫相似的查詢語言,再無別的相同點

4、資料庫與資料倉庫的區別

資料倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、整合的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的資料集合,用於支援管理決策。

所謂的(1) 面向主題:指資料倉庫中的資料是按照一定的主題域進行組織。

(2)整合:指對原有分散的資料庫資料經過系統加工, 整理得到的消除源資料中的不一致性。

(3)相對穩定:指一旦某個資料進入資料倉庫以後只需要定期的載入、重新整理。

(4)反映歷史變化:指通過這些資訊,對企業的發展歷程和未來趨勢做出定量分析預測。

資料倉庫建設是一個工程,是一個過程,而不是一種可以購買的產品。企業資料處理方式是以聯機事務處理形式資訊,並利用資訊進行決策;在資訊應用過程中管理資訊。

資料倉庫的出現,並不是要取代資料庫。目前,大部分資料倉庫還是用關係資料庫管

理系統來管理的。資料倉庫與資料庫的主要區別在於:

(1)資料庫是面向事務的設計,資料倉庫是面向主題設計的。

(2)資料庫一般儲存線上交易資料,資料倉庫儲存的一般是歷史資料。

(3)資料庫設計是儘量避免冗餘,資料倉庫在設計是有意引入冗餘。

(4)資料庫是為捕獲資料而設計,資料倉庫是為分析資料而設計。