Hive over HBase和Hive over HDFS效能比較分析

阿新 • • 發佈：2019-01-02

http://superlxw1234.iteye.com/blog/2008274

環境配置：

hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)

hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)

hive-0.10.0-cdh4.3.0

一、查詢效能比較：

    query1:
        select count(1) from on_hdfs;
        select count(1) from on_hbase;
    query2(根據key過濾)
        select * from on_hdfs
            where key = '13400000064_1388056783_460095106148962';
        select * from on_hbase
            where key = '13400000064_1388056783_460095106148962';
    query3(根據value過濾)
        select * from on_hdfs where value = 'XXX';
        select * from on_hbase where value = 'XXX';

on_hdfs (20萬記錄，150M，TextFile on HDFS)
on_hbase(20萬記錄，160M，HFile on HDFS)

    on_hdfs (2500萬記錄，2.7G，TextFile on HDFS)
    on_hbase(2500萬記錄，3G，HFile on HDFS)

     從上圖可以看出，
            對於全表掃描，hive_on_hbase查詢時候如果不設定catching，效能遠遠不及hive_on_hdfs；
            根據rowkey過濾，hive_on_hbase效能上略好於hive_on_hdfs，特別是資料量大的時候；
            設定了caching之後，儘管比不設caching好很多，但還是略遜於hive_on_hdfs；

二、Hive over HBase原理

    Hive與HBase利用兩者本身對外的API來實現整合，主要是靠HBaseStorageHandler進行通訊，利用HBaseStorageHandler，Hive可以獲取到Hive表對應的HBase表名，列簇以及列，InputFormat和OutputFormat類，建立和刪除HBase表等。
    Hive訪問HBase中表資料，實質上是通過MapReduce讀取HBase表資料，其實現是在MR中，使用HiveHBaseTableInputFormat完成對HBase表的切分，獲取RecordReader物件來讀取資料。
    對HBase表的切分原則是一個Region切分成一個Split,即表中有多少個Regions,MR中就有多少個Map；
    讀取HBase表資料都是通過構建Scanner，對錶進行全表掃描，如果有過濾條件，則轉化為Filter。當過濾條件為rowkey時，則轉化為對rowkey的過濾；
    Scanner通過RPC呼叫RegionServer的next()來獲取資料；

三、效能瓶頸分析

1. Map Task

    Hive讀取HBase表，通過MR,最終使用HiveHBaseTableInputFormat來讀取資料，在getSplit()方法中對HBase表進行切分，切分原則是根據該表對應的HRegion，將每一個Region作為一個InputSplit，即，該表有多少個Region,就有多少個Map Task；
    每個Region的大小由引數hbase.hregion.max.filesize控制，預設10G，這樣會使得每個map task處理的資料檔案太大，map task效能自然很差；
    為HBase表預分配Region，使得每個Region的大小在合理的範圍；
    下圖是給該表預分配了15個Region，並且控制key均勻分佈在每個Region上之後，查詢的耗時對比，其本質上是Map數增加。

2. Scan RPC 呼叫：

在Scan中的每一次next()方法都會為每一行資料生成一個單獨的RPC請求， query1和query3中，全表有2500萬行記錄，因此要2500萬次RPC請求；

掃描器快取（Scanner Caching）：HBase為掃描器提供了快取的功能，可以通過引數hbase.client.scanner.caching來設定；預設是1；快取的原理是通過設定一個快取的行數，當客戶端通過RPC請求RegionServer獲取資料時，RegionServer先將資料快取到記憶體，當快取的資料行數達到引數設定的數量時，再一起返回給客戶端。這樣，通過設定掃描器快取，就可以大幅度減少客戶端RPC呼叫RegionServer的次數；但並不是快取設定的越大越好，如果設定的太大，每一次RPC呼叫將會佔用更長的時間，因為要獲取更多的資料並傳輸到客戶端，如果返回給客戶端的資料超出了其堆的大小，程式就會終止並跑出OOM異常；

所以，需要為少量的RPC請求次數和客戶端以及服務端的記憶體消耗找到平衡點。

    rpc.metrics.next_num_ops
    未設定caching,每個RegionServer上通過next()方法呼叫RPC的次數峰值達到1000萬：

    設定了caching=2000，每個RegionServer上通過next()方法呼叫RPC的次數峰值只有4000：

設定了caching之後，幾個RegionServer上的記憶體消耗明顯增加：

掃描器批量（Scanner Batch）：快取是面向行一級的操作，而批量則是面向列一級的操作。批量可以控制每一次next()操作要取回多少列。比如，在掃描器中設定setBatch(5),則一次next()返回的Result例項會包括5列。
RPC請求次數的計算公式如下：
RPC請求次數 =
（錶行數 * 每行的列數）/ Min(每行的列數，批量大小) / 掃描器快取

因此，在使用Hive over HBase，對HBase中的表做統計分析時候，需要特別注意以下幾個方面：

1. 對HBase表進行預分配Region，根據表的資料量估算出一個合理的Region數；

2. rowkey設計上需要注意，儘量使rowkey均勻分佈在預分配的N個Region上；

3. 通過set hbase.client.scanner.caching設定合理的掃描器快取；

4. 關閉mapreduce的推測執行：

set mapred.map.tasks.speculative.execution = false;
set mapred.reduce.tasks.speculative.execution = false;

Hive over HBase和Hive over HDFS效能比較分析

http://superlxw1234.iteye.com/blog/2008274環境配置：hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/

Linux-centos下安裝hue視覺化以及與hdfs、hive、hbase和mysql的整合

1. Hue概述及版本下載 1）概述 Hue是一個開源的Apache Hadoop UI系統，最早是由Cloudera Desktop演化而來，由Cloudera貢獻給開源社群，它是基於Python Web框架Django實現的。通過使用Hue我們可以在瀏覽器端的W

面試：Hbase和Hive的區別

區別： 1. Hive是一個構建在Hadoop基礎設施之上的資料倉庫，通過HQL查詢存放在HDFS上的資料，不能互動查詢。HBase是一種Key/Value系統，它執行在HDFS之上，可以互動查詢。 2. Hive只是一種類SQL的引擎，執行MapReduce任務，不能更新資料。Hba

HBase 和 Hive 的比較

1、相同點 1、HBase 和 Hive 都是架構在 Hadoop 之上，用 HDFS 做底層的資料儲存，用 MapReduce 做資料計算 2、不同點 1、Hive 是建立在 Hadoop 之上為了降低 MapReduce 程式設計複雜度的 ETL 工具。

Hbase和Hive的區別，Hbase與傳統資料庫的區別

HBase 於 Hive 的區別，我們簡單的梳理一下 Hive 和 HBase 的應用場景： Hive 適合用來對一段時間內的資料進行分析查詢，例如，用來計算趨勢或者網站的日誌。Hive 不應該用來進行實時的查詢（Hive 的設計目的，也不是支援實時的查詢）。因為它需要很長時間才可以返回結果；H

hbase和hive---資料庫和資料倉庫

hbase和hive都是架構與hadoop上的，hbase為分散式資料庫，hive為分散式資料倉庫。資料庫：一般儲存線上交易資料，用於捕獲資料，儘量避免資料冗餘可以增刪改查資料倉庫：也是資料庫儲存資料的，不過其資料是為了“分析"存在的。一般儲存歷史資料，用於分析

Hbase和Hive以及傳統資料庫的區別

Hbase和Hive HBase 是一種類似於資料庫的儲存層，也就是說 HBase 適用於結構化的儲存。並且 HBase 是一種列式的分散式資料庫。 HBase 底層依舊依賴 HDFS 來作為其物理儲存，這點類似於 Hive。 1.實時性：Hive 適合用來對一段時間內

hbase和hive整合實戰

hbase表對映到hive表中 1 在hbase中建立表：表名hbase_test, 有三個列族 f1、f2、f3 create 'hbase_test',{NAME => 'f1',VERSIONS => 1},{NAME => 'f2',

hbase和hive的一些調優心得

Hive優化： 1、開啟limit，防止過多的資料查詢造成時延 2、開啟嚴格模式，禁止三種模式的查詢（查詢全部分割槽而沒有where限制、使用order by查詢而沒有limit限制，表聯結使用on以限制笛卡兒積的查詢） 3、合理的設定map reduce的個數，不能過多或

Hive整合HBase 通過Hive讀/寫HBase中的表

寫在前面一：本文將Hive與HBase整合在一起，使Hive可以讀取HBase中的資料，讓Hadoop生態系統中最為常用的兩大框架互相結合，相得益彰。寫在前面二：使用軟體說明約定所有軟體的存放目錄： /home/yujianxin 一、Hive整合HBase原理

JavaScript——for和for in 的效能比較與for迴圈的優化方案

在JavaScript中，我們遍歷陣列的時候經常需要用到for和for in。今天來比較一下這兩個遍歷方法的效能，並提供優化方案。 1.for 和for in的效能比較我們都知道，for 和for in的時間複雜度一樣，但是其效能有些許差距。具體有多大差距呢，下面我們來

pandas中apply和transform方法的效能比較

1. apply與transform 首先講一下apply() 與transform()的相同點與不同點相同點：都能針對dataframe完成特徵的計算，並且常常與groupby()方法一起使用。不同點： apply()裡面可以跟自定義的函式，包括簡單的求和函式以及複雜的特徵間的差值函式等（注：appl

V4L2採集+編碼壓縮（M-JPEG和H.264壓縮效能比較）

Linux下，一般的普通USB攝像頭V4L2視訊採集有兩種方式：V4L2_PIX_FMT_MJPEG和V4L2_PIX_FMT_YUYV。 V4L2_PIX_FMT_MJPEG採集方式得到的是經過M

RelativeLayout和LinearLayout效能比較相對佈局和線性佈局的效能比較

看到幾篇關於RelativeLayout和LinearLayout效能分析的部落格，寫的相當不錯，這裡在大神的基礎上，增加了部分內容 RelativeLayout和LinearLayout是Android中常用的佈局，兩者的使用會極大的影響程式生成每一幀的效能，因此，正確的使用它們是提升

lambda表示式foreach和普通for迴圈效能比較

java 8的新特性之一就是lambda表示式，其中lambda表示式的foreach迴圈最為引人注目，現比較下lambda表示式foreach和普通for迴圈的效能測試。程式碼如下： public static void main(String[] args){ List

Java直接記憶體和堆記憶體的效能比較

在JDK 1.4中新加入了NIO（New Input/Output）類，引入了一種基於通道（Channel）與緩衝區（Buffer）的I/O方式，它可以使用Native函式庫直接分配堆外記憶體，然後通過一個儲存在Java堆裡面的DirectByteBuffer物件作為

多核處理器&類UNIX系統 -> 之多程序和多執行緒效能比較

網路上有很多討論關於在*NIX系統在SMP環境下到底是應該用多執行緒還是多程序, 到底哪一個有更好的效能, 比如有很多人認為考慮到linux使用1-1執行緒模型（對核心來說, 執行緒就是一個程序）並且系統已經為程序處理做了很多優化,效率提升, 所以在liunx SMP環

Android資料庫ORM框架用法、原始碼和效能比較分析

基本用法 LitePal LitePal是一款開源的Android資料庫框架，它採用了物件關係對映(ORM)的模式，LitePal很“輕”，jar包只有100k不到，使用起來也比較簡單，原始碼地址為Github地址。首先需要引入lib，可以通過g

插入排序的實現與優化並和選擇排序進行效能比較

插入排序第一種：交換法 | 8 | 6 | 3 | 2 | 10 | 9 | 11 | 4 | 5 | 第一個元素就不需要考慮了，直接看第二個元素6，因為6<8,所以6與8交換位置得到： | 6 | 8 | 3 | 2 | 10 |

執行緒池中使用條件變數和訊號量的效能比較

面試的時候經常被問到互斥量，條件變數和訊號量之間的問題。比如前幾天華為面試就被問到互斥量和訊號量的區別，說到互斥量也可以使用一個二值訊號量來實現，什麼情況是隻能使用互斥量而不能使用訊號量的。這個問題當時我只回答出一種情況，想了解詳情的可自行百度。如面試官所說，訊