Hive 系列（五）—— Hive 分割槽表和分桶表

一、分割槽表

1.1 概念

Hive 中的表對應為 HDFS 上的指定目錄，在查詢資料時候，預設會對全表進行掃描，這樣時間和效能的消耗都非常大。

分割槽為 HDFS 上表目錄的子目錄，資料按照分割槽儲存在子目錄中。如果查詢的 where 字句的中包含分割槽條件，則直接從該分割槽去查詢，而不是掃描整個表目錄，合理的分割槽設計可以極大提高查詢速度和效能。

這裡說明一下分割槽表並 Hive 獨有的概念，實際上這個概念非常常見。比如在我們常用的 Oracle 資料庫中，當表中的資料量不斷增大，查詢資料的速度就會下降，這時也可以對錶進行分割槽。表進行分割槽後，邏輯上表仍然是一張完整的表，只是將表中的資料存放到多個表空間（物理檔案上），這樣查詢資料時，就不必要每次都掃描整張表，從而提升查詢效能。

1.2 使用場景

通常，在管理大規模資料集的時候都需要進行分割槽，比如將日誌檔案按天進行分割槽，從而保證資料細粒度的劃分，使得查詢效能得到提升。

1.3 建立分割槽表

在 Hive 中可以使用 PARTITIONED BY 子句建立分割槽表。表可以包含一個或多個分割槽列，程式會為分割槽列中的每個不同值組合建立單獨的資料目錄。下面的我們建立一張僱員表作為測試：

 CREATE EXTERNAL TABLE emp_partition(
    empno INT,
    ename STRING,
    job STRING,
    mgr INT,
    hiredate TIMESTAMP,
    sal DECIMAL(7,2),
    comm DECIMAL(7,2)
    )
    PARTITIONED BY (deptno INT)   -- 按照部門編號進行分割槽
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
    LOCATION '/hive/emp_partition';

1.4 載入資料到分割槽表

載入資料到分割槽表時候必須要指定資料所處的分割槽：

# 載入部門編號為20的資料到表中
LOAD DATA LOCAL INPATH "/usr/file/emp20.txt" OVERWRITE INTO TABLE emp_partition PARTITION (deptno=20)
# 載入部門編號為30的資料到表中
LOAD DATA LOCAL INPATH "/usr/file/emp30.txt" OVERWRITE INTO TABLE emp_partition PARTITION (deptno=30)

1.5 檢視分割槽目錄

這時候我們直接查看錶目錄，可以看到表目錄下存在兩個子目錄，分別是 deptno=20 和 deptno=30,這就是分割槽目錄，分割槽目錄下才是我們載入的資料檔案。

# hadoop fs -ls  hdfs://hadoop001:8020/hive/emp_partition/

這時候當你的查詢語句的 where 包含 deptno=20，則就去對應的分割槽目錄下進行查詢，而不用掃描全表。

二、分桶表

1.1 簡介

分割槽提供了一個隔離資料和優化查詢的可行方案，但是並非所有的資料集都可以形成合理的分割槽，分割槽的數量也不是越多越好，過多的分割槽條件可能會導致很多分割槽上沒有資料。同時 Hive 會限制動態分割槽可以建立的最大分割槽數，用來避免過多分割槽檔案對檔案系統產生負擔。鑑於以上原因，Hive 還提供了一種更加細粒度的資料拆分方案：分桶表 (bucket Table)。

分桶表會將指定列的值進行雜湊雜湊，並對 bucket（桶數量）取餘，然後儲存到對應的 bucket（桶）中。

1.2 理解分桶表

單從概念上理解分桶表可能會比較晦澀，其實和分割槽一樣，分桶這個概念同樣不是 Hive 獨有的，對於 Java 開發人員而言，這可能是一個每天都會用到的概念，因為 Hive 中的分桶概念和 Java 資料結構中的 HashMap 的分桶概念是一致的。

當呼叫 HashMap 的 put() 方法儲存資料時，程式會先對 key 值呼叫 hashCode() 方法計算出 hashcode，然後對陣列長度取模計算出 index，最後將資料儲存在陣列 index 位置的連結串列上，連結串列達到一定閾值後會轉換為紅黑樹 (JDK1.8+)。下圖為 HashMap 的資料結構圖：

圖片引用自：HashMap vs. Hashtable

1.3 建立分桶表

在 Hive 中，我們可以通過 CLUSTERED BY 指定分桶列，並通過 SORTED BY 指定桶中資料的排序參考列。下面為分桶表建表語句示例：

  CREATE EXTERNAL TABLE emp_bucket(
    empno INT,
    ename STRING,
    job STRING,
    mgr INT,
    hiredate TIMESTAMP,
    sal DECIMAL(7,2),
    comm DECIMAL(7,2),
    deptno INT)
    CLUSTERED BY(empno) SORTED BY(empno ASC) INTO 4 BUCKETS  --按照員工編號雜湊到四個 bucket 中
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
    LOCATION '/hive/emp_bucket';

1.4 載入資料到分桶表

這裡直接使用 Load 語句向分桶表載入資料，資料時可以載入成功的，但是資料並不會分桶。

這是由於分桶的實質是對指定欄位做了 hash 雜湊然後存放到對應檔案中，這意味著向分桶表中插入資料是必然要通過 MapReduce，且 Reducer 的數量必須等於分桶的數量。由於以上原因，分桶表的資料通常只能使用 CTAS(CREATE TABLE AS SELECT) 方式插入，因為 CTAS 操作會觸發 MapReduce。載入資料步驟如下：

1. 設定強制分桶

set hive.enforce.bucketing = true; --Hive 2.x 不需要這一步

在 Hive 0.x and 1.x 版本，必須使用設定 hive.enforce.bucketing = true，表示強制分桶，允許程式根據表結構自動選擇正確數量的 Reducer 和 cluster by column 來進行分桶。

2. CTAS匯入資料

INSERT INTO TABLE emp_bucket SELECT *  FROM emp;  --這裡的 emp 表就是一張普通的僱員表

可以從執行日誌看到 CTAS 觸發 MapReduce 操作，且 Reducer 數量和建表時候指定 bucket 數量一致：

1.5 檢視分桶檔案

bucket(桶) 本質上就是表目錄下的具體檔案：

三、分割槽表和分桶表結合使用

分割槽表和分桶表的本質都是將資料按照不同粒度進行拆分，從而使得在查詢時候不必掃描全表，只需要掃描對應的分割槽或分桶，從而提升查詢效率。兩者可以結合起來使用，從而保證表資料在不同粒度上都能得到合理的拆分。下面是 Hive 官方給出的示例：

CREATE TABLE page_view_bucketed(
    viewTime INT, 
    userid BIGINT,
    page_url STRING, 
    referrer_url STRING,
    ip STRING )
 PARTITIONED BY(dt STRING)
 CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS
 ROW FORMAT DELIMITED
   FIELDS TERMINATED BY '\001'
   COLLECTION ITEMS TERMINATED BY '\002'
   MAP KEYS TERMINATED BY '\003'
 STORED AS SEQUENCEFILE;

此時匯入資料時需要指定分割槽：

INSERT OVERWRITE page_view_bucketed
PARTITION (dt='2009-02-25')
SELECT * FROM page_view WHERE dt='2009-02-25';

參考資料

LanguageManual DDL BucketedTables

更多大資料系列文章可以參見 GitHub 開源專案：大資料入門指南

相關推薦

Hive 系列（五）—— Hive 分割槽表和分桶表

一、分割槽表 1.1 概念 Hive 中的表對應為 HDFS 上的指定目錄，在查詢資料時候，預設會對全表進行掃描，這樣時間和效能的消耗都非常大。分割槽為 HDFS 上表目錄的子目錄，資料按照分割槽儲存在子目錄中。如果查詢的 where 字句的中包含分割槽條件，則直接從該分割槽去查詢，而不是掃描整個表目錄，合

Hive 系列（一）—— Hive 簡介及核心概念

一、簡介 Hive 是一個構建在 Hadoop 之上的資料倉庫，它可以將結構化的資料檔案對映成表，並提供類 SQL 查詢功能，用於查詢的 SQL 語句會被轉化為 MapReduce 作業，然後提交到 Hadoop 上執行。特點：簡單、容易上手 (提供了類似 sql 的查詢語言 hql)，使得精通 sql

Hive 系列（四）—— Hive 常用 DDL 操作

一、Database 1.1 檢視資料列表 show databases; 1.2 使用資料庫 USE database_name; 1.3 新建資料庫語法： CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name --DATABASE|SC

Hive 系列（六）—— Hive 檢視和索引

一、檢視 1.1 簡介 Hive 中的檢視和 RDBMS 中檢視的概念一致，都是一組資料的邏輯表示，本質上就是一條 SELECT 語句的結果集。檢視是純粹的邏輯物件，沒有關聯的儲存 (Hive 3.0.0 引入的物化檢視除外)，當查詢引用檢視時，Hive 可以將檢視的定義與查詢結合起來，例如將查詢中的過濾器推

Hive 系列（七）—— Hive 常用 DML 操作

一、載入檔案資料到表 1.1 語法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOCAL 關鍵字代表

Hive 系列（八）—— Hive 資料查詢詳解

一、資料準備為了演示查詢操作，這裡需要預先建立三張表，並載入測試資料。資料檔案 emp.txt 和 dept.txt 可以從本倉庫的resources 目錄下載。 1.1 員工表 -- 建表語句 CREATE TABLE emp( empno INT, -- 員工表編號

Hive面試題:Hive分割槽表和分桶表的區別

分割槽在HDFS上的表現形式是一個目錄，分桶是一個單獨的檔案分割槽: 細化資料管理，直接讀對應目錄，縮小mapreduce程式要掃描的資料量分桶： 1、提高join查詢的效率（用分桶欄位做連線欄位）

一起學Hive——建立內部表、外部表、分割槽表和分桶表及匯入資料

Hive本身並不儲存資料，而是將資料儲存在Hadoop的HDFS中，表名對應HDFS中的目錄/檔案。根據資料的不同儲存方式，將Hive表分為外部表、內部表、分割槽表和分桶表四種資料模型。每種資料模型各有優缺點。通過create user命令建立user表時，會在HDFS中生成一個user目錄/檔案。外部表

資料倉庫和hive語句中的分割槽表和分桶表

資料倉庫中從各資料來源獲取資料以及在資料倉庫內的資料轉換和流動都可以認為是ETL（抽取Extra,轉化Transfer,裝載Load）的過程,ETL是資料倉庫的流水線.資料倉庫(data warehouse)與資料庫的區別:資料倉庫(data warehouse)--

Exchange Server 2013 高可用部署系列（五）外網訪問和證書配置

Exchange Server 2013預設部署好後不需要任何配置就可以進行內部收發郵件，但要進行外部訪問和收發外網郵件，需要進行一系列的配置，本篇博文來介紹外網訪問和證書配置：一、外部DNS配

python系列（五）centos6.x中部署多個python版本

python pyenv centos6.x virtualenv 博主QQ：819594300博客地址：http://zpf666.blog.51cto.com/有什麽疑問的朋友可以聯系博主，博主會幫你們解答，謝謝支持！使用pyenv+virtualenv方式部署python多版本pyenv

Hive總結（七）Hive四種數據導入方式

hive src ive log 技術 mage cnblogs images 四種 Hive總結（七）Hive四種數據導入方式

源碼分析系列（五）x264_ratecontrol_dataflow

技術 stc 碼率控制碼率 targe article nbsp target 緩沖區 http://www.cnblogs.com/xkfz007/articles/2616159.html 碼率控制部分關鍵函數 5.1 x264_ratecontrol_star

Windows Server 2012（單林、多樹、多站點）AD 部署系列（五）創建樹域

windows server 域樹域站點多域環境本章博文開始在BJ、SH、GZ站點為林bicionline.org 創建樹域控及調配的相關DNS等功能。網絡配置：1、為BJ站點ds04、SH站點pdc02和GZ站點ad02配置網絡， IP配置分別如下：（註：在創建域樹環境時，確

SQL Server 2005中的分區表（五）：添加一個分區

eat 查詢 sch 另一個 rom 原創查看 copyto art 所謂天下大事，分久必合，合久必分，對於分區表而言也一樣。前面我們介紹過如何刪除（合並）分區表中的一個分區，下面我們介紹一下如何為分區表添加一個分區。為分區表添加一個分區，這種情況是時常會

PHP系列（五）PHP字符串處理

php字符串處理 php字符串處理1、字符串的處理方式（分割匹配找查替換）//聲明一個關聯數組，數組名為$lamp, 成員有4個$lamp = array( ‘os‘=>‘Linux‘,‘webserver‘ =>‘Apache‘, ‘db‘=>‘MySQL‘, ‘language‘=>

JXLS 2.4.0系列教程（五）——更進一步的應用和bug修復

erl dir 問題 create sna 過程 idl es2017 cal 註：本文代碼建立於前面寫的代碼。不過不看也不要緊。　　前面的文章把JXLS 2.4.0 的基本使用寫了一遍，現在講講一些更進一步的使用方法。我只寫一些我用到過的方法，更多的高級使用方法請參

Python操作rabbitmq系列（五）:根據主題分配消息

method type 同時 elephant com .info err 現在 bin 接著上一章，使用exchange_type=‘direct‘進行消息傳遞。這樣消息會完全匹配後發送到對應的接收端。現在我們想幹這樣一件事： C1獲取消息中包含：orange內容的消息，

【轉】Spring MVC系列（五）之自定義數據綁定---HandlerMethodArgumentResolver

開閉 src pat 獲取參數 mvc .net 定義開閉原則淺析介紹前面幾節我們介紹了Spring MVC的幾種常見的數據綁定的方法，可以靈活地獲取用戶請求中的參數，例如@PathVariable，@ModelAttribute，@RequestPar

Vue入門系列（五）Vue實例詳解與生命周期

auto res context mode parent all from bool silent 【入門系列】【本文轉自】　　http://www.cnblogs.com/fly_dragon Vue的實例是Vue框架的入口，其實也就是前端的ViewM