hive中的桶表，以及高效的join方式

阿新 • • 發佈：2019-01-11

hive中的join策略大概可以分為三種

這裡寫圖片描述

前面2種的話都是經常會用到，說下第三種桶 join

桶（SMB）

物理上，每個桶就是表(或分割槽）目錄裡的一個檔案。
smb的設計是為了解決大表和大表之間的join的。簡單的說下她的思想：大表化成小表，map side join 解決。經典的分而治之的思想。

對一個表或者一個分割槽，可以將其劃分為更細的資料塊，桶。在hive中，分桶的方式採取的是：對列的值進行hash除以桶的數量取餘；

為什麼要對資料進行分桶：

桶給表加上了額外的結構，在進行某些查詢的時候可以利用這個結構進行高效的查詢；例如：對於兩個資料表，某兩列都做了桶劃分，可以使用map端的join高效的完成join（桶和桶之間的join，大大減少了join的次數）。

對於資料取樣更加高效

建立桶劃分的表

CREATE TABLE bucketed_user (id INT) name STRING) 
CLUSTERED BY (id) INTO 4 BUCKETS;

用CLUSTERED BY (id) INTO 4 BUCKETS 分別指定需要進行分桶的列和需要分桶的數量；

在這裡，我們使用使用者ID來確定如何劃分桶(Hive使用對值進行雜湊並將結果除以桶的個數取餘數。這樣，任何一桶裡都會有一個隨機的使用者集合（PS：其實也能說是隨機，不是嗎？）。
對於map端連線的情況，兩個表以相同方式劃分桶。處理左邊表內某個桶的 mapper知道右邊表內相匹配的行在對應的桶內。因此，mapper只需要獲取那個桶 (這只是右邊表記憶體儲資料的一小部分)即可進行連線。這一優化方法並不一定要求兩個表必須桶的個數相同，兩個表的桶個數是倍數關係也可以。

桶中的資料可以根據一個或多個列另外進行排序。由於這樣對每個桶的連線變成了高效的歸併排序(merge-sort), 因此可以進一步提升map端連線的效率。以下語法宣告一個表使其使用排序桶：

CREATE TABLE bucketed_users (id INT, name STRING) 
CLUSTERED BY (id) SORTED BY (id ASC) INTO 4 BUCKETS;

使用tips:
兩個表join的時候，小表不足以放到記憶體中，但是又想用map side join這個時候就要用到bucket Map join。其方法是兩個join表在join key上都做hash bucket，並且把你打算複製的那個（相對）小表的bucket數設定為大表的倍數。這樣資料就會按照join key做hash bucket。小表依然複製到所有節點，Map join的時候，小表的每一組bucket載入成hashtable，與對應的一個大表bucket做區域性join，這樣每次只需要載入部分hashtable就可以了。

ps：map side join其實也是有侷限性的。他要求從表的資料量較小；從表：left join的右表，right join 的左表。

bucket map join
set Hive.optimize.bucketMapjoin = true;
select /*+Mapjoin(a) */count(*)
from Map_join_test a
join Map_join_test b on a.id = b.id;

我們如何保證表中的資料都劃分成桶了呢？把在Hive外生成的資料載入到劃分成桶的表中，當然是可以的。其實讓Hive來劃分桶更容易。

對於已存在的表

Hive並不檢查資料檔案中的桶是否和表定義中的桶一致(無論是對於桶的數量或用於劃分桶的列）。如果兩者不匹配，在査詢時可能會碰到錯誤或未定義的結果。因此，建議讓Hive來進行劃分桶的操作。
相關的操作：
要向分桶表中填充成員，需要將 hive.enforce.bucketing 屬性設定為 true。①這樣，Hive 就知道用表定義中宣告的數量來建立桶。然後使用 INSERT 命令即可。需要注意的是： clustered by和sorted by不會影響資料的匯入，這意味著，使用者必須自己負責資料如何如何匯入，包括資料的分桶和排序。
‘set hive.enforce.bucketing = true’ 可以自動控制上一輪reduce的數量從而適配bucket的個數，當然，使用者也可以自主設定mapred.reduce.tasks去適配bucket個數，推薦使用’set hive.enforce.bucketing = true’

取樣
SELECT * FROM users 
TABLESAMPLE(BUCKET 1 OUT OF 4 ON rand());

一個完整的例子：

建立表


1   create table student(id INT, age INT, name STRING)
2   partitioned by(stat_date STRING)
3   clustered by(id) sorted by(age) into 2 buckets
4   row format delimited fields terminated by ',';
5    
6   create table student1(id INT, age INT, name STRING)
7   partitioned by(stat_date STRING)
8   clustered by(id) sorted by(age) into 2 buckets
9   row format delimited fields terminated by ',';

設定引數

set hive.enforce.bucketing = true;

插入資料

insert overwrite table student1 partition(stat_date="20120802")
select id,age,name where stat_date="20120802" sort by age;

疑問：插入的資料沒有按照age 排序，在桶表中會怎麼表現，還是高效的merge-sort模型嗎？
用load data的方式增加進去的方式，不會按照建表的時候制定的排序欄位進行排序，如果是insert 的方式進行資料的插入，是會按照建表的時候制定的欄位進行排序的。
注意
ps：想要使用兩張桶表進行join的時候，兩個表進行交叉的欄位必須是唯一的，不滿足這個條件join出來的結果是錯的。

抽樣

hive> select * from student1 tablesample(bucket 1 out of 2 on id);

Total MapReduce jobs = 1
Launching Job 1 out of 1
.......
OK
4       18      mac     20120802
2       21      ljz     20120802
6       23      symbian 20120802
Time taken: 20.608 seconds

注：tablesample是抽樣語句，語法：TABLESAMPLE(BUCKET x OUT OF y)
y必須是table總bucket數的倍數或者因子。hive根據y的大小，決定抽樣的比例。例如，table總共分了64份，當y=32時，抽取(64/32=)2個bucket的資料，當y=128時，抽取(64/128=)1/2個bucket的資料。x表示從哪個bucket開始抽取。例如，table總bucket數為32，tablesample(bucket 3 out of 16)，表示總共抽取（32/16=）2個bucket的資料，分別為第3個bucket和第（3+16=）19個bucket的資料。

join操作的執行原理

這裡寫圖片描述

hive中的桶表，以及高效的join方式

桶（SMB）

建立桶劃分的表

對於已存在的表

一個完整的例子：

建立表

設定引數

插入資料

抽樣

join操作的執行原理

hive中的桶表，以及高效的join方式

Hive中對資料庫，表的操作

hive中管理表（內部表）和外部表的區別是什麼，及分割槽表使用場景

Hive中建立表的各種方式以及區別詳解

oracle和mysql資料庫建立表之前判斷表是否存在，如果存在則刪除已有表，以及在這兩個庫中建立表

SQL Server中，查詢資料庫中有多少個表，以及資料庫其餘型別資料統計查詢

SQL：查找被鎖的表，以及鎖表的SQL語句（重點推薦）

Ubuntu中安裝xampp，以及遠程訪問phpmyadmin遇到的問題

hive中刪除表的錯誤Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException

通過數據庫中的表，使用 MyEclipse2017的反向生成工具-->hibernate反轉引擎引擎(MyEclipse2017自帶的插件) 來反轉生成實體類和對應的映射文件

Vue-cli中使用vConsole，以及設定JS連續點選控制vConsole按鈕顯隱功能實現

Vue-cli中使用vConsole，以及設置JS連續點擊控制vConsole按鈕顯隱功能實現

在STS(Spring Tool Suite)中配置Maven，以及配置不成功的解決方案

圖文詳解Java中的servlet，以及servlet中使用到的關鍵技術

資料結構中線性表，棧，佇列，演算法之間的聯絡與區別

cookie,session 的概念以及在django中的用法，以及cbv裝飾器用法

【圖文詳細】HDFS面試題：介紹Hadoop中RPC協議，以及底層用什麼框架封裝的

多執行緒中CountDownLatch的含義以及和join的區別

通過資料庫中的表，使用 MyEclipse2017的反向生成工具-->hibernate反轉引擎引擎(MyEclipse2017自帶的外掛) 來反轉生成實體類和對應的對映檔案

C++霧中風景12:聊聊C++中的Mutex，以及拯救生產力的Boost

hive中的桶表，以及高效的join方式

桶（SMB）

建立桶劃分的表

對於已存在的表

一個完整的例子：

建立表

設定引數

插入資料

抽樣

join操作的執行原理

相關推薦