Hive -分割槽表

阿新 • • 發佈：2018-11-26

1.建立一個分割槽表

hive (default)> create table order_partition(orderNumber string,event_time string)PARTITIONED BY(event_month string) row format delimited fields terminated by '\t';

2.把TXT文字上傳至分割槽表中

hive (default)> load data local inpath '/home/hadoop/data/order.txt' into table order_partition PARTITION (event_month='2014-05');
（如果上面把TXT載入到表中的時候出現錯誤日誌說什麼too long等等，就登入到mysql）
mysql> use ruoze_d5;
mysql> alter table PARTITIONS convert to character set latin1;
mysql> alter table PARTITION_KEYS convert to character set latin1;

3.分割槽表的建立及內容載入進去之後，檢視hdfs上的分割槽表

[[email protected] data]$ hdfs dfs -ls /user/hive/warehouse/order_partition
drwxr-xr-x   - hadoop supergroup          0 2018-11-09 14:51 /user/hive/warehouse/order_partition/event_month=2014-05
[[email protected] data]$ hdfs dfs -ls /user/hive/warehouse/order_partition/event_month=2014-05
-rwxr-xr-x   1 hadoop supergroup        208 2018-11-09 14:51 /user/hive/warehouse/order_partition/event_month=2014-05/order.txt
（注：以後見到event_month=2014-05這種類似的資料夾考慮到其就是分割槽表）

4.在3.中的分割槽表order_partition手動建立一個類似分割槽表的資料夾，與3.對比

[[email protected] data]$ hdfs dfs -mkdir -p /user/hive/warehouse/order_partition/event_month=2014-06
手工在這裡面建立一個類似分割槽表的資料夾）
[[email protected] data]$ hdfs dfs -put order.txt /user/hive/warehouse/order_partition/event_month=2014-06
（再手動把order.txt檔案傳入建立的類似分割槽表的資料夾中）
hive (default)> select * from order_partition where event_month='2014-05';（分割槽表查詢的時候要把分割槽條件帶上，不然還是會在order_partition下面全域性搜尋）
10703007267488 2014-05-01 06:01:12.334+01 2014-05
10101043505096 2014-05-01 07:28:12.342+01 2014-05
10103043509747 2014-05-01 07:50:12.33+01 2014-05
10103043501575 2014-05-01 09:27:12.33+01 2014-05
10104043514061 2014-05-01 09:03:12.324+01 2014-05
hive (default)> select * from order_partition where  event_month='2014-06';（則顯示為空，並沒有資料。因為元資料並沒有，當我們正常建立分割槽表的時候，用load載入文件的時候，它會自動重新整理分割槽，而我們手動建立的分割槽表裡沒有元資料資訊。）
hive (default)> msck repair table order_partition;（重新整理order_partition分割槽表的分割槽）
Partitions not in metastore: order_partition:event_month=2014-06
Repair: Added partition to metastore order_partition:event_month=2014-06

hive (default)> select * from order_partition where event_month='2014-06';
10703007267488 2014-05-01 06:01:12.334+01 2014-06
10101043505096 2014-05-01 07:28:12.342+01 2014-06
10101043505096 2014-05-01 07:28:12.342+01 2014-06
10103043501575 2014-05-01 09:27:12.33+01 2014-06
10104043514061 2014-05-01 09:03:12.324+01 2014-06
（注：msck repair table order_partition 此命令不能用，它會刷所有的分割槽，效能很低！生產上杜絕使用此方法。用另一種方法來解決，如下：）
[ 
[email protected] data]$ hdfs dfs -mkdir -p /user/hive/warehouse/order_partition/event_month=2014-07
[[email protected] data]$ hdfs dfs -put order.txt /user/hive/warehouse/order_partition/event_month=2014-07
hive (default)> alter table order_partition add partition(event_month='2014-07');（生產上一般使用這種方法進行新增分割槽裡面的元資料）
hive (default)> select * from order_partition where event_month='2014-07';
10703007267488 2014-05-01 06:01:12.334+01 2014-07
10101043505096 2014-05-01 07:28:12.342+01 2014-07
10101043505096 2014-05-01 07:28:12.342+01 2014-07
10103043501575 2014-05-01 09:27:12.33+01 2014-07
10104043514061 2014-05-01 09:03:12.324+01 2014-07
hive (default)> show partitions order_partition;（檢視order_partition表下面有哪些分割槽）
event_month=2014-05
event_month=2014-06
event_month=2014-07

5.建立一個多級分割槽表

hive (default)> create table order_mulit_partition(orderNumber string,event_time string)PARTITIONED BY(event_month string, step string)row format delimited fields terminated by '\t';
hive (default)> desc formatted order_mulit_partition;（檢視分割槽表的詳細資訊）
hive (default)> load data local inpath '/home/hadoop/data/order.txt' into table order_mulit_partition PARTITION (event_month='2014-05',step='1'); （載入資料進去）
hive (default)> select *from order_mulit_partition where event_month='2014-05';
10703007267488 2014-05-01 06:01:12.334+01 2014-05 1
10101043505096 2014-05-01 07:28:12.342+01 2014-05 1
10103043509747 2014-05-01 07:50:12.33+01 2014-05 1
10103043501575 2014-05-01 09:27:12.33+01 2014-05 1
10104043514061 2014-05-01 09:03:12.324+01 2014-05 1
[[email protected] data]$ hdfs dfs -ls /user/hive/warehouse/order_mulit_partition/event_month=2014-05
drwxr-xr-x   - hadoop supergroup          0 2018-11-09 16:09 /user/hive/warehouse/order_mulit_partition/event_month=2014-05/step=1 
（此時order_mulit_partition是兩個分割槽。hdfs上面一個分割槽對應一個目錄）

小結：上面的單級分割槽/多級分割槽 ==> 統稱為靜態分割槽。（靜態分割槽指在指定分割槽段時候，一定要把寫全了，就是event_month step都要寫出來）

hive (default)> show create table ruoze_emp;（檢視當時建立ruoze_emp表的語句）
CREATE TABLE `ruoze_emp_partition`(`empno` int, `ename` string, `job` string,`mgr` int, `hiredate` string, `sal` double, `comm` double) partitioned by(`deptno` int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
（**注**：分割槽的欄位不能出現在表的結構的欄位中。當用deptno作為分割槽欄位時候就把表結構中的deptno這一項去掉了）

6.靜態分割槽與動態分割槽
問題：請按照ruoze_emp表中的部門編號deptno欄位對該表進行分割槽，寫到分割槽表裡）
方法一：按照每個部門編號10、20、30分別寫到分割槽表裡面

hive (default)> insert into table ruoze_emp_partition PARTITION(deptno=10) select empno,ename,job,mgr,hiredate,sal,comm from ruoze_emp where deptno=10;

假設：有1000個deptno （那麼此時再按照方法一去單個新增不現實，這就是靜態分割槽的弊端）
方法二：採用動態分割槽的方法

hive (default)> insert overwrite table ruoze_emp_partition PARTITION(deptno)
select empno,ename,job,mgr,hiredate,sal,comm,deptno from ruoze_emp;
FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict
（報錯了，因為預設都是嚴格的靜態模式，按照控制檯給的提示，執行set hive.exec.dynamic.partition.mode=nonstrict）
hive (default)> set hive.exec.dynamic.partition.mode=nonstrict;（如果想要全域性使用的話就到hive site裡面去配置）

和方法一靜態分割槽的對比如下：注：1、在指定分割槽段PARTITION(deptno)這裡不給deptno賦具體值 2、把分割槽欄位deptno加在select語句的最後 3、最後就不用where指定ruoze_emp中的具體deptno部分編號）

hive (default)> select *from ruoze_emp_partition;

[[email protected] data]$ hdfs dfs -ls /user/hive/warehouse/ruoze_emp_partition
drwxr-xr-x   - hadoop supergroup          0 2018-11-09 17:08 /user/hive/warehouse/ruoze_emp_partition/deptno=10
drwxr-xr-x   - hadoop supergroup          0 2018-11-09 17:07 /user/hive/warehouse/ruoze_emp_partition/deptno=20
drwxr-xr-x   - hadoop supergroup          0 2018-11-09 17:07 /user/hive/warehouse/ruoze_emp_partition/deptno=30
drwxr-xr-x   - hadoop supergroup          0 2018-11-09 17:07 /user/hive/warehouse/ruoze_emp_partition/deptno=__HIVE_DEFAULT_PARTITION__

大資料（二十）：hive分割槽表、修改表語句與資料的匯入匯出

一、分割槽表分割槽表實際上就是對應一個HDFS檔案系統上的一個獨立的資料夾，該資料夾下是該分割槽所有的資料檔案，hive中的分割槽就是分目錄，把一個大的資料集更具業務需求分割成小的資料集。在查詢時通過where子句中的

Hive 分割槽表初始化歷史分割槽操作

在新建一張分割槽表或者對老分割槽表更改表結構後希望能保留老的分割槽的資料，因此就需要對新建的分割槽表進行初始化重刷歷史分割槽資料操作。一、初始化重新整理方法1 事實表和維表均取最新分割槽資料，以事實表的業務動作事實發生日期作為歷史分割槽的分割槽欄位值。參考下面這段hive指令碼

Hive -分割槽表

1.建立一個分割槽表 hive (default)> create table order_partition(orderNumber string,event_time string)PARTITIONED BY(event_month string) row format de

Hive面試題:Hive分割槽表和分桶表的區別

分割槽在HDFS上的表現形式是一個目錄，分桶是一個單獨的檔案分割槽: 細化資料管理，直接讀對應目錄，縮小mapreduce程式要掃描的資料量分桶： 1、提高join查詢的效率（用分桶欄位做連線欄位）

HIVE --- 分割槽表

建立分割槽表建立表時，新增partitioned by欄位，如下： create table table_name ( id int, dtDontQuery string, name stri

HIVE 分割槽表分桶表

//分割槽表,優化手段之一，從目錄的層面控制搜尋資料的範圍。 //建立分割槽表. $hive>CREATE TABLE t3(id int,name string,age int) PARTITIONED BY (Year INT, Month INT)

spark streaming 接收kafka資料寫入Hive分割槽表

直接上程式碼 object KafkaToHive{ def main(args: Array[String]){ val sparkConf = new SparkConf().setAppName("KafkaToHive") val sc = new SparkConte

如何每日增量載入資料到Hive分割槽表

載入資料資料載入到Hive分割槽表（兩個分割槽，日期（20181129 ）和小時（10））中每日載入前一天的日誌檔案資料到表db_track.track_log 1. 資料儲存資料日誌檔案，放入某個目錄下,每天日誌檔案放入同一個目錄 eg: 20181129 - 目錄名稱日誌

HIVE分割槽表新增欄位後新增欄位值為空,需要帶分割槽加欄位

在分割槽表裡增加欄位後，向分割槽表插入資料有兩種情況： 1.分割槽在修改表結構前存在 2.分割槽在修改表結構前不存在對於第二種情況，即加欄位後跑的分割槽，bug不存在針對第一種情形，執行alter table HIVE_TALBLE add columns(ttzz string); 查分割槽資料新增

hive分割槽表幾大注意事項

分割槽表： 1.問題的引入 1).bf_log /usr/hive/warehouse 20170910.log 20170922.log 我想分析某一天的資料,如果按照以上的就會掃描全表,從而增加了資料庫的壓力,引入了

【Hive】Hive分割槽表詳解

本篇主要演示分割槽表的建立、插入、動態分割槽等內容。一實驗環境1 Hive環境0: jdbc:hive2://localhost:10000/hive> select version() ver

hive分割槽表的建立+外部表

hive表的建立： 1.外部表+分割槽表 create externaltable hive_2018

spark 將dataframe資料寫入Hive分割槽表

從spark1.2 到spark1.3，spark SQL中的SchemaRDD變為了DataFrame，DataFrame相對於SchemaRDD有了較大改變，同時提供了更多好用且方便的API。 DataFrame將資料寫入hive中時，預設的是hive預設資料庫，in

hive分割槽表詳細介紹

一，什麼是分割槽表以及作用資料分割槽的概念以及存在很久了，通常使用分割槽來水平分散壓力，將資料從物理上移到和使用最頻繁的使用者更近的地方，以及實現其目的。

Hive分割槽表建立、分類

一、分割槽表建立與說明必須在表定義時建立partition a、單分割槽建表語句：create table day_table (id int, content string) partitioned by (dt string);單分割槽表，按天分割槽，在表結構

hive 分割槽表簡單梳理

環境相關： OS：CentOS release 6.9 IP：192.168.77.10 hadoop-2.6.0-cdh5.7.1 hive-1.1.0-cdh

Hive分割槽表的分割槽操作

為了對錶進行合理的管理以及提高查詢效率，Hive可以將表組織成“分割槽”。一個分割槽實際上就是表下的一個目錄，一個表可以在多個維度上進行分割槽，分割槽之間的關係就是目錄樹的關係。1、建立分割槽表通過PARTITIONED BY子句指定，分割槽的順序決定了誰是父目錄，誰是子目錄

Hive分割槽表增刪改查

1 分割槽表分割槽表實際上就是對應一個HDFS檔案系統上的獨立的資料夾，該資料夾下是該分割槽所有的資料檔案。Hive中的分割槽就是分目錄，把一個大的資料集根據業務需要分割成小的資料集。在查詢時通過WHERE子句中的表示式選擇查詢所需要的指定的分割槽，這樣的查詢效率會提高很多。 1.1 分割

修改hive分割槽表，在分割槽列前增加一個欄位

本文主要為了測試，在有資料的分割槽表中增加新的一個非分割槽欄位後，新資料加入表中是否正常。原始資料 1;zhangsan 2;zhangsan 3;zhangsan 4;lisi 5;lisi 6;lisi 建立分割槽表 create table test(id int) partitioned by (

hive 分割槽表、桶表和外部表

1：分割槽表圖：建立分割槽表圖：匯入資料圖：在HDFS的顯示資訊分割槽欄位就是一個資料夾的標識圖：在多列上建立分割槽圖：匯入資料圖：在多列上建立分割槽後

Hive -分割槽表

相關推薦