Hive 系列（七）—— Hive 常用 DML 操作

一、載入檔案資料到表

1.1 語法

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] 
INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

LOCAL 關鍵字代表從本地檔案系統載入檔案，省略則代表從 HDFS 上載入檔案：
從本地檔案系統載入檔案時， filepath 可以是絕對路徑也可以是相對路徑 (建議使用絕對路徑)；
從 HDFS 載入檔案時候，filepath 為檔案完整的 URL 地址：如 hdfs://namenode:port/user/hive/project/ data1
filepath 可以是檔案路徑 (在這種情況下 Hive 會將檔案移動到表中)，也可以目錄路徑 (在這種情況下，Hive 會將該目錄中的所有檔案移動到表中)；
如果使用 OVERWRITE 關鍵字，則將刪除目標表（或分割槽）的內容，使用新的資料填充；不使用此關鍵字，則資料以追加的方式加入；
載入的目標可以是表或分割槽。如果是分割槽表，則必須指定載入資料的分割槽；
載入檔案的格式必須與建表時使用 STORED AS 指定的儲存格式相同。

使用建議：

不論是本地路徑還是 URL 都建議使用完整的。雖然可以使用不完整的 URL 地址，此時 Hive 將使用 hadoop 中的 fs.default.name 配置來推斷地址，但是為避免不必要的錯誤，建議使用完整的本地路徑或 URL 地址；

載入物件是分割槽表時建議顯示指定分割槽。在 Hive 3.0 之後，內部將載入 (LOAD) 重寫為 INSERT AS SELECT，此時如果不指定分割槽，INSERT AS SELECT 將假設最後一組列是分割槽列，如果該列不是表定義的分割槽，它將丟擲錯誤。為避免錯誤，還是建議顯示指定分割槽。

1.2 示例

新建分割槽表：

  CREATE TABLE emp_ptn(
    empno INT,
    ename STRING,
    job STRING,
    mgr INT,
    hiredate TIMESTAMP,
    sal DECIMAL(7,2),
    comm DECIMAL(7,2)
    )
    PARTITIONED BY (deptno INT)   -- 按照部門編號進行分割槽
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t";

從 HDFS 上載入資料到分割槽表：

LOAD DATA  INPATH "hdfs://hadoop001:8020/mydir/emp.txt" OVERWRITE INTO TABLE emp_ptn PARTITION (deptno=20);

emp.txt 檔案可在本倉庫的 resources 目錄中下載

載入後表中資料如下,分割槽列 deptno 全部賦值成 20：

二、查詢結果插入到表

2.1 語法

INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]]   
select_statement1 FROM from_statement;

INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] 
select_statement1 FROM from_statement;

Hive 0.13.0 開始，建表時可以通過使用 TBLPROPERTIES（“immutable”=“true”）來建立不可變表 (immutable table) ，如果不可以變表中存在資料，則 INSERT INTO 失敗。（注：INSERT OVERWRITE 的語句不受 immutable 屬性的影響）;
可以對錶或分割槽執行插入操作。如果表已分割槽，則必須通過指定所有分割槽列的值來指定表的特定分割槽；
從 Hive 1.1.0 開始，TABLE 關鍵字是可選的；
從 Hive 1.2.0 開始，可以採用 INSERT INTO tablename(z，x，c1) 指明插入列；

可以將 SELECT 語句的查詢結果插入多個表（或分割槽），稱為多表插入。語法如下：

FROM from_statement
INSERT OVERWRITE TABLE tablename1 
[PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] select_statement1
[INSERT OVERWRITE TABLE tablename2 [PARTITION ... [IF NOT EXISTS]] select_statement2]
[INSERT INTO TABLE tablename2 [PARTITION ...] select_statement2] ...;

2.2 動態插入分割槽

INSERT OVERWRITE TABLE tablename PARTITION (partcol1[=val1], partcol2[=val2] ...) 
select_statement FROM from_statement;

INSERT INTO TABLE tablename PARTITION (partcol1[=val1], partcol2[=val2] ...) 
select_statement FROM from_statement;

在向分割槽表插入資料時候，分割槽列名是必須的，但是列值是可選的。如果給出了分割槽列值，我們將其稱為靜態分割槽，否則它是動態分割槽。動態分割槽列必須在 SELECT 語句的列中最後指定，並且與它們在 PARTITION() 子句中出現的順序相同。

注意：Hive 0.9.0 之前的版本動態分割槽插入是預設禁用的，而 0.9.0 之後的版本則預設啟用。以下是動態分割槽的相關配置：

配置	預設值	說明
`hive.exec.dynamic.partition`	`true`	需要設定為 true 才能啟用動態分割槽插入
`hive.exec.dynamic.partition.mode`	`strict`	在嚴格模式 (strict) 下，使用者必須至少指定一個靜態分割槽，以防使用者意外覆蓋所有分割槽，在非嚴格模式下，允許所有分割槽都是動態的
`hive.exec.max.dynamic.partitions.pernode`	100	允許在每個 mapper/reducer 節點中建立的最大動態分割槽數
`hive.exec.max.dynamic.partitions`	1000	允許總共建立的最大動態分割槽數
`hive.exec.max.created.files`	100000	作業中所有 mapper/reducer 建立的 HDFS 檔案的最大數量
`hive.error.on.empty.partition`	`false`	如果動態分割槽插入生成空結果，是否丟擲異常

2.3 示例

新建 emp 表，作為查詢物件表

CREATE TABLE emp(
    empno INT,
    ename STRING,
    job STRING,
    mgr INT,
    hiredate TIMESTAMP,
    sal DECIMAL(7,2),
    comm DECIMAL(7,2),
    deptno INT)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t";
    
 -- 載入資料到 emp 表中 這裡直接從本地載入
load data local inpath "/usr/file/emp.txt" into table emp;

完成後 emp 表中資料如下：

為清晰演示，先清空 emp_ptn 表中載入的資料：

TRUNCATE TABLE emp_ptn;

靜態分割槽演示：從 emp 表中查詢部門編號為 20 的員工資料，並插入 emp_ptn 表中，語句如下：

INSERT OVERWRITE TABLE emp_ptn PARTITION (deptno=20) 
SELECT empno,ename,job,mgr,hiredate,sal,comm FROM emp WHERE deptno=20;

完成後 emp_ptn 表中資料如下：

接著演示動態分割槽：

-- 由於我們只有一個分割槽，且還是動態分割槽，所以需要關閉嚴格預設。因為在嚴格模式下，使用者必須至少指定一個靜態分割槽
set hive.exec.dynamic.partition.mode=nonstrict;

-- 動態分割槽   此時查詢語句的最後一列為動態分割槽列，即 deptno
INSERT OVERWRITE TABLE emp_ptn PARTITION (deptno) 
SELECT empno,ename,job,mgr,hiredate,sal,comm,deptno FROM emp WHERE deptno=30;

完成後 emp_ptn 表中資料如下：

三、使用SQL語句插入值

INSERT INTO TABLE tablename [PARTITION (partcol1[=val1], partcol2[=val2] ...)] 
VALUES ( value [, value ...] )

使用時必須為表中的每個列都提供值。不支援只向部分列插入值（可以為預設值的列提供空值來消除這個弊端）；
如果目標表表支援 ACID 及其事務管理器，則插入後自動提交；
不支援支援複雜型別 (array, map, struct, union) 的插入。

四、更新和刪除資料

4.1 語法

更新和刪除的語法比較簡單，和關係型資料庫一致。需要注意的是這兩個操作都只能在支援 ACID 的表，也就是事務表上才能執行。

-- 更新
UPDATE tablename SET column = value [, column = value ...] [WHERE expression]

--刪除
DELETE FROM tablename [WHERE expression]

4.2 示例

1. 修改配置

首先需要更改 hive-site.xml，新增如下配置，開啟事務支援，配置完成後需要重啟 Hive 服務。

<property>
    <name>hive.support.concurrency</name>
    <value>true</value>
</property>
<property>
    <name>hive.enforce.bucketing</name>
    <value>true</value>
</property>
<property>
    <name>hive.exec.dynamic.partition.mode</name>
    <value>nonstrict</value>
</property>
<property>
    <name>hive.txn.manager</name>
    <value>org.apache.hadoop.hive.ql.lockmgr.DbTxnManager</value>
</property>
<property>
    <name>hive.compactor.initiator.on</name>
    <value>true</value>
</property>
<property>
    <name>hive.in.test</name>
    <value>true</value>
</property>

2. 建立測試表

建立用於測試的事務表，建表時候指定屬性 transactional = true 則代表該表是事務表。需要注意的是，按照官方文件的說明，目前 Hive 中的事務表有以下限制：

必須是 buckets Table;
僅支援 ORC 檔案格式；
不支援 LOAD DATA ...語句。

CREATE TABLE emp_ts(  
  empno int,  
  ename String
)
CLUSTERED BY (empno) INTO 2 BUCKETS STORED AS ORC
TBLPROPERTIES ("transactional"="true");

3. 插入測試資料

INSERT INTO TABLE emp_ts  VALUES (1,"ming"),(2,"hong");

插入資料依靠的是 MapReduce 作業，執行成功後資料如下：

4. 測試更新和刪除

--更新資料
UPDATE emp_ts SET ename = "lan"  WHERE  empno=1;

--刪除資料
DELETE FROM emp_ts WHERE empno=2;

更新和刪除資料依靠的也是 MapReduce 作業，執行成功後資料如下：

五、查詢結果寫出到檔案系統

5.1 語法

INSERT OVERWRITE [LOCAL] DIRECTORY directory1
  [ROW FORMAT row_format] [STORED AS file_format] 
  SELECT ... FROM ...

OVERWRITE 關鍵字表示輸出檔案存在時，先刪除後再重新寫入；
和 Load 語句一樣，建議無論是本地路徑還是 URL 地址都使用完整的；
寫入檔案系統的資料被序列化為文字，其中列預設由^A 分隔，行由換行符分隔。如果列不是基本型別，則將其序列化為 JSON 格式。其中行分隔符不允許自定義，但列分隔符可以自定義，如下：
```
-- 定義列分隔符為'\t' 
insert overwrite local directory './test-04' 
row format delimited 
FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
select * from src;
```

5.2 示例

這裡我們將上面建立的 emp_ptn 表匯出到本地檔案系統，語句如下：

INSERT OVERWRITE LOCAL DIRECTORY '/usr/file/ouput'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
SELECT * FROM emp_ptn;

匯出結果如下：

參考資料

Hive Transactions
Hive Data Manipulation Language

更多大資料系列文章可以參見 GitHub 開源專案：大資料入門指南

相關推薦

Hive 系列（七）—— Hive 常用 DML 操作

一、載入檔案資料到表 1.1 語法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOCAL 關鍵字代表

Hive 系列（四）—— Hive 常用 DDL 操作

一、Database 1.1 檢視資料列表 show databases; 1.2 使用資料庫 USE database_name; 1.3 新建資料庫語法： CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name --DATABASE|SC

Hive總結（七）Hive四種數據導入方式

hive src ive log 技術 mage cnblogs images 四種 Hive總結（七）Hive四種數據導入方式

Hive 系列（一）—— Hive 簡介及核心概念

一、簡介 Hive 是一個構建在 Hadoop 之上的資料倉庫，它可以將結構化的資料檔案對映成表，並提供類 SQL 查詢功能，用於查詢的 SQL 語句會被轉化為 MapReduce 作業，然後提交到 Hadoop 上執行。特點：簡單、容易上手 (提供了類似 sql 的查詢語言 hql)，使得精通 sql

Hive 系列（五）—— Hive 分割槽表和分桶表

一、分割槽表 1.1 概念 Hive 中的表對應為 HDFS 上的指定目錄，在查詢資料時候，預設會對全表進行掃描，這樣時間和效能的消耗都非常大。分割槽為 HDFS 上表目錄的子目錄，資料按照分割槽儲存在子目錄中。如果查詢的 where 字句的中包含分割槽條件，則直接從該分割槽去查詢，而不是掃描整個表目錄，合

Hive 系列（六）—— Hive 檢視和索引

一、檢視 1.1 簡介 Hive 中的檢視和 RDBMS 中檢視的概念一致，都是一組資料的邏輯表示，本質上就是一條 SELECT 語句的結果集。檢視是純粹的邏輯物件，沒有關聯的儲存 (Hive 3.0.0 引入的物化檢視除外)，當查詢引用檢視時，Hive 可以將檢視的定義與查詢結合起來，例如將查詢中的過濾器推

Hive 系列（八）—— Hive 資料查詢詳解

一、資料準備為了演示查詢操作，這裡需要預先建立三張表，並載入測試資料。資料檔案 emp.txt 和 dept.txt 可以從本倉庫的resources 目錄下載。 1.1 員工表 -- 建表語句 CREATE TABLE emp( empno INT, -- 員工表編號

Hive學習之路（七）Hive中文亂碼

min sta keys Coding ava eight img 字符集步驟 Hive註釋中文亂碼創建表的時候，comment說明字段包含中文，表成功創建成功之後，中文說明顯示亂碼 create external table movie( userID in

（七）Hive的DDL操作

（七）Hive的DDL操作目錄 1、建立庫語法結構建立庫的方式 2、檢視庫檢視庫的方式 3、刪除庫說明示例 4、切換庫語法

Centos7系列（七）邏輯卷詳解

centos7 邏輯卷博主QQ：819594300博客地址：http://zpf666.blog.51cto.com/有什麽疑問的朋友可以聯系博主，博主會幫你們解答，謝謝支持！Centos7可以用xfs_growfs來擴大XFS文件系統，用resize2fs 來擴大ext4文件系統，註意的是 XFS

elasticsearch系列（七）java定義score

集群 scrip image search 支持 name dsr 計算方法 dynamic 概述 ES支持groovy 和 java兩種語言自定義score的計算方法，groovy甚至可以嵌套在請求的參數中，有點厲害，不過不在本篇討論範圍。如何用自定義的java代碼來定

PHP系列（七）PHP錯誤異常處理

php錯誤處理1、Php錯誤報告級別1 E_ERROR 致命的運行錯誤。錯誤無法恢復，暫停執行腳本。2 E_WARNING 運行時警告(非致命性錯誤)。非致命的運行錯誤，腳本執行不會停止。4 E_PARSE 編譯時解析錯誤。解析錯誤只由分析器產生。8 E_NOTICE 運行時提醒(這些經常是你代碼中的bug引

IT輪子系列（七）——winform 版本更新組件

一個 closed version eight class 使用 splay end blank 前言最近做了一個winform客戶端的項目，裏面有一個功能是版本更新。以前也有寫過，可忘了具體的邏輯。網上也有介紹用發布模式進行更新的，自己嘗試後沒有成功，提示“vba證書無

Docker入門與應用系列（七）Docker圖形界面管理之DockerUI

post 簡單的技術分享 name mage src 入門 .com 系統 1.dockeruiDockerrUI是一個基於Docker API提供圖形化頁面簡單的容器管理系統，支持容器管理、鏡像管理。1.1 下載鏡像 docker pull abh1nav/doc

Greeplum 系列（七）權限管理

修改創建組 director sda languages group hba rep DBName Greeplum 系列（七）權限管理一、角色管理 Role 分為用戶(User)和組(Group)，用戶有 login 權限，組用來管理用戶，一般不會有 login 權

高性能服務器開發基礎系列（七）——開源一款即時通訊軟件的源碼

c++ 服務器在我的《高性能服務器開發基礎系列》這個系列的第一篇至第六篇都是講了一些零散的不成體系的網絡編程細節。今天，在這篇文章中，我將介紹一款我自主開發的即時通訊軟件flamingo（中文：火烈鳥），並開源其服務器和pc客戶端代碼。以此來對前幾篇文章中說到的理論進行實踐。代碼在github和c

Druid.io系列（七）：架構剖析

apache off 系統資源單元生命周期 dir 創建主從數據 1. 前言 Druid 的目標是提供一個能夠在大數據集上做實時數據攝入與查詢的平臺，然而對於大多數系統而言，提供數據的快速攝入與提供快速查詢是難以同時實現的兩個指標。例如對於普通的RDBMS,如果想

Java入門系列（七）Java 集合框架（JCF, Java Collections Framework）

後者 try 其他使用元素下一個 erl work st2 Java 集合框架圖 List、Set、Map可以看做集合的三大類 List List代表一種線性表的數據結構， List集合是有序集合，集合中的元素可以重復，訪問集合中的元素可以根據元素的索引

Mybatis學習系列（七）緩存機制

emca value 不存在 memcach except input jedis 寫入 on() Mybatis緩存介紹 MyBatis提供一級緩存和二級緩存機制。一級緩存是Sqlsession級別的緩存，Sqlsession類的實例對象中有一個hashmap用於緩

IDEA系列（七）--給自己的IDEA一個酷炫的主題吧

nts span 系列 == log font 進入 ctrl+ blog 跟eclipse和MyEclipse一樣，先找個自己喜歡的主題。http://www.riaway.com/ 1、導入主題： file-->import Setting-->選擇自己主題