Hadoop Hive sql語法詳解3--DML 操作:元資料儲存

阿新 • • 發佈：2019-01-15

轉載自：http://www.aboutyun.com/thread-7326-1-1.html

1 基本的Select 操作

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list [HAVING condition]]
[ CLUSTER BY col_list
| [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list]

[LIMIT number]
•使用ALL和DISTINCT選項區分對重複記錄的處理。預設是ALL，表示查詢所有記錄。DISTINCT表示去掉重複的記錄

•Where 條件
•類似我們傳統SQL的where 條件
•目前支援 AND,OR ,0.9版本支援between
•IN, NOT IN
•不支援EXIST ,NOT EXIST
ORDER BY與SORT BY的不同
•ORDER BY 全域性排序，只有一個Reduce任務
•SORT BY 只在本機做排序

Limit

•Limit 可以限制查詢的記錄數
SELECT * FROM t1 LIMIT 5
•實現Top k 查詢
•下面的查詢語句查詢銷售記錄最大的 5 個銷售代表。
SET mapred.reduce.tasks = 1
SELECT * FROM test SORT BY amount DESC LIMIT 5

•REGEX Column Specification
SELECT 語句可以使用正則表示式做列選擇，下面的語句查詢除了 ds 和 hr 之外的所有列：
SELECT `(ds|hr)?+.+` FROM test

例如
按先件查詢
hive> SELECT a.foo FROM invites a WHERE a.ds='<DATE>';

將查詢資料輸出至目錄：
hive> INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='<DATE>';

將查詢結果輸出至本地目錄：

hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a;

選擇所有列到本地目錄：
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a;
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a WHERE a.key < 100;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_4' select a.invites, a.pokes FROM profiles a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT COUNT(1) FROM invites a WHERE a.ds='<DATE>';
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT a.foo, a.bar FROM invites a;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/sum' SELECT SUM(a.pc) FROM pc1 a;

將一個表的統計結果插入另一個表中：
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, count(1) WHERE a.foo > 0 GROUP BY a.bar;
hive> INSERT OVERWRITE TABLE events SELECT a.bar, count(1) FROM invites a WHERE a.foo > 0 GROUP BY a.bar;
JOIN
hive> FROM pokes t1 JOIN invites t2 ON (t1.bar = t2.bar) INSERT OVERWRITE TABLE events SELECT t1.bar, t1.foo, t2.foo;

將多表資料插入到同一表中：
FROM src
INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100
INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200
INSERT OVERWRITE TABLE dest3 PARTITION(ds='2008-04-08', hr='12') SELECT src.key WHERE src.key >= 200 and src.key < 300
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/dest4.out' SELECT src.value WHERE src.key >= 300;

將檔案流直接插入檔案：
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT TRANSFORM(a.foo, a.bar) AS (oof, rab) USING '/bin/cat' WHERE a.ds > '2008-08-09';
This streams the data in the map phase through the script /bin/cat (like hadoop streaming). Similarly - streaming can be used on the reduce side (please see the Hive Tutorial or examples)

2. 基於Partition的查詢

•一般 SELECT 查詢會掃描整個表，使用 PARTITIONED BY 子句建表，查詢就可以利用分割槽剪枝（input pruning）的特性
•Hive 當前的實現是，只有分割槽斷言出現在離 FROM 子句最近的那個WHERE 子句中，才會啟用分割槽剪枝

3.Join

Syntax
join_table:
table_reference JOIN table_factor [join_condition]
  | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition
  | table_reference LEFT SEMI JOIN table_reference join_condition

table_reference:
table_factor
  | join_table

table_factor:
tbl_name [alias]
  | table_subquery alias
  | ( table_references )

join_condition:
ON equality_expression ( AND equality_expression )*

equality_expression:
expression = expression
•Hive 只支援等值連線（equality joins）、外連線（outer joins）和（left semi joins）。Hive 不支援所有非等值的連線，因為非等值連線非常難轉化到 map/reduce 任務

•LEFT，RIGHT和FULL OUTER關鍵字用於處理join中空記錄的情況
•LEFT SEMI JOIN 是 IN/EXISTS 子查詢的一種更高效的實現
•join 時，每次 map/reduce 任務的邏輯是這樣的：reducer 會快取 join 序列中除了最後一個表的所有表的記錄，再通過最後一個表將結果序列化到檔案系統
•實踐中，應該把最大的那個表寫在最後

join 查詢時，需要注意幾個關鍵點

只支援等值join
•SELECT a.* FROM a JOIN b ON (a.id = b.id)
•SELECT a.* FROM a JOIN b
ON (a.id = b.id AND a.department = b.department)
•可以 join 多於 2 個表，例如
  SELECT a.val, b.val, c.val FROM a JOIN b
ON (a.key = b.key1) JOIN c ON (c.key = b.key2)

•如果join中多個表的 join key 是同一個，則 join 會被轉化為單個 map/reduce 任務
LEFT，RIGHT和FULL OUTER

例子
•SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)

•如果你想限制 join 的輸出，應該在 WHERE 子句中寫過濾條件——或是在 join 子句中寫
•容易混淆的問題是表分割槽的情況
• SELECT c.val, d.val FROM c LEFT OUTER JOIN d ON (c.key=d.key)
  WHERE a.ds='2010-07-07' AND b.ds='2010-07-07‘
•如果 d 表中找不到對應 c 表的記錄，d 表的所有列都會列出 NULL，包括 ds 列。也就是說，join 會過濾 d 表中不能找到匹配 c 表 join key 的所有記錄。這樣的話，LEFT OUTER 就使得查詢結果與 WHERE 子句無關
•解決辦法
•SELECT c.val, d.val FROM c LEFT OUTER JOIN d
  ON (c.key=d.key AND d.ds='2009-07-07' AND c.ds='2009-07-07')

LEFT SEMI JOIN
•LEFT SEMI JOIN 的限制是， JOIN 子句中右邊的表只能在 ON 子句中設定過濾條件，在 WHERE 子句、SELECT 子句或其他地方過濾都不行
•
•SELECT a.key, a.value
  FROM a
  WHERE a.key in
(SELECT b.key
FROM B);
   可以被重寫為：
   SELECT a.key, a.val
FROM a LEFT SEMI JOIN b on (a.key = b.key)

UNION ALL
•用來合併多個select的查詢結果，需要保證select中欄位須一致

•select_statement UNION ALL select_statement UNION ALL select_statement ...

Hadoop Hive sql語法詳解3--DML 操作:元資料儲存

Hadoop Hive sql語法詳解3--DML 操作:元資料儲存

008-Hadoop Hive sql語法詳解3-DML 操作:元數據存儲

017-Hadoop Hive sql語法詳解7-去重排序、數據傾斜

016-Hadoop Hive sql語法詳解6-job輸入輸出優化、數據剪裁、減少job數、動態分區

Hadoop Hive sql語法詳解

Hadoop Hive sql語法詳解5--HiveQL與SQL區別

Hadoop Hive sql語法詳解1-認識hive及DDL操作

Hive sql語法詳解

Hadoop Hive基礎SQL語法(DML 操作:元資料儲存)

例題SQL語句詳解-資料庫基本操作6-資料型別拓展

例題SQL語句詳解-資料庫基本操作7-資料型別拓展

例題SQL語句詳解-資料庫基本操作1

例題SQL語句詳解-資料庫基本操作2

例題SQL語句詳解-資料庫基本操作4

例題SQL語句詳解-資料庫基本操作9-完整性介紹

例題SQL語句詳解-資料庫基本操作10-查詢語句

例題SQL語句詳解-資料庫基本操作11-排序分組聯合

Hive-0.13.1本地獨立模式安裝元資料儲存到MariaDB-10.1.0 Hadoop-2.4.0

Hibernate學習之hql 與sql hql 語法詳解

Python 3中的yield from語法詳解

Hadoop Hive sql語法詳解3--DML 操作:元資料儲存

相關推薦