Hive HiveQL基礎知識及常用語句總結

阿新 • • 發佈：2019-01-03

基礎語句

`CREATE DROP` 建表、刪表

建表

--------------------------------------
-- 1. 直接建表
--------------------------------------

-- 建立非分割槽表時，省去後半部分即可
create table if not exists table_name(
id string comment 'id ',
num string comment '數值'  
)
partitioned by (
ym string comment  '月份 ' 
);

-------------------------------------- 

-- 2. 複製其他表的表結構
--------------------------------------
create table if not exists new_table like old_table;

--------------------------------------
-- 3. 從其他表選取資料建立並插入新表
--------------------------------------
create table if not exists new_table as
select * from  old_table;

刪表

drop table table_name ;

`ALTER` 更改表結構

分割槽

新增分割槽

alter table table_name 
add if not exists partition (y='2016',m='12');

刪除分割槽

ALTER TABLE table_name DROP IF EXISTS PARTITION (ym='201706');

重新命名分割槽

 ALTER TABLE table_name PARTITION (y='2017',m='05') 
 RENAME TO PARTITION (y='2017',m='06');

列

刪除列

ALTER 
 TABLE table_name DROP COLUMN id;

增加列

Alter table table_name add COLUMNS (id string comment '代號');

修改列 (此處可用於修改欄位註釋)

ALTER TABLE table_name CHANGE id level string comment '層級代號';

替換列

ALTET TABLE table_name REPLACE COLUMNS
(id_new string COMMENT '新欄位1', level_new string COMMENT '新欄位2');

表

重命名錶名

ALTER TABLE old_table RENAME TO new_table;

`INSERT` 插入

插入單條資料（Hive 已支援單條插入）

 insert into table_name  values(201705,'lol');

插入分割槽表

 insert overwrite table  table_name   PARTITION (y='2017',m='01')
 select * 
 from table_name_2 
  where pt = concat('2017','01');

`LOAD` 載入

重寫載入分割槽表（非分割槽表同理）

LOAD DATA LOCAL INPATH 'total.txt' overwrite into table table_name partition (y='2016',m='12');

其他語句

其他基礎SQL類似的語句不再贅述，此處再多列舉幾個常用語句：

-- 列舉庫或表
SHOW DATABASES/TABLES;
-- 根據關鍵字查詢庫或表
SHOW DATABASES/TABLES LIKE "*keyword*";
-- 列舉所有函式
SHOW FUNCTIONS;
-- 檢視分割槽
SHOW PARTITIONS test_table;
-- 檢視建表語句
SHOW CREATE TABLE table_name;
-- 詳細描述，包括建表時間、最後更新時間、行數統計等。
DESC FORMATTED test_table;
-- 解釋語句
EXPLAIN select * from dual;
-- 清空表
truncate table table_name;

函式、技巧、方法

執行順序理解
根據 explain 語句的使用發現，在執行以下語句時：
在TableScan步驟，where條件中若有分割槽篩選條件且目標分割槽確實存在、且判斷方式為=時，自動進行過濾，然後再在Filter Operator進行其他條件的篩選：
predicate: (latitude is not null and (UDFToDouble(longitude) > 100.0) AND (UDFToDouble(ym) > 201701.0)) (type: boolean)
predicate: (lat_avg is not null and lng_avg is not null) (type: boolean)
所以， 先join在where和先where在join是等等價的

  select b.*, a.name,a.price,a.city  
  from table_name_a a 
  join table_name_b b
  on round(b.lng_avg,2) = round(a.longitude,2) 
  and round(b.lat_avg,2) = round(a.latitude,2) 
  where  a.longitude  >100

shell內通過hive -v " "呼叫執行HiveQL語句時,如需要註釋，請注意轉義問題
1. 註釋的那條語句不能含有分號;
2. 註釋語句後接語句儘量避免導jar包的語句
3. 避免使用 /* */
選擇除某幾個欄位外的所有欄位
當某個表的欄位特別多，若想選取除某幾個欄位外的所有欄位時，這時語句寫起來就會很麻煩，比如有時兩個表join的條件的欄位名相同時，只能保留一個欄位。但有一個方法可以解決這個問題，如下：

set hive.support.quoted.identifiers=none;
select `(y|m|d)?+.+` from dual;

需注意:: 括號內不能有空格; 在shell裡呼叫時需要對這個反引號進行轉義

通過concat_ws、collect_set和str_to_map的使用，實現字串轉map

str_to_map(concat_ws(',',collect_set(concat_ws(':',key, cast(value as string)))))

avg()函式會自動剔除NULL，總數除以非NULL個數
字串擷取函式substr、substring是等價的
substr(string A, int start, int len)
substring(string A, int start, int len)
x between a and b 等同於 a<= x <=b
子查詢加最好要加別稱
報錯：Failed rule: ‘identifier’ in subquery source
解決：子查詢加別稱
設定佇列問題， mapred.job.queue.name與mapreduce.job.queuename

set mapred.job.queue.name=queue_xx;

MRv2重新命名了MRv1中的所有配置引數，但相容MRv1中的舊引數，只不過會列印一條警告日誌提示使用者引數過期。詳見此篇博文。

查詢表的實際更新情況
desc formatted 的結果往往只有CreateTime，LastAccessTime經常為UNKNOWN的狀態，可以用hadoop 指令去查詢資料檔案的真實更新時間：hadoop fs ‐ls truePath/databaseName.db/tableName/

調優

佔個坑，有時間再來填

Hive裡的坑點

limit m,n 的問題
使用語句：create table a as select * from b limit m,n時，會導致新建表a內無資料，解決辦法:
1. 看似可以其實並不好使： create table a as select * from (select * from b limit m,n ) t
2. 解決：使用row_number() 加序號,根據序號選取
NULL 值問題
1. length(NULL) 等於NULL
2. NULL與空字串:
  由下可見：NULL不可以與字串或數值比較，''可與字串比較但不可與數值比較

hive (xx_safe)> select * from dual;
OK
dual.lol
100
50
1
1
2
fangjiale
NULL
   --(此處為'')
hive (xx_safe)> select * from dual where lol !='1';
OK
dual.lol
fangjiale
100
50
2
   --(此處為'')  
hive (xx_safe)> select * from dual where lol !=1;
OK
dual.lol
100
50
2

Hive HiveQL基礎知識及常用語句總結

基礎語句 CREATE DROP 建表、刪表建表 -------------------------------------- -- 1. 直接建表 ----------------

VueJS 基礎知識及項目總結

平臺 web 應用瀏覽器 error 很慢匹配 ++ 描述 oos 1、build ：dev-server.js 是在使用終端命令時啟動時執行的，裏面可以修改端口號（修改第16行即可） 2、index.html 是整個文件的入口 src 裝的是你寫入的文件3、ma

資料庫學習的一些基礎知識及常用命令（部分）

【資料庫基本概念】一個表只能有一個主鍵（primary key），主鍵列不允許為空值（null）一個表中可以有多個列作為主鍵列，但需要考慮最少性和穩定性外來鍵（foreign key）：確保“從表”中的某個資料項在“主表”中必須存在【基本術語】 D

Linux基礎知識及常用命令

基礎知識點：1、描述計算機的組成及其功能。2、按系列羅列Linux的發行版，並描述不同發行版之間的聯絡與區別。3、描述Linux的哲學思想，並按照自己的理解對其進行解釋性描述。4、說明Linux系統上命令的使用格式；詳細介紹ifconfig、echo、tty、startx、export、pwd、hist

Linux入門-基礎知識及常用命令

Linux是一款開源的作業系統核心，基於Linux核心，加上shell和各類工具軟體，就組成了我們常說的：“Linux作業系統”。什麼是shellshell俗稱殼，是提供給我們使用介面（命令解析器），並且保護系統核心不被篡改的軟體。我們所有的指令都是通過shell傳達給lin

HIVE基礎知識及優化（面試必備）

hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行執行。 Metastore （hive元資料） Hive將元資料儲存在資料庫中，比如m

【PHP基礎知識】——常用字串處理函式總結

一、概要我們知道，字串操作是主流web程式語言的基礎，也是在日常開發中不可或缺的一項。PHP處理字串的能力非常強大，方法也是多種多樣。文章列舉了一些PHP中常見的字串處理方法。二、常用字串處理方法 1、判斷一個字串的長度：intstrlen ( string $strin

javascript字符串屬性及常用方法總結

ring 方法總結 search lower 指定 you 數組參數 world length屬性：str.length; 常用方法： 1. str.charAt(n) 查找字符串中的第n個字符，如果不在0~str.length-1之間,則返回一個空字符串 2 .st

css基礎知識的復習總結（二）

文本 pin zoom clear head 導航設置 mage 之間文檔流、浮動、清除浮動、overflow、定位 1.文檔流 css文檔流，標準流是什麽？元素自上而下，自左而右，塊元素獨占一行，行內元素在一行上顯示，碰到父集元素的邊框換行。

css基礎知識的復習總結（三）

網頁元素 ati 塊元素 isp 方式一半浮動 .cn 1.定位的盒子居中顯示案例一：（定位的盒子居中顯示）預期效果實現步驟：設置父盒子為相對定位設置子盒子left值為父盒子寬度一半設置子盒子左邊距為自己寬度一半總結：margin:0 auto 只能讓在

初識多線程之基礎知識與常用方法

splay 線程與進程 -- 實現 class png sleep .com code 1.線程與進程的描述： 1.1進程：每個進程都有獨立的代碼和數據空間（進程上下文），進程間的切換會有較大的開銷，一個進程包含1~n個線程。（進程是資源分配的最小單位）　　 1.2線程:

Spring基礎知識及入門

架構 erl struct asp spf line 依賴註入 myeclipse lin ---恢復內容開始--- 1 spring框架概述 1.1 什麽是spring Spring是一個開源框架，Spring是於2003 年興起的一個輕量級的Java 開發框架，由

linux入門基礎知識及簡單命令介紹

linux基礎linux入門基礎知識介紹1、計算機硬件組成介紹計算機主要由cpu（運算器、控制器），內存，I/O，外部存儲等構成。 cpu主要是用來對二進制數據進行運算操作，它從內存中取出數據，然後進行相應的運算操作。不能從硬盤中直接取數據。內存從外部存儲中取出數據供cpu運存。內存的最小單位是

sql sever 基礎知識及詳細筆記

false 關系型數據庫保存 ner 影響平均值 code framwork 綁定第六章：程序數據集散地：數據庫 6.1：當今最常用的數據庫 sql server：是微軟公司的產品 oracle：是甲骨文公司的產品 DB2：數據核心又稱DB2通用服務器

第一階段Python學習：1、基礎知識、if語句、循環

定義變量 assert loop 所有方法 right 源碼 under 速度本文內容：　　一、Python介紹級應用方向　　二、Python 特性　　三、hello world 程序　　四、Python 格式化輸出　　五、變量、數據類型、註釋　　六、表達

shell基礎知識及使用方法

基礎知識 shell 使用方法 shell基礎知識及使用方法 SHELL是用戶與操作系統之間完成交互式操作的一個接口程序，為用戶提供簡化了的操作。第一代shell在上世紀70年代中於貝爾實驗室中誕生，名為bourne shell,簡稱sh，後期又衍生出多個版本，如csh,ksh等；而Lin

maven基本基礎知識及命令學習-1

packaging 本地結構 images cut 字節碼倉庫鏡像倉庫 apache Maven概述：Maven是很有效的項目管理工具，maven是基於項目對象模型（POM），可以通過一小段描述信息來管理項目構建、報告和文檔的軟件項目管理工具。統一管理環境，架包等。

MySQL備份恢復基礎知識及MySQLdump講解

mysql 備份恢復基礎知識 mysqldump數據庫備份恢復知識要點：時間軸備份類型分類：完全備份：備份整個數據集增量備份：上一次完全備份，或上一次增量備份以後變化的數據的備份(還原麻煩，節省空間) 差異備份：僅備份最近一次完全備份以來變化的數據（還原簡單，空間消耗大）什

微軟DFS基礎知識及復制原理

微軟DFS復制原理 DFS同步原理 DFS復制 DFS是微軟Windows Server上面自帶的分布式文件共享服務，通過使用DFS，可以幫助企業通過單一路徑就可以訪問到所有共享文件夾的內容，同時可以根據客戶端登陸位置自動聯系就近的服務器，提供文件服務器負載均衡和容錯能力。DFS的主要功能分為兩大

計算機基礎知識及UNIX發展史

系統/運維 Linux Technorati Tags: UNIX發展史，存儲知識，ABI，API，開源協議TOC[-]1、計算機系統組成機構2、馮諾依曼體系結構3、服務器硬件簡介4、存儲容量換算5、存儲基礎知識6、操作系統7、開發相關概念8、UNIX發展史9、開源協議10、Linux哲學思想計算機基

Hive HiveQL基礎知識及常用語句總結

基礎語句

CREATE DROP 建表、刪表

ALTER 更改表結構

分割槽

列

表

INSERT 插入

LOAD 載入

其他語句

函式、技巧、方法

調優

Hive裡的坑點

相關推薦

`CREATE DROP` 建表、刪表

`ALTER` 更改表結構

`INSERT` 插入

`LOAD` 載入