【hive】hive建立庫，表相關

阿新 • • 發佈：2018-11-16

菜雞一隻，如果有說錯的地方還請大家指出批評！

很多人，會有這樣的想法：這個東西，很簡單嘛，這樣這樣這樣，就可以。當然一部分情況確實是這樣的，不過有些時候，讓你親身去做這件事情，你又會覺得完全和想的是兩碼事，覺得困難重重。

沒錯，我就是這樣！

我一直覺得hive建表，建庫很簡單啊！但是老是會忘記命令的具體寫法，所以特地開一篇帖子來記錄下我這個缺點和相關的sql。

1、資料型別：

官網：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types

當然會有些朋友不喜歡看英文官網，我也找到中文的翻譯，而且寫的很不錯：

https://blog.csdn.net/xiaoqi0531/article/details/54667393#hive資料型別（作者：VictorYao_117）

在這裡我就記錄下簡單的東西：

#cast是用來做型別轉換的，比如轉化日期成為可以加減的時間戳
cast(unix_timestamp(start_time) as bigint)as ts


#修改欄位名和型別
ALTER TABLE 表名 CHANGE COLUMN 要修改的欄位名 修改後的名字(如果不改可以保留原名) 修改的型別;
#eg.
>create table a(a int ,b string);
>desc a;
a                   	int                 	                    
b                   	string  
#將a表的欄位a改成欄位c，並且修改型別為DECIMAL(38,18);
>ALTER TABLE a CHANGE COLUMN a c DECIMAL(38,18);
>desc a;
c                   	decimal(38,18)      	                    
b                   	string

當然，我要強調下，hive中能使用string解決問題就儘量使用string解決問題，不然後面你會發現一些很不舒服的事情。

比如：

報型別轉換異常的錯

又比如，一些小數點後面有很多位的數字，展示出來的時候被科學計數法！

關於科學計數法的解決辦法：http://www.it610.com/article/761847.htm

2、建庫

#建立資料庫：
CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name
  	[COMMENT database_comment]
  	[LOCATION hdfs_path]
  	[WITH DBPROPERTIES (property_name=property_value, ...)];
#eg.
create database 資料庫名 comment '描述資訊' location '/user/warehouse/資料庫名.db'

3、建表

我覺得建表的寫法比較。。。雜，寫全和寫不全的區別還是蠻大的。

但是總體上就是規定這麼幾個東西

資料欄位分隔符(預設是''/001"，一般可以用逗號，tab鍵，或者“|”來代替，但是最好只用一個字元來分割，不要多個)
資料儲存方式，官網：https://cwiki.apache.org/confluence/display/Hive/FileFormats（較常用orc，最簡單是textfile）
其他項，例如：自定義Serde，自定義input或者output

所以不寫全，就如下：

#指定分隔符為"|" ,資料格式為文字格式（textfile）
create table origin_log1(
欄位1 string,
欄位2 string,
欄位3 string,
...
欄位10 string
)row format delimited fields terminated by '|'
STORED AS TEXTFILE;

create table origin_log2(
欄位1 string,
欄位2 string,
欄位3 string,
...
欄位10 string
)row format delimited fields terminated by '\t'
STORED AS ORC;

寫全的話：

#建立一張textfile格式的表，並且一級分割槽為月份，二級分割槽為天，分隔符為"|"
CREATE TABLE `資料庫名`.`表名`(
  `欄位1` string COMMENT '欄位1描述', 
  `欄位2` string COMMENT '欄位2描述', 
  `欄位3` string COMMENT '欄位3描述', 
  ...
  `欄位10` string COMMENT '欄位10描述'
)
PARTITIONED BY ( 
  `month_id` string, 
  `day_id` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ( 
  'field.delim'='|', 
  'serialization.format'='|') 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION 'XXXX'
#如上的location也可以不寫，會自動建表到對應資料庫的hdfs路徑下

寫全也容易寫錯，所以可以通過寫不全的方式建立其他格式的表，然後再通過

show create table 表名來檢視不同格式的inputformat和outputformat的區別！

最後通過load data方式載入資料

#LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]  

#從本地上傳資料到表中，本地原檔案不會消失，相當於copy
load data local inpath 'linux路徑上的資料' into table hive中的表名;

#從hdfs上傳資料到指定表中，原檔案會消失，相當於mv
load data inpath 'hdfs路徑上的資料' into table hive中的表名;

#還可以選擇overwrite，將表中原有資料先清空，再載入新的資料

哦！在載入資料的時候順便提一句

hdfs上的資料是可以做壓縮的，比如GZip，生成的檔案會以gz結尾，如果想要看資料的話，使用-cat會亂碼，但是使用-text就不會

#這樣會亂碼
hive> dfs -cat hdfs://路徑/檔名.gz

#這樣不會亂碼
hive> dfs -text hdfs://路徑/檔名.gz

#如果只想看這個檔案的前幾行，在hive命令列中我沒想到怎麼操作
#但是可以直接使用hdfs命令+linux命令

bin/hdfs dfs -text hdfs://路徑/檔名.gz | head -2

#這樣就可以檢視前兩行檔案

大概就是這樣，沒太多營養，更多的是我自己想記錄下，省得每次要用的時候都要翻官網翻部落格~

結束語，菜雞一隻，歡迎評論和提問~

【hive】hive建立庫，表相關

菜雞一隻，如果有說錯的地方還請大家指出批評！很多人，會有這樣的想法：這個東西，很簡單嘛，這樣這樣這樣，就可以。當然一部分情況確實是這樣的，不過有些時候，讓你親身去做這件事情，你又會覺得完全和想的是兩碼事，覺得困難重重。沒錯，我就是這樣！我一直覺得hive建表，建庫很簡單啊！但是老是

【mysql】mysql建立資料庫，基字符集和資料庫排序規則的對比選擇

1.一般選擇utf8.下面介紹一下utf8與utfmb4的區別。 utf8mb4相容utf8，且比utf8能表示更多的字元。至於什麼時候用，看你的做什麼專案了，到https://www.cnblogs.com/sxdcgaq8080/p/9932786.html看unicode編碼區從1 ～ 126就屬於傳

20181022mysql操作一：建立庫，表的增刪改查，資料的增刪改

1、建立資料庫 create database python charset=utf8; 2、使用資料庫 use python; 3、建立表結構 create table student( id int primary key auto_increment

【OpenGL】OpenGL基本庫，OpenGL實用庫及OpenGL實用函式工具包之間的差別

OpenGL中的gl庫是核心庫，glu是實用庫，glut是實用工具庫。 gl是核心，glu是對gl的部分封裝，glut是OpenGL的跨平臺工具庫。 gl中包含了最基本的3D函式，而glu似乎對gl的輔助，如果算數好，不用glu的情況下，也是可以做出同樣的效果。 g

Hive/Shell 建立Hive 庫，表指令碼，Hive 動態增加分割槽指令碼

最近工作中使用到了Hive, 並對Hive 的資料庫，表完成建立。建立的表為分割槽表，也涉及到了分割槽表的按天動態增加分割槽。程式碼組織結構：建立資料庫：create_dmp.hql-- dmp 資料庫儲存了dmp所需要的資料 CREATE DATABASE IF NO

【hive】hive表很大的時候查詢報錯問題

一段時間 partition 查詢 query order exception concat 使用小時　　線上hive使用環境出現了一個奇怪的問題，跑一段時間就報如下錯誤： FAILED: SemanticException MetaException(message

【C#】EF學習<二> DbFirst （先建立資料庫，表及其關聯關係）

工程壓縮檔案放到百度雲盤---20181019001資料夾 1. 建立表的指令碼 create table Teacher ( TID char(12) primary key, Tname char(6) not null ) create table

【mysql】已經建立表後，修改某列的預設值

簡述比如我這裡已經有一個表了，teacher。新增一個default值這裡假設設定telephone的預設值為00000000 mysql> alter table teacher alter column telephone set defa

【Hive】Hive分割槽表詳解

本篇主要演示分割槽表的建立、插入、動態分割槽等內容。一實驗環境1 Hive環境0: jdbc:hive2://localhost:10000/hive> select version() ver

【微控制器】[stm8] - 使用庫函式時，減少ROM佔用的方法

在使用STM微控制器的官方庫函式程式設計時，微控制器的ROM會額外的佔用很多，我現在使用STM8S103時，使用了庫函式，8K的ROM，寫了幾個自己的驅動和應用程式後，記憶體佔用就到了 7800 bytes。但是還有些東西沒有寫完，需要繼續新增。我使用以下兩種方法，將其ROM減少到了 586

【hadoop】hive 安裝實踐

1.下載Hive安裝包：　　官網下載：http://hive.apache.org/downloads.html 2.上傳Hive的tar包，並解壓：建議和hadoop目錄在一級，方便後續使用；　　解壓：tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /home/

【整理】【原創】什麼是一維表，什麼是二維表？

錯誤概念：一維表：是隻有1行資料的？只有2個列的？是空間上一維的，線的概念？NO 二維表：是空間上二維的，面的概念？NO 準確概念辨析表：基礎概念，1行是1條資料，1列是1個屬性

【BZOJ3227】紅黑樹，打表找規律/DP

傳送門思路：很有意思的一道題 DP思路十分顯然，我們以最小值為例 f[x][h][0/1]表示節點數為x的子樹，該樹的黑高度為h，根節點顏色為紅/黑時 f[x][h][0]=min{f[y][h][1]+f[x−y−1][h][1]}+1 f[x][

【HTML筆記五】與瀏覽者互動，表單標籤

一、使用表單標籤，與使用者互動網站怎樣與使用者進行互動？答案是使用HTML表單(form)。表單是可以把瀏覽者輸入的資料傳送到伺服器端，這樣伺服器端程式就可以處理表單傳過來的資料。語法：

【Qt】Qt動態庫和靜態庫的建立和使用

動態庫（共享庫）的建立在Qt Creator中新建專案，選擇Library 點選“Choose”進入下一步選擇建立庫的型別：共享庫選擇Kit套件選擇需要的模組配置工程路徑、名字等 Qt Creator自動建立的檔案

【Cloud】AWS建立Ubuntu EC2虛擬機器，並Apache釋出網頁步驟

寫在前面過程基實很簡單，但是會用到一些常用的輔助工具，比如putty、SFTP工具等，平時常用就不是問題，找文件沒有找到非常詳盡的，最終在國外網站上找到文字步驟，這裡再把截圖過程記錄一下.一、在aws 管理控制檯console上設定安全組單擊入站選項卡，新增2組：source

【三】hive DDL之create/drop/alter databases/schema

建立 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION h

HIVE基礎操作（命令，表，資料匯出匯入等）--持續更新

1.show databases; 2.show tables; 3.show tables in 資料庫名;(不在對應資料庫下可查到想要的表名) 4.show tables in hive 'tom*'; 查詢在hive資料庫下，tom開頭的表名。 5.desc extended tablenam

【pandas】[2] DataFrame 基礎，建立DataFrame和增刪改查基本操作（1）

作者：lianghc 地址：http://blog.csdn.net/zutsoft DataFrame 是pandas最常用的資料結構，類似於資料庫中的表，不過DataFrame不僅僅限制於2維，可以建立多維資料表。DataFrame既有行索引，也有列

【一】hive安裝(遠端metastore)

前期：請先安裝jdk和hadoop和mysql jdk安裝環境ubuntu16.04 下載 http://mirrors.tuna.tsinghua.edu.cn/apache/hive/ rz上傳安裝包到伺服器解壓 tar -zxvf ap

【hive】hive建立庫，表相關

菜雞一隻，如果有說錯的地方還請大家指出批評！

結束語，菜雞一隻，歡迎評論和提問~

相關推薦