Hive資料匯入匯出的幾種方式

阿新 • • 發佈：2019-01-01

一，Hive資料匯入的幾種方式

首先列出講述下面幾種匯入方式的資料和hive表。

Hive表：

建立testA：

CREATE TABLE testA (
	id INT,
	name string,
	area string
) PARTITIONED BY (create_time string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

建立testB：

CREATE TABLE testB (
	id INT,
	name string,
	area string,
	code string
) PARTITIONED BY (create_time string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

資料檔案（sourceA.txt）：

1,fish1,SZ
2,fish2,SH
3,fish3,HZ
4,fish4,QD
5,fish5,SR

資料檔案（sourceB.txt）：

1,zy1,SZ,1001
2,zy2,SH,1002
3,zy3,HZ,1003
4,zy4,QD,1004
5,zy5,SR,1005

（1）本地檔案匯入到Hive表

hive> LOAD DATA LOCAL INPATH '/home/hadoop/sourceA.txt' INTO TABLE testA PARTITION(create_time='2015-07-08');
Copying data from file:/home/hadoop/sourceA.txt
Copying file: file:/home/hadoop/sourceA.txt
Loading data to table default.testa partition (create_time=2015-07-08)
Partition default.testa{create_time=2015-07-08} stats: [numFiles=1, numRows=0, totalSize=58, rawDataSize=0]
OK
Time taken: 0.237 seconds
hive> LOAD DATA LOCAL INPATH '/home/hadoop/sourceB.txt' INTO TABLE testB PARTITION(create_time='2015-07-09');
Copying data from file:/home/hadoop/sourceB.txt
Copying file: file:/home/hadoop/sourceB.txt
Loading data to table default.testb partition (create_time=2015-07-09)
Partition default.testb{create_time=2015-07-09} stats: [numFiles=1, numRows=0, totalSize=73, rawDataSize=0]
OK
Time taken: 0.212 seconds
hive> select * from testA;
OK
1	fish1	SZ	2015-07-08
2	fish2	SH	2015-07-08
3	fish3	HZ	2015-07-08
4	fish4	QD	2015-07-08
5	fish5	SR	2015-07-08
Time taken: 0.029 seconds, Fetched: 5 row(s)
hive> select * from testB;
OK
1	zy1	SZ	1001	2015-07-09
2	zy2	SH	1002	2015-07-09
3	zy3	HZ	1003	2015-07-09
4	zy4	QD	1004	2015-07-09
5	zy5	SR	1005	2015-07-09
Time taken: 0.047 seconds, Fetched: 5 row(s)

（2）Hive表匯入到Hive表

將testB的資料匯入到testA表

hive> INSERT INTO TABLE testA PARTITION(create_time='2015-07-11') select id, name, area from testB where id = 1;
...(省略)
OK
Time taken: 14.744 seconds
hive> INSERT INTO TABLE testA PARTITION(create_time) select id, name, area, code from testB where id = 2;
<pre name="code" class="java">...(省略)

OKTime taken: 19.852 secondshive> select * from testA;OK2 zy2 SH 10021 fish1 SZ 2015-07-082 fish2 SH 2015-07-083 fish3 HZ 2015-07-084 fish4 QD 2015-07-085 fish5 SR 2015-07-081 zy1 SZ 2015-07-11Time taken: 0.032 seconds, Fetched: 7 row(s) 說明：

1，將testB中id=1的行，匯入到testA，分割槽為2015-07-11

2，將testB中id=2的行，匯入到testA，分割槽create_time為id=2行的code值。

（3）HDFS檔案匯入到Hive表

將sourceA.txt和sourceB.txt傳到HDFS中，路徑分別是/home/hadoop/sourceA.txt和/home/hadoop/sourceB.txt中

hive> LOAD DATA INPATH '/home/hadoop/sourceA.txt' INTO TABLE testA PARTITION(create_time='2015-07-08');
...(省略)
OK
Time taken: 0.237 seconds
hive> LOAD DATA INPATH '/home/hadoop/sourceB.txt' INTO TABLE testB PARTITION(create_time='2015-07-09');
<pre name="code" class="java">...(省略)
OK
Time taken: 0.212 seconds
hive> select * from testA;
OK
1	fish1	SZ	2015-07-08
2	fish2	SH	2015-07-08
3	fish3	HZ	2015-07-08
4	fish4	QD	2015-07-08
5	fish5	SR	2015-07-08
Time taken: 0.029 seconds, Fetched: 5 row(s)
hive> select * from testB;
OK
1	zy1	SZ	1001	2015-07-09
2	zy2	SH	1002	2015-07-09
3	zy3	HZ	1003	2015-07-09
4	zy4	QD	1004	2015-07-09
5	zy5	SR	1005	2015-07-09
Time taken: 0.047 seconds, Fetched: 5 row(s)

/home/hadoop/sourceA.txt'匯入到testA表

/home/hadoop/sourceB.txt'匯入到testB表

（4）建立表的過程中從其他表匯入

hive> create table testC as select name, code from testB;
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1449746265797_0106, Tracking URL = http://hadoopcluster79:8088/proxy/application_1449746265797_0106/
Kill Command = /home/hadoop/apache/hadoop-2.4.1/bin/hadoop job  -kill job_1449746265797_0106
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2015-12-24 16:40:17,981 Stage-1 map = 0%,  reduce = 0%
2015-12-24 16:40:23,115 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.11 sec
MapReduce Total cumulative CPU time: 1 seconds 110 msec
Ended Job = job_1449746265797_0106
Stage-4 is selected by condition resolver.
Stage-3 is filtered out by condition resolver.
Stage-5 is filtered out by condition resolver.
Moving data to: hdfs://hadoop2cluster/tmp/hive-root/hive_2015-12-24_16-40-09_983_6048680148773453194-1/-ext-10001
Moving data to: hdfs://hadoop2cluster/home/hadoop/hivedata/warehouse/testc
Table default.testc stats: [numFiles=1, numRows=0, totalSize=45, rawDataSize=0]
MapReduce Jobs Launched: 
Job 0: Map: 1   Cumulative CPU: 1.11 sec   HDFS Read: 297 HDFS Write: 45 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 110 msec
OK
Time taken: 14.292 seconds
hive> desc testC;
OK
name                	string              	                    
code                	string              	                    
Time taken: 0.032 seconds, Fetched: 2 row(s)

二，Hive資料匯出的幾種方式

(1)匯出到本地檔案系統

hive> INSERT OVERWRITE LOCAL DIRECTORY '/home/hadoop/output' ROW FORMAT DELIMITED FIELDS TERMINATED by ',' select * from testA;
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1451024007879_0001, Tracking URL = http://hadoopcluster79:8088/proxy/application_1451024007879_0001/
Kill Command = /home/hadoop/apache/hadoop-2.4.1/bin/hadoop job  -kill job_1451024007879_0001
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2015-12-25 17:04:30,447 Stage-1 map = 0%,  reduce = 0%
2015-12-25 17:04:35,616 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.16 sec
MapReduce Total cumulative CPU time: 1 seconds 160 msec
Ended Job = job_1451024007879_0001
Copying data to local directory /home/hadoop/output
Copying data to local directory /home/hadoop/output
MapReduce Jobs Launched: 
Job 0: Map: 1   Cumulative CPU: 1.16 sec   HDFS Read: 305 HDFS Write: 110 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 160 msec
OK
Time taken: 16.701 seconds

檢視資料結果：

[[email protected] output]$ cat /home/hadoop/output/000000_0 
1,fish1,SZ,2015-07-08
2,fish2,SH,2015-07-08
3,fish3,HZ,2015-07-08
4,fish4,QD,2015-07-08
5,fish5,SR,2015-07-08

通過INSERT OVERWRITE LOCAL DIRECTORY將hive表testA資料匯入到/home/hadoop目錄，眾所周知，HQL會啟動Mapreduce完成，其實/home/hadoop就是Mapreduce輸出路徑，產生的結果存放在檔名為：000000_0。

(2)匯出到HDFS

匯入到HDFS和匯入本地檔案類似，去掉HQL語句的LOCAL就可以了

hive> INSERT OVERWRITE DIRECTORY '/home/hadoop/output' select * from testA; 
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1451024007879_0002, Tracking URL = http://hadoopcluster79:8088/proxy/application_1451024007879_0002/
Kill Command = /home/hadoop/apache/hadoop-2.4.1/bin/hadoop job  -kill job_1451024007879_0002
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2015-12-25 17:08:51,034 Stage-1 map = 0%,  reduce = 0%
2015-12-25 17:08:59,313 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.4 sec
MapReduce Total cumulative CPU time: 1 seconds 400 msec
Ended Job = job_1451024007879_0002
Stage-3 is selected by condition resolver.
Stage-2 is filtered out by condition resolver.
Stage-4 is filtered out by condition resolver.
Moving data to: hdfs://hadoop2cluster/home/hadoop/hivedata/hive-hadoop/hive_2015-12-25_17-08-43_733_1768532778392261937-1/-ext-10000
Moving data to: /home/hadoop/output
MapReduce Jobs Launched: 
Job 0: Map: 1   Cumulative CPU: 1.4 sec   HDFS Read: 305 HDFS Write: 110 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 400 msec
OK
Time taken: 16.667 seconds

檢視hfds輸出檔案：

[[email protected] bin]$ ./hadoop fs -cat /home/hadoop/output/000000_0
1fish1SZ2015-07-08
2fish2SH2015-07-08
3fish3HZ2015-07-08
4fish4QD2015-07-08
5fish5SR2015-07-08

其他

採用hive的-e和-f引數來匯出資料。

引數為： -e 的使用方式，後面接SQL語句。>>後面為輸出檔案路徑

[[email protected] bin]$ ./hive -e "select * from testA" >> /home/hadoop/output/testA.txt
15/12/25 17:15:07 WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.retry.* no longer has any effect.  Use hive.hmshandler.retry.* instead

Logging initialized using configuration in file:/home/hadoop/apache/hive-0.13.1/conf/hive-log4j.properties
OK
Time taken: 1.128 seconds, Fetched: 5 row(s)
[[email protected] bin]$ cat /home/hadoop/output/testA.txt 
1	fish1	SZ	2015-07-08
2	fish2	SH	2015-07-08
3	fish3	HZ	2015-07-08
4	fish4	QD	2015-07-08
5	fish5	SR	2015-07-08

引數為： -f 的使用方式，後面接存放sql語句的檔案。>>後面為輸出檔案路徑

SQL語句檔案：

[[email protected] bin]$ cat /home/hadoop/output/sql.sql 
select * from testA

使用-f引數執行：

[[email protected] bin]$ ./hive -f /home/hadoop/output/sql.sql >> /home/hadoop/output/testB.txt
15/12/25 17:20:52 WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.retry.* no longer has any effect.  Use hive.hmshandler.retry.* instead

Logging initialized using configuration in file:/home/hadoop/apache/hive-0.13.1/conf/hive-log4j.properties
OK
Time taken: 1.1 seconds, Fetched: 5 row(s)

參看結果：

[[email protected] bin]$ cat /home/hadoop/output/testB.txt 
1	fish1	SZ	2015-07-08
2	fish2	SH	2015-07-08
3	fish3	HZ	2015-07-08
4	fish4	QD	2015-07-08
5	fish5	SR	2015-07-08

Hive總結（二）Hive資料匯入的三種方式

零．Hive的幾種常見的資料匯入方式常用的的有三種： 1.從本地檔案系統中匯入資料到Hive表； 2.從HDFS上匯入資料到Hive表； 3.在建立表的時候通過從別的表中查詢出相應的記錄並插入到所建立的表中。 Hive配置： HDFS中Hive資料

Hive資料匯入匯出的幾種方式

一，Hive資料匯入的幾種方式首先列出講述下面幾種匯入方式的資料和hive表。 Hive表：建立testA： CREATE TABLE testA ( id INT, name string, area string ) PARTITIONED BY (crea

Hive表資料匯入匯出的不同方式和自定義列分隔符

資料來源： hive> select * from test1; OK Tom 24.0 NanJing Nanjing University Jack

js中檢測資料型別的幾種方式

1、typeof 一元運算子，用來檢測資料型別。只可以檢測number,string,boolean,object,function,undefined。對於基本資料型別是沒有問題的，但是遇到引用資料型別是不起作用的（無法細分物件）

struts2資料處理的幾種方式

package com.loaderman.c_data; import java.util.Map; import javax.servlet.ServletContext; import com.opensymphony.xwork2.ActionContext; import

time 模組處理時間資料格式的幾種方式

time 模組中處理時間資料格式的幾種方式在 time 模組中，時間資料主要有三種格式：時間戳（timeStamp）、時間陣列（timeStruct）和時間字串（timeStr）。形式如下圖所示：對於這三種格式的資料，時間戳與時間陣列之間可以互相轉換，時間陣列和時間字串之間可以互相

ElasticSearch搜尋資料到底有幾種方式?

Elasticsearch允許三種方式執行搜尋請求: GET請求正文： curl -XGET "http://localhost:9200/app/users/_search" -d '{ "query": { "term": { "email": "[email prote

資料匯入的幾種方法

Pima Indians 資料集從 UCI 中獲取的，這是一個分類問題的資料集，主要記錄了印第安人最近五年內是否患糖尿病的醫療資料。（資料集檔案見最後。）使用標準 Python 類庫匯入資料 import csv import numpy as np f

檢測資料型別的幾種方式

javascript中有六種資料型別：string；boolean；Array；Object；null;undefined。如何檢測這些資料型別呢，總結方法如下：方法一：採用typeof var fn = function(n){ console.log(n)

android 資料儲存的幾種方式

總體的來講，資料儲存方式有三種：一個是檔案，一個是資料庫，另一個則是網路。其中檔案和資料庫可能用的稍多一些，檔案用起來較為方便，程式可以自己定義格式；資料庫用起稍煩鎖一些，但它有它的優點，比如在海量資料時效能優越，有查詢功能，可以加密，可以加鎖，可以跨應用，跨平臺等等；網路

資料快取的幾種方式

引入快取可以提高效能，但是資料會存在兩份，一份在資料庫中，一份在快取中，如果更新其中任何一份會引起資料的不一致，資料的完整性被破壞了，因此，同步資料庫和快取的這兩份資料就非常重要。本文介紹常見的快取更新的同步策略。預留快取Cache-aside 　　應用程式碼能夠手工

應用系統之間資料傳遞的幾種方式

隨著近年來SOA（面向服務技術架構）的興起，越來越多的應用系統開始進行分散式的設計和部署。系統由原來單一的技術架構變成面向服務的多系統架構。原來在一個系統之間可以完成的業務流程，通過多系統的之間多次互動來實現。這裡不打算介紹如何進行S

《Cocos2d學習之路》九、資料儲存的幾種方式和基本使用

年前已經把這部分東西學完了，但是後面出現了一個bug，緊接著公司組織關係變更，搬家到新的地方上班等事情，忙完接著就回家過年了。終於，年後開始上班了，抽出空來把blog寫一下。 cocos2dx中資料儲存的幾種方式 1、userdefault 這個類似於android中

跨域請求資料有哪幾種方式？

1、什麼是跨域？由於瀏覽器同源策略，凡是傳送請求url的協議、域名、埠三者之間任意一與當前頁面地址不同即為跨域。存在跨域的情況：網路協議不同，如http協議訪問https協議。埠不同，如80埠訪問8080埠。域名不同，如qianduanblog.com訪問baidu.

基於MVC4+EasyUI的Web開發框架經驗總結（12）--利用Jquery處理資料互動的幾種方式

在基於MVC4+EasyUI的Web開發框架裡面，大量採用了Jquery的方法，對資料進行請求或者提交，方便頁面和伺服器後端進行資料的互動處理。本文主要介紹利用Jquery處理資料互動的幾種方式，包括獲取資料並顯示，插入新資料到伺服器，更新資料，刪除資料等操作。 1、利用Jquery獲取資料並顯示為了順

Android 資料傳遞的幾種方式

今天無意間想起來，總結一下Android傳遞資料的方式，（個人認為）一般分為四種：Intent傳值、靜態變數、剪下板、全域性物件等。 1.Intent傳值：通過Intent.putExtra方法來設定要傳遞的資料，通過get方法來獲得要得到的資料 Intent inte

PCL中訪問點雲資料點的幾種方式

最近在看PCL的教程，發現對點雲中具體資料點的訪問也有好幾種方式，看著看著就會混淆了，所以，現將每種方式記錄下來，做個對比，方便隨時複習，溫故知新。一、第一種是在看《How to create a range image from a point cloud》教程時看

第二十一天 -- hive補充 -- hive分割槽、分桶 -- hive資料匯入匯出

第二十一天 – hive補充 – hive分割槽、分桶 – hive資料匯入匯出一、Hive基礎補充使用的表及表資料 dept CREATE TABLE dept( deptno int, dname string, loc strin

iOS 資料儲存的幾種方式

在iOS開發過程中常用的本地化儲存有五種方式： 1.plist (XML屬性列表歸檔 NSArray\NSDictionary) 2.preference (偏好設定\NSUserDefaults) （本質還是通過plist來儲存資料，但是使用更加簡單，無需關注檔案、資料夾

hibernate資料查詢的幾種方式

1.使用主鍵id載入物件(load(),get()); 2.通過物件導航,比如通過stu.getTeam()得到team的例項; 3 使用hql; 4使用qbc(query by criteria) 5直接使用sql語句取得記錄集; 一般都使用後面三種方式. 注意.hql是面

Hive資料匯入匯出的幾種方式

一，Hive資料匯入的幾種方式

二，Hive資料匯出的幾種方式

其他

相關推薦