利用SQOOP將ORACLE到HDFS

阿新 • • 發佈：2019-01-16

#Oracle的連線字串，其中包含了URL，SID，和PORT
URL=jdbc:oracle:thin:@132.232.19.79:10521:szdw

#使用的使用者名稱
USERNAME=szdw
#使用的密碼
PASSWORD=szdw
#需要從Oracle中匯入的表名
TableNAME=proc_resource_admin
#需要從Oracle中匯入的表中的欄位名
COLUMNS=AREA_ID,TEAM_NAME
#將Oracle中的資料匯入到HDFS後的存放路徑
HADFPATH=/home/hadoop/data/proc_resource_admin

#執行匯入邏輯。將Oracle中的資料匯入到HDFS中
sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HAFSPATH --num-mappers 1 --table $TABLENAME --COLUMNS $columns --fields-terminated-by '\t';

執行這個指令碼之後，匯入程式就完成了。

接下來，使用者可以自己建立外部表，將外部表的路徑和HDFS中存放Oracle資料的路徑對應上即可。

注意：這個程式匯入到HDFS中的資料是文字格式，所以在建立Hive外部表的時候，不需要指定檔案的格式為RCFile，而使用預設的TextFile即可。資料間的分隔符為'\t'。如果多次匯入同一個表中的資料，資料以append的形式插入到HDFS目錄中。

並行匯入

假設有這樣這個sqoop命令，需要將Oracle中的資料匯入到HDFS中：

sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 1 --table $TABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26'";

請注意，在這個命令中，有一個引數“-m”，代表的含義是使用多少個並行，這個引數的值是1，說明沒有開啟並行功能。

現在，我們可以將“-m”引數的值調大，使用並行匯入的功能，如下面這個命令：

sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 4 --table $TABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26'";

一般來說，Sqoop就會開啟4個程序，同時進行資料的匯入操作。

但是，如果從Oracle中匯入的表沒有主鍵，那麼會出現如下的錯誤提示：

ERROR tool.ImportTool: Error during import: No primary key could be found for table creater_user.popt_cas_redirect_his. Please specify one with --split-by or perform a sequential import with '-m 1'.

在這種情況下，為了更好的使用Sqoop的並行匯入功能，我們就需要從原理上理解Sqoop並行匯入的實現機制。

如果需要並行匯入的Oracle表的主鍵是id，並行的數量是4，那麼Sqoop首先會執行如下一個查詢：

select max(id) as max, select min(id) as min from table [where 如果指定了where子句];

通過這個查詢，獲取到需要拆分欄位（id）的最大值和最小值，假設分別是1和1000。

然後，Sqoop會根據需要並行匯入的數量，進行拆分查詢，比如上面的這個例子，並行匯入將拆分為如下4條SQL同時執行：

select * from table where 0 <= id < 250;

select * from table where 250 <= id < 500;

select * from table where 500 <= id < 750;

select * from table where 750 <= id < 1000;

注意，這個拆分的欄位需要是整數。

從上面的例子可以看出，如果需要匯入的表沒有主鍵，我們應該如何手動選取一個合適的拆分欄位，以及選擇合適的並行數。

再舉一個實際的例子來說明：

我們要從Oracle中匯入creater_user.popt_cas_redirect_his。

這個表沒有主鍵，所以我們需要手動選取一個合適的拆分欄位。

首先看看這個表都有哪些欄位：

然後，我假設ds_name欄位是一個可以選取的拆分欄位，然後執行下面的sql去驗證我的想法：

select min(ds_name), max(ds_name) from creater_user.popt_cas_redirect_his where data_desc='2011-02-26'

發現結果不理想，min和max的值都是相等的。所以這個欄位不合適作為拆分欄位。

再測試一下另一個欄位：CLIENTIP
select min(CLIENTIP), max(CLIENTIP) from creater_user.popt_cas_redirect_his where data_desc='2011-02-26'

這個結果還是不錯的。所以我們使用CLIENTIP欄位作為拆分欄位。

所以，我們使用如下命令並行匯入：

sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 12 --split-by CLIENTIP --table $TABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26'";

這次執行這個命令，可以看到，消耗的時間為：20mins, 35sec，匯入了33,222,896條資料。

另外，如果覺得這種拆分不能很好滿足我們的需求，可以同時執行多個Sqoop命令，然後在where的引數後面指定拆分的規則。如：

sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 1 --table $oTABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26' logtime<10:00:00"

從而達到並行匯入的目的。

利用SQOOP將ORACLE到HDFS

並行匯入

利用Sqoop將MySQL數據導入Hive中

利用sqoop將hive資料匯入Oracle中（踩的坑）

利用sqoop將hive資料匯入Oracle中

利用sqoop將hive資料匯入匯出資料到mysql

利用SQOOP將ORACLE到HDFS

利用Sqoop將MySQL海量測試資料匯入HDFS和HBase

利用sqoop將hive和MySQL資料互匯入

利用sqoop指定列指定條件的方式將資料從mysql中增量匯入hive表中

Sqoop_具體總結使用Sqoop將HDFS/Hive/HBase與MySQL/Oracle中的數據相互導入、導出

利用Gson將JSON數據進行格式化(pretty print)

Struts2.5 利用Ajax將json數據傳值到JSP

利用Git將項目傳到GitHub上

利用sqoop從 hive中往mysql中導入表出現的問題

如何利用fastjson將JSON格式的字符串轉換為Map，再返回至前端成為js對象

利用tortoisegit將本地項目推送至gitlab指定group

利用Python將多個excel文件合並為一個文件

如何利用kmeans將數據更加準確地聚類---利用隱含變量最佳類別（EM算法思想）實現

java利用反射將pojo轉為json對象

【開發者筆記】利用shp2pgsql將shape文件導入到postgresql中

利用pandas將mysql查詢出得結果寫入到excel文件

利用SQOOP將ORACLE到HDFS

並行匯入

相關推薦