sqoop2的shell下的使用及其詳解(sqoop-1.99.7)

阿新 • • 發佈：2019-01-25

前提是安裝好sqoop!!

1.服務端

如圖，我們可以使用 sqoop2-server [ start | stop ] 來啟動和關閉服務端。之後使用 jps 命令可以檢視到
這裡寫圖片描述
會多了這個程序。

在啟動服務成功後,會在自動生成兩個檔案(如果沒有檔案),(預設的是BASEDIR 和LOGDIR),

前者存放建立的link和job,,後者存放日誌檔案,

如果採用預設的,當你換個路徑啟動服務,link和job會找不到,即使你回到原來的路徑啟動也找到了,所有建議採用絕對路徑,配置檔案路徑:$SQOOP_HOME/conf/sqoop.properties

附上全域性替換命令:(把@[email protected]

換成 /user/hadoop/sqoop-1.99.7/logs)

# 設定日誌檔案的目錄
0,%s/@[email protected]/\/usr\/hadoop\/sqoop-1.99.7\/logs/g
# 設定資料的存放目錄
0,%s/@[email protected]/\/usr\/hadoop\/sqoop-1.99.7\/bin\/BASEDIR/g

使用sqoop前請確保hadoop服務和Sqoop2伺服器均已啟動。其中Hadoop不僅要啟動hdfs（NameNode、DataNode），還要啟動yarn（NodeManager、ResourceManager），當然，一般還會有一個SecondaryNameNode，用於原始NameNode的備援程序。

2.客戶端

服務啟動後, 使用命名進入: sqoop2-shell

若成功會開啟sqoop的shell命令列提示符：sqoop:000>

我們在使用的過程中可能會遇到錯誤，使用以下命令來使錯誤資訊顯示出來(每次進來都要設定才起作用)

set option --n[ame] verbose --v[alue] true

連線Sqoop服務端:

#我們的服務端安裝在master這個節點上所以--host是master(每次進來都要設定才起作用)

set server --h[ost] master

(set server --h[ost] master --p[ort] 12000 --w[ebapp] sqoop)
或者: set server -u[rl] http://master:12000/sqoop

使用命令檢視剛剛設定的資訊:

show version --a[ll]

可以使用help檢視幫助文件,雖然不太詳細,比較蠢,試一試命令就知道怎麼用了

MySQL連結使用的是JDBC，這樣想來不難理解，必須有對應的驅動檔案jar，還得有對應的訪問許可權，請確保能在server端訪問MySQL。

可以先看看connector模板都有哪些： show connector

這時候會顯示各個conector資訊，在1.99.7版本以前，每個connector會有一個id，當建立link時，用這個id指定所繼承的connector，但在這個版本中沒有這個id了，建立link時直接使用connector名稱建立，這裡我們使用的是generic-jdbc-connector(一般資料庫都可以用這個)：

2.1建立mysql連結

create link -c[onnector] generic-jdbc-connector

這時候就會出現互動會話，提示你輸入各項引數：
Name： mysql-link 標示這個link的字串，就是一個名字,但是不能重複

Driver Class：指定jdbc啟動時所需要載入的driver類，這個類實現了Java.sql.Driver介面。對本文來說，這個值是com.mysql.jdbc.Driver。

Connection String：本例為jdbc:mysql://master:3306/hive， #注意：jdbc:mysql://主機名(ip):埠/資料庫名
Username：連結資料庫的使用者名稱，也就是mysql客戶端傳入的-u引數。本例是hive。

Password：連結資料庫的使用者密碼。(注:在使用update命令時,這裡預設是沒有的,其他引數都會儲存原來輸過的值)

FetchSize：直接回車了，使用的預設值,不是很清楚這個值,請知道的大牛告知,按字面意思就是獲取一次資源時的大小。

填寫完上面幾項，將提供一個可以輸入JDBC屬性的hash，提示符是entry#，這時候可以手動指定很多JDBC屬性的值。本例只覆蓋了一個protocol值為tcp：protocol=tcp

再按回車，之後會再定義一下SQL方言。也就是說，各個資料庫系統提供商們對SQL語言標準的理解和實現各有不同，於是各有各的一些細微差別。以下屬性就是用於指定這些區別的。官方文件上並沒有說明這些屬性如何填寫，連提都沒提(官網有時還是挺坑的)。

Identifier enclose：指定SQL中識別符號的定界符，也就是說，有的SQL標示符是一個引號：select * from "table_name"，在寫mysql的sql語句中會加上雙引號,這種定界符在MySQL中是會報錯的,。這個屬性預設值就是雙引號，所以不能直接回車使用預設值，必須將之覆蓋，我使用空格覆蓋了這個值。

至此，就可以完成這個link的建立。命令列提示符也會還原為sqoop:000>。使用以下命令檢視是否建立成功：

show link , 後面也可以加引數,-n或者-a之類的

2.2建立HDFS連結

create link -c hdfs-connector

Name: hdfs-link 與mysql的一樣,是個名字但不重複

HDFS URI: hdfs://master:9000/ 這個url是hadoop中配置hdfs-site.xml中的屬性fs.defaultFS的值(老版的hadoop是fs.default.name,如果沒找到就使用webUI (http://主機名(ip):8088/conf) 去配置中心看)。
Hadoop conf directory:/mysoftware/hadoop-2.7.1/etc/hadoop #Hadoop配置檔案的目錄

回車後沒有什麼錯誤就會顯示successful資訊。

2.3 建立一個job

create job -f "mysql-link" -t "hdfs-link"

-f指定from，即是資料來源位置，-t指定to，即是目的地位置。本例是從MySQL傳遞資料到HDFS，所以就是from mysql to HDFS。引數值就是在建立連結（link）時指定的Name。名字在上面取好了,知道為啥名字不能重複了吧

Name: mysql_hdfs_job #Name必須唯一

Schema name: hive #必填，資料庫名稱
Table name: DBS #必填，表名
#以下幾個配置我也是直接回車，使用預設值,從名字上能看出個大概的值
Table SQL statement: #可選
Table column names: #可選
Partition column name: #可選
Null value allowed for the partition column: #可選
Boundary query: #可選

Check column: #可選
Last value: #可選

Override null value: #可選
Null value:
Output format: #輸出檔案格式
0 : TEXT_FILE

..........

Choose: 0 #必選
Compression format: #用於指定使用什麼壓縮演算法進行匯出資料檔案壓縮，我指定NONE，這個也可以使用自定義的壓縮演算法CUSTOM，用Java實現相應的介面

0 : NONE
..........
Choose: 0 #必選這個就是指定的custom壓縮演算法

Output directory: /mysqoop # 指定儲存在HDFS檔案系統中的路徑，這裡最好指定一個存在的路徑，或者存在但路徑下是空的，貌似這樣才能成功。
Append mode: #是否追加檔案,不懂的是,要求資料夾是空,連檔案都沒有何來追加!

#下面兩個數量怎麼取值,還不是很情況,請大牛告知
Extractors: 2 #可選，對應mapreduce的job中的map的數量
Loaders: 1 #可選，對應mapreduce的job中的reduce的數量

最後再次出現element#提示符，用於輸入extra mapper jars的屬性，可以什麼都不寫。直接回車。

至此若出現successful則證明已經成功建立。

2.4 執行job

start job -n mysql_hdfs_job -s (名字上的引號要不要都無所謂)

-s 引數可以看到執行的狀態,

也可以用 status job -n mysql_hdfs_job 檢視或者使用webUI檢視 (http://主機名(ip):8088/cluster/apps),也能看日誌

如果失敗,優先看sqoop shell中有沒有報錯,再者看日誌,可以在webUI中和sqoop的日誌檔案看,前面有提及,如果日誌中沒有明顯的報錯,一般是你設定某個引數時不正確,或者是(hadoop)配置檔案有問題,

報錯時的推薦引數:

在Hadoop的yarn-site.xml 這個配置檔案中設定以下屬性
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>

在mapred-site.xml中設定：（預設200）
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx1024m</value>
</property>

參考文章:

http://www.cnblogs.com/avivaye/p/6196485.html

http://www.cnblogs.com/avivaye/p/6197123.html

http://blog.csdn.net/M_SIGNALs/article/details/53189424

http://blog.csdn.net/u012842205/article/details/52346595

http://blog.csdn.net/u014729236/article/details/46876651

還有很多地方不太懂,求知道的大牛,不吝賜教!共勉!

sqoop2的shell下的使用及其詳解(sqoop-1.99.7)

1.服務端

2.客戶端

2.1建立mysql連結

2.2建立HDFS連結

2.3 建立一個job

2.4 執行job

sqoop2的shell下的使用及其詳解(sqoop-1.99.7)

Sqoop-1.99.7安裝配置（詳細圖文）

AIX下PVID詳解及其修改方法

linux下的Makefile詳解（1）

MongoDB執行計劃分析詳解（1）

ls命令的參數及其詳解

find命令參數及其詳解

grep命令的參數及其詳解

mkisofs命令的參數及其詳解

跟開濤學SpringMVC（4.1）：Controller接口控制器詳解（1）

指標詳解（1）-- 軌道線指標（ENE）詳解

《TCP-IP詳解卷1：協議》【PDF】下載

TCP/IP詳解卷1 第二十章 TCP的成塊數據流

JAVA線程池原理詳解（1）

Spring Boot中使用MyBatis註解配置詳解（1）

Spring Cloud Spring Boot mybatis分布式微服務雲架構（三）屬性配置文件詳解（1）

基於Tomcat的JSP 詳解（1）—— 概述

第2章 Internet地址結構 [TCP/IP詳解卷1：協議]

linux 重定向命令詳解(如1>/dev/null 2>&1)

Java詳解（1）--知識點總結1

sqoop2的shell下的使用及其詳解(sqoop-1.99.7)

1.服務端

2.客戶端

2.1建立mysql連結

2.2建立HDFS連結

2.3 建立一個job

2.4 執行job

相關推薦