Sqoop把hive中的資料匯出到mysql中

阿新 • • 發佈：2018-12-02

首先

官網上對sqoop的定義是：

Sqoop是一個被設計用來在hadoop大資料平臺和結構化資料庫（比如關係型資料庫）之間傳輸批量資料的一個工具。既然是一個工具那麼用起來應該是比較簡單的，可是實際操作時總會出現這樣或者那樣的錯誤。

由於工作中會有各種各樣的需求，但是大多最終計算的結果都要以excel的形式給到需求方，資料量不太大的時候可以使用navicat自帶的匯出功能或者hue的匯出功能就可以直接把資料導成excel或者其他格式的檔案，但是資料量一旦太大的話，這些工具對於一次性匯出的資料量是有限制的，此時相對來說sqoop比較好一些，因為sqoop的底層是走mapreduce程式所以會比較穩定，而且對資料量沒有限制。當然也可以使用spark的bulkload方式，不過spark是基於記憶體處理的，設計好的話應該也是沒有問題的。

這裡我打算把hive中的一張表skuattributes 匯出到mysql中：

Hive中這張表的表結構是：

欄位型別都是string型別的，此時要在mysql中建立好表結構相同的一張表：

我給它命名成相同的名字：skuattributes;

Mysql 中建立的表結構資訊：

Mysql中沒有string型別，可以用varchar型別代替（varchar是可變長字串型別）

這樣就建好了與hive對應的表

下面開始使用sqoop匯出語句：

然而執行結果卻報錯了：

說找不到manager：

仔細檢視發現url寫錯啦，

紅線地方少些冒號：

加上之後：

重新執行

一共匯出2966條資料，到底對不對呢，我去hive中查一下：

的確是2966條資料：

最後再去mysql中檢視一下資料量對不對：

確認過眼神是對的沒錯啦。

其實原理是不難的，就是語句除錯以及出現的一些語法錯誤。

Hive中查看錶的hdfs路徑可以直接在hive命令列中輸入：

Desc formatted tablename;

其中location對應的就是表在hdfs上的路徑資訊啦

今天就寫到這了。

Sqoop把hive中的資料匯出到mysql中

Sqoop把hive中的資料匯出到mysql中

利用sqoop指定列指定條件的方式將資料從mysql中增量匯入hive表中

利用shell將mysql中資料匯出到檔案和執行mysql語句

SparkSql將資料來源Hive中資料匯入MySql例項

navicat中匯出mysql中的資料表

利用groovy把表中資料匯出成txt或csv

sqoop 將hive資料匯出mysql,map reduce卡住問題

資料從mysql中匯入hive表中異常解決：

Java將資料庫表中資料匯出至Excel表格

將資料存入mysql中

實時分析Flume-Kafka框架搭建最終將資料在mysql中輸出

springboot實現資料庫中資料匯出Excel功能

python使用xlrd讀取excel資料作為requests的請求引數，並把返回的資料寫入excel中

將excel資料匯入mysql中

excel匯入Oracle oracle中資料匯出到excel 超詳細解決在指定的dsn中驅動程式和應用程式不匹配解決外部表不是預期格式

linux下大檔案編碼轉碼及將oracle中資料匯入mysql

postgresql 儲存過程時如何把查到資料放到陣列中,計算出陣列中數字個數字

在Heidisql中批量修改MySQL中的某列資料

Mysql中資料型別括號中的數字代表的含義

Thinkphp中如何表達MYSQL中的某欄位不為空is not null

Sqoop把hive中的資料匯出到mysql中

相關推薦