1. 程式人生 > >kettle案例八連線hive--抽取hive的資料儲存excel

kettle案例八連線hive--抽取hive的資料儲存excel

我們在上篇文章已經學習瞭如何把資料放入hive中。

本章學習如何把資料從hive中匯出來。

在hive中啟動hiveserver2

在使用JDBC方式連線hive之前需要啟動hiveserver2。
使用命令

hive --service hiveserver2

下載對應的hive jar包

在kettle的安裝目錄中找到hadoop-configurations資料夾,如下:
D:\kettle\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations

在伺服器上找到所有hive的相關jar包,下載下來放入hadoop-configurations目錄下的hdp25的lib資料夾中。
如何找到伺服器上找到所有hive的相關jar包,如果是自己安裝的原生hive,那麼在hive的安裝目錄中查詢。
如果是通過CDH來安裝的,可以參考文章:

hadoop基礎—-hadoop實戰(十一)—–hadoop管理工具—CDH的目錄結構瞭解
通過CDH安裝的hive jar包一般儲存在/opt/cloudera/parcels/CDH/lib/hive中。
使用命令
cd /opt/cloudera/parcels/CDH/lib/hive
ls
如下圖:

下載的包如下,都是hive開頭的jar包:

放入D:\kettle\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25\lib路徑中如下圖:

修改plugin.properties檔案

找到kettle安裝目錄下的plugins/pentaho-big-data-plugin/plugin.properties檔案,我的路徑是:
D:\kettle\data-integration\plugins\pentaho-big-data-plugin。
如下圖:

內容如下:

這裡hdp25與path引數hadoop-configurations需要與自己的安裝目錄路徑對應如下:

重啟kettle新建DB連線

修改配置後以及新增jar包後需要重啟kettle才生效。
重啟後嘗試建立DB連線如下:
主物件樹–》DB連線右鍵新建—》填寫相關引數(引數與自己的hivesever2的ip埠資料庫名以及可登陸linux系統訪問hiveserver2的使用者名稱對應)
如圖:

新建流程

新建流程如下:
表輸入—》Excel輸出

表輸入選擇資料庫連線輸入SQL。

Excel輸出
Excel輸出瀏覽儲存檔案的路徑,獲取欄位即可
如圖:

執行測試

點選kettle執行。
執行情況如下:

檢視輸出的路徑已經有file.xls生成了,開啟檢視如圖:
可以看到已經有資料寫入了: