1. 程式人生 > >kettle輸出資料到hadoop 的hdfs 系統,錯誤總結

kettle輸出資料到hadoop 的hdfs 系統,錯誤總結

         最近自己在練習使用kettle時,想把MySQL中的資料同步到Hadoop中,就測試了一下,到最後發現怎麼也連線不上hadoop叢集,好不容易連線上了,結果檔案又無法寫入到指定的目錄中,一直提示許可權不夠,很鬱悶啊。最後終於解決了,分享一下心得。

       1. kettle 安裝在此不講述,本文是以kettle 和Hadoop環境都已經部署好了,可以正常使用的環境。

        建立轉換,表輸入,配置好MySQL的連線資訊。ip, port, 使用者名稱密碼等。

     

測試一下能否正常連線。 寫好取資料的SQL語句,可以預覽一下。然後使用欄位選擇元件選擇過來。

2.  連線欄位選擇元件

    3. 輸出到Hadoop檔案系統中。 此處是難點,第一次配置可能會遇到很多坑。而且不同版本的kettle也會有很多的區別。

注意: 標紅色的是重點

先點選瀏覽選項會出現叢集的連線配置資訊,選擇hdfs, 連線url 寫ip 地址最好,不要加上hdfs://, 我自己在測試的時候就是複製了core-site.xml 中的url導致一直無法連線。只寫ip, 埠號,使用者名稱和密碼即可。然後點選右側的測試按鈕。

4. 下一步就是把資料同步到hdfs中了,需要在hdfs指定的目錄下建立檔案。

     

5. 文章中的logs是目錄,就是要把抽取的內容存放到此目錄中,但是我們還需要給輸出的檔案起個名字,就叫datas吧。然後儲存確定。執行轉換。

轉換執行完成,我們可以到hdfs 的這個目錄下去檢視是否有我們希望的檔案生成呢,答案肯定是有的,

6. 檢視檔案內容,與MySQL中的資料一致,這樣資料就同步到檔案系統中了,可以進一步處理貨使用了。

本文分享到此結束,歡迎有疑問的童鞋回覆哦。