1. 程式人生 > >ETL工具-Kettle Spoon教程

ETL工具-Kettle Spoon教程

一 。Kettle Spoon簡介

     ETL(Extract-Transform-Load的縮寫,即資料抽取、轉換、裝載的過程),對於企業或行業應用來說,我們經常會遇到各種資料的處理,轉換,遷移,瞭解並掌握一種etl工具的使用,必不可少,支援圖形化的GUI設計介面,然後可以以工作流的形式流轉,在做一些簡單或複雜的資料抽取、質量檢測、資料清洗、資料轉換、資料過濾等方面有著比較穩定的表現,使用它減少了非常多的研發工作量,提高了我們的工作效率。

Kettle中有兩種指令碼檔案,transformation(轉換ktr結尾)和job(任務kjb結尾),transformation完成針對資料的基礎轉換,job則完成整個工作流的控制(工作流程首先由個開始節點【可以設定定時執行】 可以選擇transformation)。

二。kettle Spoon 安裝入門

 1》 安裝kettle spoon

kettle是使用java編寫 直接是綠色版 解壓即可使用 解壓後的目錄結構

lib目錄 可以存放第三方的jar  比如 資料庫的驅動包 將來如果要連線某個資料庫 將驅動包置入這個lib目錄即可
spoon.bat是可執行檔案 啟動之前確保 jdk安裝 環境變數(PATH和JAVA_HOME) 可以直接輸入java和javaw 

主物件樹就兩種型別指令碼 轉換和作業

 2》kettle spoon操作和核心物件介紹

 》》轉換 

   轉換選單點選右鍵 新建 就建立了一個ktr結尾的轉換指令碼 
  


   新建好轉換指令碼後 主視窗的轉換1 開啟時 就可以拖拽控制元件到主視窗了 如果想重新再新建一個轉換需要切換到歡迎頁籤
核心物件就是可以拖拽的控制元件 這裡主要介紹幾個核心物件 
比如 我想轉換一個 csv檔案到excel檔案 

  •   輸入 (CSV檔案)

     核心物件中有各種不同的輸入源 比如表(資料庫) csv ldap access等
     比如 任意位置新建一個csv檔案新增兩列資料
    

 在轉換指令碼上拖拽一個csv輸入的核心物件  選擇該檔案 並且指定兩個列名和表格列名一致

  •   輸出  (EXCEL檔案)

     核心物件中 將資料轉換後寫入的目的地 比如插入和更新(目的表存在更新不存在插入) 刪除(輸入存在的記錄就刪除目標表對應記錄)

    新增一個excel輸出
  

資料excel輸出 設定 選擇輸出的檔案儲存位置

  •   Hops節點連線 (輸入和輸出連一條線)

    資料從哪裡流到哪裡 可以再源物件上 shift鍵 滑鼠拖動 也可以在主物件樹中 Hops(節點連線) 上雙擊 手工選定
  

最後點選 三角執行按鈕 執行 發現儲存的excel中存在檔案了

 》》作業

作業可以理解為一套流程 流程從開始節點開始執行 直到最後
模擬一個簡單作業 就是讓上面那個轉換每5s中執行一次 
定義一個開始節點

拖一個轉換指定到開始那個aa的轉換  shift 拉動線條

點選執行 發現每5s執行一次轉換程式 如果需要停止 點選停止按鈕即可

 3》資料庫轉換案例

 比如要實現將資料庫testkettle的userinfo表的資料匯入到userinfo1 同時還要匯出到excel檔案中
 userinfo表結構如下

userinfo1的表結構如下(注意兩張表的欄位不一樣哦)

 首先雙擊轉換 新建一個轉換  轉換中配置資料庫連線 先將驅動包 丟到kettle的lib目錄下

輸入完成後 點選測試按鈕測試一下 
拖拽一個 輸入 (表輸入)到介面上  選擇資料來源的表 或者自己編寫sql語句

新增一個excel輸出 選擇excel輸出的位置 即可 拉上節點連線
新增一個 插入/更新 (選擇插入的目標表【欄位對應】 更新是用目標表的哪個欄位和輸入資料來源的哪個欄位比)
   如果userinfo1不在同一個資料庫中 資料庫連線選擇其他資料庫連線(自己新建) 即可

完成後 拖拽一根節點連線到  會有個確認框

點選執行發現excel和userinfo1都存在資料

相關推薦

ETL工具-Kettle Spoon教程

一 。Kettle Spoon簡介      ETL(Extract-Transform-Load的縮寫,即資料抽取、轉換、裝載的過程),對於企業或行業應用來說,我們經常會遇到各種資料的處理,轉換,遷移,瞭解並掌握一種etl工具的使用,必不可少,支援圖形化的GUI設計介面,

ETL工具Kettle數據的導入導出—Excel表到數據庫

data ttl 文件 啟動 連接 alt block 9.png etl 案例目的:當Excel中有幾萬條記錄或者更多數據時,使用Kettle導入到數據庫中。速度就能感到比復制粘貼快很多。 這裏我會演示將"data.xlsx"表中數據有15萬多條記錄,使用Kettle導

大數據之ETL工具Kettle的--1功能介紹

excel lin ice server 作業 rac 創造力 操作系統 pan   Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行。   說白了就是,很有必要去理解一般ETL工具必備的特性和功能,這樣才更好的掌握

ETL工具kettle的csv輸入和excel輸入

vpd 分享 類型 需要 點擊 選擇 其他 exc 搜索 實際工作中我們可能回經常將excel或者csv的數據導入到數據庫中,這裏講下怎麽通過kettle進行導入;首先說下這兩種格式的區別:CSV是文本文件,用記事本就能打開,XLS是二進制的文件只有用EXCEL才能打同時C

ETL工具kettle怎麽進行增量數據抽取:一、通過標誌位

text term ESS log 繼續 需要 roc 默認值 RoCE 在平時的操作過程中可能大家需要經常進行增量的數據抽取,方法有很多種,接下來幾天講給大家介紹幾種我本人經常使用的幾種方式;首先給大家介紹我最喜歡的一種,就是通過標誌位;操縱方法如下,在源表中增加一個標識

ETL工具kettle怎麽實現增量數據抽取:二 時間戳

字段 ima 數據抽取 最好 工具 water 增量 -o ket 再進行增量數據抽取的時候,通過標誌位來進行之外,還可以通過時間戳,所謂的時間戳就是某個時間字段,最好每條記錄的該字段都是非空的;這種方法很簡單,就是在輸入的時候增加where條件;where條件語句就是一個

ETL工具kettle的數據分發和復制的區別

疑惑 image text 朋友 完全 color water mage vpd 大家在實際 操作過程中可能會出現一個這樣的情況,當你將一個組件與另一個組件進行連接時,會出現一個告知框,如圖這時候會讓你選擇分發或者復制,這時候很多朋友會疑惑,這倆有啥區別呢;當你的目標組件是

ETL工具kettle簡單的性能調優

轉換 src roc 設置 color -o 雜項 fff nag 一般有 幾項1.雜項,這個是設置的前一個步驟到下個步驟的緩存,默認是10000操作為,進入轉換,右鍵點擊空白處或者雙擊空白處,單擊的話進入設置,會出現如圖選擇雜項,主要設置‘記錄集合裏的記錄數’,可以適當的

ETL工具kettle怎麽做定時任務

是你 root用戶 com kit roc 觸發 不同版本 兩種 win kettle做定時任務平時任務中經常需要用兩種方法;一、kettle自帶的功能。具體操作如下:首先形成一個job,然後點擊開始組件;結果如圖:當需要定時時,那麽就是需要重復;此時勾選重復選項,然後點擊

ETL工具kettle怎麽將多個轉換集成到一個作業中

順序 tar size 作業 ext watermark mar proc 很多 在實際工作中,經常會出現很多個轉換,這樣管理成本會很高,那麽這時就可以采取一種方式將這些轉換集成到一個作業之中,可以看一個現成的例子,如圖我們在這一個作業中集成了四個轉換,有一點需要說明,就是

ETL工具kettle怎麽進行錯誤定義

輸出 nag tex vpd 需要 是我 oss 51cto proc 在實際操作過程中,數據有可能會報錯,這時我們可能會需要進行錯誤定義,所謂的錯誤定義就是怎麽對錯誤進行錯誤處理,這裏解說一種很基礎的錯誤處理,就是把錯誤輸出:這是我的 一個實際業務操作,大家可以看到在這中

ETL工具kettle的幾個小組件(剪切字符串,增加常量,計算器)

src 增加 一個 png 位置 就是 進行 http text 接下來幾天給大家介紹下幾個常用的kettle組件1.剪切字符串所謂的剪切字符串,就類似於Oracle的substr函數,具體位置在某個轉換的核心對象-轉換中,如圖使用方法為--雙擊打開組件,選擇你要裁剪的流字

ETL工具kettle的幾個小插件(字符串替換,字段選擇,將字段值設置為常量)

sha oracle rac 正則 com 修改字符集 繼續 kettle 輸出 繼續給大家介紹幾個小組件:一、字符串替換這個功能類似於oracle的replace函數,就是將某個字段的某些字符替換成我們給定的字符首先,選擇【輸入流字段】,【輸出流字段】自己命名(就是用來保

ETL工具kettle的組件--生成記錄

組件 它的 proc pro ima 記錄 自己的 kettle -o 今天介紹下kettle的一個比較實用的組件——生成記錄;當我們想將一部分文本數據變成數據行,每個字段作為一個數據行的一個列,那麽我們可以利用這個組件;它的位置在雙擊點開根據自己的實際需要進行設置當設置後

ETL工具Kettle簡介

什麼是Kettle Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上執行,綠色無需安裝,資料抽取高效穩定。 Kettle 中文名稱叫水壺,該專案的主程式設計師MATT 希望把各種資料放到一個壺裡,然後以一種指定的格式流出。 Kett

ETL工具kettle入門

        ETL(Extract-Transform-Load的縮寫,即資料抽取、轉換、裝載的過程),對於企業或行業應用來說,我們經常會遇到各種資料的處理,轉換,遷移,所以瞭解並掌握一種etl工具的使用,必不可少。kettle是純java編寫,支援圖形化的GUI設計介面

ETL工具kettle基本使用

1.下載kettle:https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.0/pdi-ce-7.0.0.0-25.zip/download 說明:kettle 是pentaho收購的一個et

ETL工具kettle原理簡介

一、kettle是什麼?        一款國外開源的ETL工具,純JAVA編寫,無需安裝。        Kettle 主要包含4個產品:                  Spoon:kettle圖形設計工具(GUI) Pan:transform執行器,可命令列執行tr

ETL工具Kettle

轉載自 https://www.cnblogs.com/SunHuaJ/p/7593239.htmlETL是EXTRACT(抽取)、TRANSFORM(轉換)、LOAD(載入)的簡稱,實現資料從多個異構資料來源載入到資料庫或其他目標地址,是資料倉庫建設和維護中的重要一環也是工

ETL工具Kettle的基本使用

0.ETL簡介 ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將資料從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。 ETL包含了三方面: 抽取:將資料從各種原始的業務系統中讀