1. 程式人生 > >Kettle學習之路(3)理解一些基本概念

Kettle學習之路(3)理解一些基本概念



Kettle包括了在ETL開發和部署階段用到的多個程式,每個程式都有獨立功能。

Spoon:整合開發環境。提供了一個圖形化使用者介面,用於建立/編輯作業或者轉換,也可以用於執行/除錯作業或者轉換,也有效能監控功能。

Kitchen:作業的命令列執行程式,通過shell指令碼來呼叫。

Pan:轉換的命令列執行程式,和kitchen一樣通過shell指令碼來呼叫。執行轉換而不是作業。

Carte:輕量級的Http伺服器,後臺執行,監聽Http請求來執行一個作業,Carte也是用於分佈或協調跨機器執行作業,也就是kettle叢集。

ETL系統中實際被34種子系統所重構。這

34種子系統提供了一套框架幫助我們理解ETL解決方案的實現和管理。並對其進行分類。這34個子系統中的很多都是管理型別的子系統,主要是因為當專案釋出時,系統生命週期才剛剛開始。管理是子系統4個組成部分的一個,子系統的4個組成部分如下:

抽取:1~3屬於這個主題

清洗和更正:4~8屬於這個主題

釋出:9~21關於如何把資料釋出到目標資料庫中,也包括資料寫入到維度表活事實表中的那些轉換。

管理:22~34屬於這個主題

1、 資料剖析系統:分析不同資料來源的結構和內容。

2、 增量資料不活:捕獲源系統裡的資料變化(如時間戳、快照)

3、 抽取:從不同資料來源抽取資料,並輸入到ETL系統裡(包括靜態資料和動態資料)。

4、 資料清洗:修改或整理進入到ETL流程裡的髒資料。

5、 錯誤事件處理:記錄下ETL過程中的每一個錯誤。

6、 審計維度:審計維度表與資料倉庫裡的所有事實表關聯。包含了對事實表變更的元資料。如載入資料的日期和時間、資料質量指標等。

7、 排除重複記錄系統。

8、 資料一致性:資料經過資料排重子系統和前面提到的其他資料步驟處理後,就交給資料一致性子系統來處理。目的是使來源於多個業務系統的事實資料遵照相同的維度。

9、 緩慢變更維度處理:1)覆蓋2)增加新行3)增加新列。

10、代理鍵生成系統。

11、層次維度構建。

12、特殊維度生成系統。

13、事實表載入。

14、代理鍵管道。

15、多值維度表橋接生成系統。

16、遲到資料處理。

17、維度管理系統。

18、事實表管理系統。

19、聚集構建。

20OLAPCube構建系統。

21、資料整合管理系統。

22、作業排程。

23、備份系統。

24、恢復和重新啟動系統。

25、版本控制系統

26、從開發環境到測試生產的版本移植系統

27、工作流程監控

28、排序系統

29、血統和依賴分析

30、問題報告系統

31、並行\管道系統

32、安全系統

33、合規報告系統

34、元資料資源管理系統

相關推薦

Kettle學習3理解一些基本概念

 Kettle包括了在ETL開發和部署階段用到的多個程式,每個程式都有獨立功能。 Spoon:整合開發環境。提供了一個圖形化使用者介面,用於建立/編輯作業或者轉換,也可以用於執行/除錯作業

Python學習3——Python安裝以及環境變量的操作

all 頭部 http plain 雙擊 load 編譯 源碼 borde 安裝Python windows: 1 2 3 4 5 6 7 1、下載安裝包 https://www.python.org/downloads/ 2、安裝

小李的Java學習3

第三天 關於方法的那些事 早晨滿課的小李在午後即將進入甜美夢鄉時收到老葉的微信轟炸後,精神抖(wei)擻(mi)地寫起了部落格。。。 老葉:“別忘了答應我的每週一篇的部落格啊!” 小李:“。。。。。。。。。。。。。(誰讓他是我親老表呢) 嗯!又到了小李每天10

apicloud學習3-解決左右滑動和下拉衝突問題

在使用apicloud開發app的時候會遇到這樣的問題,左右滑動輪播圖會和下拉重新整理衝突,還有左右滑動輪播圖也會和frame本身的左右滑動切換衝突,經過自己研究記錄下一些解決方法 1.監聽觸控事件禁止和恢復下拉重新整理 2.監聽觸控事件禁止frame的左右滑動切換 3

javaweb學習3Cookie

1.Cookies的原理 1)首先瀏覽器向伺服器發出請求。 2)伺服器就會根據需要生成一個Cookie物件,並且把資料儲存在該物件內。 3)然後把該Cookie物件放在響應頭,一併傳送回瀏覽器。 4)瀏覽器接收伺服器響應後,提出該Cookie儲存在瀏覽器端。 5)當下一次瀏覽器再次訪問那個伺服器,就會把這個C

FPGA小白學習1 System Verilog的概念以及與verilog的對比

函數返回 enable 傳遞 轉換操作符 st2 輸出 時間值 擴展 isa 轉自CSDN:http://blog.csdn.net/gtatcs/article/details/8970489 SystemVerilog語言簡介 SystemVerilog是一種硬件描

Spring框架學習——Spring框架基本介紹

Spring的出現是為了取代EJB(Enterprise JavaBean)的臃腫、低效、脫離現實的缺點。Spring致力於J2EE應用的各層(表現層、業務層、持久層)的解決方案,Spring是企業應用開發的“一站式”選擇。 1.Spring定義: Spring是分層的J

Python學習——變數及基本資料型別

1.列印 "Hello World!" 程式碼示例: 執行結果:  2.變數 規則: (1)變數名只能包含字母、數字和下劃線,不能數字打頭 (2)變數名不能包含空格,可以使用下劃線來分割其中的單詞 (3)不要使用python關鍵字作為自己的變數名

Spark學習 Spark2.3 HA集群的分布式安裝

serve html 元數據 不安裝 rec ive cut 再次 apps 一、下載Spark安裝包 1、從官網下載 http://spark.apache.org/downloads.html 2、從微軟的鏡像站下載 http://mirrors.hust.

一個初學者→全棧工程師的學習1——關於全棧工程師的理解

關於全棧工程師的理解與學習 一、關於全棧工程師的定義與職務 1. 全棧工程師的定義 隨著網際網路技術的蓬勃發展,技術變得越來越繁瑣,越來越多面化。一個專案的開發,需要使用多樣技術。舉個例子,一個網站的建設,單論初步開發(功能實現)而言,需要功能分析、介面與互動性設計、前

理解C語言——從小菜到大神的晉級3——C源程式的基本結構與除錯方法

    本期視訊點選這裡        在上一篇中,我們進行了Visual Studio 2013的安裝以及第一個demo程式“HelloWorld”的建立。現在我們看一下其中的原始碼及相關的C語言基

hadoop學習---叢集環境搭建2.7.3版本

三:下載解壓 hadoop 到某個目錄(例如 /usr/loacl/hadoop) 四:賬號建立: 即為hadoop叢集專門設定一個使用者組及使用者,這部分比較簡單,參考示例如下: groupadd hadoop //設定h

python學習

[1] size class dex epc uri msu 語句 這就是 繼續昨天的學習,學到了數組。 首先有兩個數組,name1和name2.我們可以將兩個數組合並 name1=[1,2,3,4] name2=[5,6,7,8] names=name1.extend(

Linux學習幫助命令

查看系統 lin 查看 inux 舉例 config pro nbsp 雜項 幫助命令man .man  命令  #獲取指定命令的幫助 .man  ls    #查看ls的幫助 man的級別 1 查看命令的幫助 2 查看可被內核調用的函數的幫助 3 查看函數的

python學習使用socketserver進行ftp斷點續傳

def += __init__ con 不存在 不為 local 接收 class 最近學習python到socketserver,本著想試一下水的深淺,采用Python3.6. 目錄結構如下: receive_file和file為下載或上傳文件存放目錄,ftp_clie

我的學習SQL盲註學習

網絡安全 dvwa sql盲註 我的學習之路,現在零基礎,是一個小白,請各位大牛批評指正!寫下這篇,是對自己的一個思路的整理,僅供參考。 Dvwa中登錄進入,首先在DVWA Security中設置等級為low,然後進入SQL Injection(blind),隨意輸入一個數字進行抓包,然後找

Hibernate學習

ring int 表示 gen prop generator 需要 blog hibernate 簡述 多對多關系映射 多對多關系映射需要一張中間表來維護關系      一:Role類與Function類 1 publi

Hibernate學習

oid bject 需要 .com build action logs 結果 gin hql:hibernate query language hibernate查詢語言 1、單屬性查詢 1 public void testQuery1(){ 2

PHP學習

設有 src fault ... 根據 條件判斷 滿足 循環 獲取 2017.08.13 Day 5  周日  晴 PHP-順序結構 順序結構就像一條直線,按著順序一直往下執行。我們編寫的代碼默認都是按照順序結構執行的。 PHP條件結構之if…else… 條件結

PHP學習

data 循環 marker 輸出 bsp this 兩個 針對 設計 2017.08.23-24 Day 6  周三-周四  晴(臺風) HP數組定義 數組就是一個鍵值對組成的語言結構,鍵類似於酒店的房間號,值類似於酒店房間裏存儲的東西。 如果你去某個酒店住店,服