1. 程式人生 > >34個ETL子系統-4:資料清洗和資料質量處理系統

34個ETL子系統-4:資料清洗和資料質量處理系統

子系統4:資料清洗和質量處理系統
資料清洗是指修改進入到ETL流程中的業務定義的髒資料。一般而言,我們反覆強調資料清洗應當在資料來源進行。但是原始資料的質量一般都不能滿足資料倉庫的需求,或者,原始資料清洗後,在資料倉庫進行資料質量檢查時,無法發現原始資料的質量問題。因此,一般都在ETL過程中進行資料清洗。其優勢在於:
1、在資料剖析階段,就能知道哪些資料是錯誤資料
2、在源系統中需要的資料清洗規則,同樣可以加在資料的ETL階段
3、最終使用資料的業務人員可以指導ETL過程中,哪些才是真正有效的資料。