1. 程式人生 > >資料採集及預處理

資料採集及預處理

(1)、實體識別問題

資料分析多半涉及資料整合。資料整合將多個數據源中的資料合併,存放那個在一個一致的資料儲存中,如存放在資料倉庫中。這些資料來源可能包括多個資料庫、資料立方體或一般檔案。

自資料整合時,有許多問題需要考慮。模式整合物件匹配可能需要技巧。來自多個資訊源的現實世界的等價實體如何才能“匹配”?這涉及實體識別問題。例如,資料分析者或者計算機如何才能確定一個數據庫的customer_id與另一個數據庫中的cust_number指的是相同的屬性呢 ?每個屬性的元資料包括名字、含義、資料型別和屬性的允許取值範圍,以及處理空白、零或NULL值得空值規則。這樣的元資料可以用來幫助避免模式整合的錯誤。元資料還可以用於變換資料(例如,pay_type的資料編碼在一個數據庫中可以是“H”和“S”,而在另一個數據庫中是1和2)。因此,這一步也與前面介紹的

資料清理有關。

在整合期間,當一個數據庫的屬性和另一個數據庫的屬性匹配時,必須特別注意資料的結構。這旨在確保源系統中的函式和參考約束與目標系統中的匹配。例如,在一個系統中,discount可以用於訂單,而在另外一個系統中,它被用於訂單內的商品。如果在整合之前未發現,則目標系統中的商品可能被不正確地打折。

(2)、冗餘和相關分析

冗餘是資料整合的另一個重要問題。一個屬性(例如,年收入)如果能由另一個或另一組屬性”匯出”,則這個屬性可能是冗餘的。屬性或維命名的不一致可能導致結果資料集中的冗餘。

有些冗餘可以被相關分析檢測到。給定兩個屬性,這種分析可以根據可用的資料,度量一個屬效能在多大程度上蘊涵另一個。對於標稱資料,我們使用x^2(卡方)檢測。對於數值屬性,我們使用相關係數(correlation coefficient)和協方差(covariance),他們都評估一個屬性的值如何隨另一個變化。

(3)、元組重複

除了檢測屬性間的冗餘外,還應當在元組級檢測重複。去規範表是資料冗餘的另一個來源。不一致通常出現在各種不同的副本之間,由於不正確的資料輸入,或者由於更新了資料庫的某些地方,但未更新所有的。

4. 資料變換