1. 程式人生 > >資料預處理(2)資料整合 和 資料變換 資料規約

資料預處理(2)資料整合 和 資料變換 資料規約

資料整合

資料探勘的過程中往往需要的資料分佈在不同的資料庫,資料整合就是將多個數據源合併存放在一個一致的資料儲存(如資料倉庫)中的過程。

  1. 實體識別
    同名異義
    名字相同但實際代表的含義不同
    異名同義
    名字不同但代表的意思相同
    單位不統一
  2. 冗餘屬性識別
    1. 相同的屬性出現多次
    2. 同一屬性命名不一致導致重複

資料變換

1. 簡單函式變換

2. 規範化

最小最大規範化
值與最小值的差 再除以極差得到規範後的值
零-均值規範化
值與平均值的差 在除以標準差
這種規範的方式是當前最多的資料標準化方法
小數定標規範法


移動的小數位數取決於絕對值的最大值。

3. 連續屬性離散化

連續屬性的離散化就是在資料的取值範圍內設定若干個離散的劃分點,將取值範圍劃分為一些離散化的區間,最後用不同的符號或者整數值代表落在每個子區間中的資料值。
常用的離散化方法有:等寬法、等頻法和聚類
(1)等寬法
(2)等頻法
(3)基於聚類分析的方法

4. 屬性構造

根據已知的屬性創造出新的屬性。

5. 小波變換

小波分析的理論和方法在訊號處理、影象處理、語音處理、模式識別、量子物理等領域得到越來越廣泛的應用。

資料規約

在大資料集上進行復雜的資料分析和挖掘需要很長的時間,資料規約產生更小但保持資料完整性的新資料集。
在規約後的資料集上進行分析和挖掘將更有效率。
資料規約的意義在於:

  • 降低無效、錯誤資料對建模的影響,提高建模的準確性。
  • 少量且具代表性的資料將大幅縮減資料探勘所需的時間。
  • 降低儲存資料的成本。

屬性規約

通過屬性合併來建立新屬性維數,或者直接通過刪除不相關的屬性來減少維數。目標是尋找出最小的屬性子集並確保新資料子集的概率分佈儘可能地接近原來資料集的概率分佈。
常見方法如下:
合併屬性
逐步向前選擇 -------依次選擇最優屬性添至空集合
逐步向後刪除 -------依次選擇最差屬性移出原集合
決策樹歸納 利用決策樹的歸納方法對初始資料進行分類歸納學習,獲得初始決策樹,沒有出現在該決策樹上的可以認為是無關的屬性。
主成分分析 -----用較少的變數去解釋原始資料中的大部分變數,即將許多相關性很高的變數轉化成彼此相互獨立或不相關的變數。

數值規約

數值規約是指通過選擇替代的、較小的資料來減少資料量,包括有引數方法和無引數方法兩類。
有引數方法是使用一個模型來評估資料,只需存放參數,而不需要存放實際資料,例如迴歸和對數線性模型。無引數的方法就需要存放實際資料,例如直方圖,聚類,抽樣等