1. 程式人生 > >資料探勘流程學習筆記

資料探勘流程學習筆記

資料探勘流程

1.資料探索

1.1資料質量分析

a. 缺失值

原因:有些資訊暫時無法獲取或者代價太大;有些資訊被遺漏;屬性值影響

影響:丟失大量有用資訊;模型的不確定性更加顯著,蘊含的規律難以把握;不可靠的輸出

處理方法:刪除存在缺失值的記錄;插補;不處理

b.異常值

原因:錄入錯誤、含有不合理資料

處理方法:簡單統計量分析;箱型圖分析等

c.一致性分析:資料的矛盾性、不相容性

1.2 資料特徵分析

a.分佈分析:極差、方差、組距、頻率等

b.對比分析:絕對比較、相對比較

1.3統計量分析

a.集中趨勢:均值(對極端值很敏感)、中位數、眾數

b.離中趨勢:極差、標準差、變異係數、四分位數間距

1.4週期性分析

1.5貢獻度分析

1.6相關性分析

2資料預處理

2.1資料清洗:刪除原始資料中無關、重複的資料,平滑噪聲,篩選掉與挖掘主題無關的資料,處理缺失值和異常值

2.2資料整合:將多個數據源合併存放在一個一致的資料儲存中的過程

3資料變換

1.簡單函式變化:平方、開方、取對數

2.規範化:最小最大值、零均值、小數定標

4連續屬性離散化

1.離散化:等寬、等頻、基於聚類

2屬性構造:利用已有的屬性構造新屬性

3小波變換:多解析度、通過伸縮和平移對訊號進行多尺度分析

5資料規約

1屬性規約:包括增加和刪除屬性

2數值規約:選擇替代的、較小的資料來減少資料量