1. 程式人生 > >【讀書筆記】資料探勘導論(Introduction to Data Mining) 1

【讀書筆記】資料探勘導論(Introduction to Data Mining) 1

第二章 資料

2-1 資料型別

  1. 如下性質來描述屬性
    (1) 相異性 = 和 ≠
    (2) 序 <, <=, >, >=
    (3) 加法
    (4) 乘法

  2. 從而定義四種類型 :標稱,序數,區間,比率
    標稱:分類的(定性的)(= 和 ≠) 區分物件 如id等
    序數:分類的 (< , >)如礦石硬度等
    區間:定量的 (+, -) 值間差異有意義,如溫度
    比率:定量的 (*, /)

  3. 資料集的一般特性
    維度 dimensionality:資料集中物件的屬性數量,維度過高的會出現維災難,從而在資料預處理中一般會對其進行降維處理,稱為 維歸約;
    稀疏性 sparsity:物件的部分屬性值為0
    解析度 resolution:不同分別率下獲取的資料表現出來的性質不一樣。

2-2 資料質量

  1. 資料測量和收集方面的質量問題

    1. 測量誤差和資料收集錯誤
    2. 噪聲和偽像
      1. 噪聲:常可用訊號或影象技術降低
      2. 偽像:確定性的失真,一組照片中同一個位置出現條紋
    3. 精度,偏倚,準確率
      精度:重複測量值之間的接近程度 通常用標準差度量
      偏倚:測量值與被測量間的偏差
      準確率:測量值與實際值間的接近度
    4. 離群點:異常,異常值。注意與噪聲的區分,噪聲無意義,離群點可以是合法的資料物件或值
    5. 遺漏值:如選填的表格
      處理:1. 直接刪除(慎重);2. 估計,插值,如連續的,最近鄰的平均值;3. 忽略

    6. 不一致的值

    7. 重複資料:區分重複是否合法,從而去重

2-3 資料預處理

分為聚集,抽樣,維歸約,特徵子集選擇,特徵建立,離散化和二元化,變數變化等

抽樣:

簡單抽樣:有放回和無放回;分層抽樣
抽樣的樣本容量的確定:漸進抽樣,事先不確定,容量上升準確率趨於穩定。

維歸約:

通過建立新的屬性,將一些舊屬性合併在一起來降低維度。通過選擇舊屬性的子集得到新的屬性,這種維歸約叫特徵子集的選擇或特徵選擇。

維災難:維度增加,資料會越來越稀疏,分析困難

維歸約常用線性代數的技術:主成分分析PCA(待看),奇異值分解SVD

特徵子集的選擇:

降低維度的一種方法
冗餘特徵(重複),不相關特徵(無關)

處理冗餘特徵和不相關特徵的方法:

  • 資料少:將所有可能的特徵子集作為輸入,選結果最好的
  • 一般情況:嵌入,過濾,包裝

嵌入 embedded approach: 與具體演算法有關,如構造決策樹分類器演算法
過濾 filter approach和包裝 wrapper approach兩者唯一不同在於特徵選擇過程中使用不同的特徵子集的評估方法
特徵選擇過程:
- 子集評估度量:試圖預測實際資料探勘演算法在給定的屬性集上執行的效果
- 控制新特徵子集產生的搜尋策略
- 停止搜尋的判斷
- 驗證過程:特徵子集產生的結果是否比所有特徵產生的更好或至少一樣好