1. 程式人生 > >機器學習基礎(三十六)—— 非規整資料(值缺失、異常值)的處理

機器學習基礎(三十六)—— 非規整資料(值缺失、異常值)的處理

  • (1)非規整
  • (2)值缺失
  • (3)異常值(outlier)

一般來說,現實中的資料會存在資訊不完整、資料點缺失和異常值的情況,理想情況下,我們會去嘗試修復非規整資料,但很多資料集都源於一些難以重現(不可再現)的收集過程(比如網路活動資料和感測器資料),因此實際上很難修復。

值缺失和異常值也很常見,且處理方式可與非規整資訊類似。總的來說,大致的處理過程如下:

  • (1)過濾掉或刪除非規整或有值缺失的資料:這通常是必須的,但的確會損失這些資料裡那部分好的資訊;

  • (2)填充非規整或缺失的資料:可以根據其他的資料來填充非規整和缺失的資料。

    • 方法包括,0 值、全域性期望或中值等,
    • 根據相鄰或類似的資料點來做插值
      (通常針對時序資料
  • (3)對異常值做魯棒處理:魯棒迴歸
  • (4)對可能的異常值進行轉換:對數或者高斯核對其轉換,這類轉換有助於降低變數存在的值跳躍的影響,並將非線性變為線性