1. 程式人生 > >連續值、缺失值 、正負樣本不均衡處理方法

連續值、缺失值 、正負樣本不均衡處理方法

目前有三類處理方法:

1. 用平均值、中值、分位數、眾數、隨機值等替代。效果一般,因為等於人為增加了噪聲。

2. 用其他變數做預測模型來算出缺失變數。效果比方法1略好。有一個根本缺陷,如果其他變數和缺失變數無關,則預測的結果無意義。如果預測結果相當準確,則又說明這個變數是沒必要加入建模的。一般情況下,介於兩者之間。

3. 最精確的做法,把變數對映到高維空間。比如性別,有男、女、缺失三種情況,則對映成3個變數:是否男、是否女、是否缺失。連續型變數也可以這樣處理。比如Google、百度的CTR預估模型,預處理時會把所有變數都這樣處理,達到幾億維。這樣做的好處是完整保留了原始資料的全部資訊、不用考慮缺失值、不用考慮線性不可分之類的問題。缺點是計算量大大提升。
而且只有在樣本量非常大的時候效果才好,否則會因為過於稀疏,效果很差。