1. 程式人生 > >資料探勘中資料分類不平衡處理

資料探勘中資料分類不平衡處理

處理方式

1.資料層面

      在資料方面可通過取樣達到資料的平衡,有上取樣和下采樣,上取樣就是複製少數樣本,達到平衡,缺點:存在重複樣本,容易發生過擬合;下采樣就是去掉部分多數樣本,缺點:導致資料缺失。

     資料合成:SMOTE方法,利用小樣本之間的相似性生成新樣本。缺點:可能生成無益的資訊,令一方面可能導致樣本的重合。

2.加權

      針對不平衡資料特點,對分錯類的樣本給予不同的權重,即對不同的分錯樣本有不同的代價

3.一分類問題

       將其看做是一分類的問題,尋找異常。