1. 程式人生 > >機器學習中的類別不平衡問題

機器學習中的類別不平衡問題

 類別不平衡問題指分類任務中不同類別的訓練樣本數目差別很大的情況。

下面介紹幾種緩解類別不平衡的方法:

1、欠取樣

去除多餘的樣本,使得正負樣本數目基本一致。

注意:(1)由於丟棄了一些樣本,訓練速度相對加快了。

           (2)但是簡單的隨機丟失樣本,會造成資訊丟失。欠取樣的代表演算法是EasyEnsemble,是利用整合學習機制,將數目多的一類劃分成若干個集合供不同學習器使用,這樣雖然對每個學習器丟失了一部分資訊,但全域性上看不會丟失重要資訊。

2、過取樣

即增加少的一類的樣本數目,使得正負樣本數目基本一致。

注意:(1)由於多了一些樣本,訓練速度相對減慢了。

           (2)但是簡單的重取樣會帶來嚴重的過擬合,過取樣的代表性演算法是SMOTE,是通過對少的一類進行插值得到額外的樣本。

3、閾值移動

閾值移動主要是用到“再縮放”的思想,以線性模型為例介紹“再縮放”。

我們把大於0.5判為正類,小於0.5判為負類,即

即令然後代入上上式。這就是“再縮放”。

閾值移動方法是使用原始訓練集訓練好分類器,而在預測時加入再縮放的思想,用來緩解類別不平衡的方法。