8種應對機器學習資料集類別不平衡的策略

阿新 • • 發佈：2019-01-08

資料集類別不平衡通常發生在分類問題上，例如有兩個類別（A,B）的資料集，A有80個，而B有20個，那麼這個資料集是不平衡的。

大多數資料集每一個類別通常不是完全的平衡，小的不平衡不會有太大的問題。但是當樣本分佈差距很大的時候，就會有很大的影響。嚴重的不平衡會導致訓練的模型大概率會輸出數量較多的那個類別，使模型具有很強的偏向性。

1.獲取更多的資料

這是一個最簡單直接的辦法，但往往資料並不是很容易獲取，需要很大的人力成本。、

2. 改變評價指標

對於不平衡的資料集，準確率並不能很好的衡量整個模型的效能，可以使用以下一些評價指標：

Confusion Matrix（混淆矩陣）: A breakdown of predictions into a table showing correct predictions (the diagonal) and the types of incorrect predictions made (what classes incorrect predictions were assigned).

Precision: A measure of a classifiers exactness.
Recall（召回率）: A measure of a classifiers completeness
F1 Score (or F-score): A weighted average of precision and recall.
: Classification accuracy normalized by the imbalance of the classes in the data.
ROC Curves: Like precision and recall, accuracy is divided into sensitivity and specificity and models can be chosen based on the balance thresholds of these values.

3.對資料進行重新取樣

過取樣：對於數量較少的類別重複出現。

欠取樣: 將數量較多的類別中的樣本刪除一些，是類別數量均衡。

當有大量的資料時，進行欠取樣

當資料量較小時，進行過取樣

可以考慮隨機取樣或者非隨機取樣（分層取樣）

考慮不同的重取樣比例

4.生成合成資料

在影象領域，可以通過資料增強的方法，旋轉，翻轉，裁剪等方法，或者現在很多的使用GAN等網路生成新的資料。

5.嘗試其他的方法

不要總是用同一種熟悉的方法解決所有問題，針對不同的問題，選擇更加合適的方法。

例如決策樹在資料分佈不均衡時表現的更好。

6.懲罰模型

給模型加上懲罰，使模型訓練時更偏重樣本較少的類別。

7.轉變視角

對於一些特殊問題，從直接研究到研究異常，研究變化。

8. 創新

比如將一個大的類別細分成幾個小類別來使資料集均衡。

8種應對機器學習資料集類別不平衡的策略

資料集類別不平衡通常發生在分類問題上，例如有兩個類別（A,B）的資料集，A有80個，而B有20個，那麼這個資料集是不平衡的。大多數資料集每一個類別通常不是完全的平衡，小的不平衡不會有太大的問題。但是當樣本分佈差距很大的時候，就會有很大的影響。嚴重的不平衡會導致訓練的模型大概率

機器學習中的類別不平衡問題

類別不平衡問題指分類任務中不同類別的訓練樣本數目差別很大的情況。下面介紹幾種緩解類別不平衡的方法： 1、欠取樣即去除多餘的樣本，使得正負樣本數目基本一致。注意：（1）由於丟棄了一些樣本，訓練速度相對加快了。 &n

（轉）8種常見機器學習算法比較

圖像在一起 test word 例子自己期望獲得樣本機器學習算法太多了，分類、回歸、聚類、推薦、圖像識別領域等等，要想找到一個合適算法真的不容易，所以在實際應用中，我們一般都是采用啟發式學習方式來實驗。通常最開始我們都會選擇大家普遍認同的算法，諸如SVM，G

8種常見機器學習演算法比較

簡介機器學習演算法太多了，分類、迴歸、聚類、推薦、影象識別領域等等，要想找到一個合適演算法真的不容易，所以在實際應用中，我們一般都是採用啟發式學習方式來實驗。通常最開始我們都會選擇大家普遍認同的演算法，諸如SVM，GBDT，Adaboost，現在深度學習很火熱，神經網路也是一個不錯的選擇。假如

[轉載] 機器學習資料集統計系列一

作者：宋天龍連結：https://www.zhihu.com/question/63383992/answer/222718972 來源：知乎 1. 綜合資料集 UCI資料集 UCI資料集中包括了眾多用於監督式和非監督式學習的資料集，數量大概400多個，其中很多資料集在其

機器學習資料集 Dataset 彙總

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

機器學習資料集篇——MNIST資料集

MNIST資料集是一個大型的手寫體數字資料庫，通常用於訓練各種影象處理系統，也被廣泛用於機器學習領域的訓練和測試。MNIST資料庫中的影象集是NIST（National Institute of Standards and Technology）的兩個資料庫的組合：專用資料庫1和特殊資料庫3

機器學習資料集【轉】

500款各領域機器學習資料集,總有一個是你要找的金融美國勞工部統計局官方釋出資料：http://dataju.cn/Dataju/web/datasetInstanceDetail/139 滬深股票除權除息、配股增發全量資料，截止 2016.12.31 http://dataju.c

【機器學習】8種常見機器學習演算法比較

8種常見機器學習演算法比較簡介機器學習演算法太多了，分類、迴歸、聚類、推薦、影象識別領域等等，要想找到一個合適演算法真的不容易，所以在實際應用中，我們一般都是採用啟發式學習方式來實驗。通常最開始我們都會選擇大家普遍認同的演算法，諸如SVM，GBDT，Adaboost，現在深度學習很火熱，

機器學習資料集

百度雲盤：手寫數字 .csv 格式，連結: https://pan.baidu.com/s/1Wg2fKqBoeXiNJ3c8K4DnDg 密碼: 7wmq 百度雲盤：手寫數字.jpg 格式，http://pan.baidu.com/s/1mgTsYtM（包含轉換的LMDB

各領域機器學習資料集彙總

大學公開資料集 (Stanford)69G大規模無人機(校園)影象資料集【Stanford】 http://cvgl.stanford.edu/projects/uav_data/ 人臉素描資料集【CUHK】 http://mmlab.ie.cuhk.edu.hk/archi

教你對抗機器學習資料集裡的不均衡資料

收藏下地址：英文原文：https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/漢文翻譯：https://blog.csdn

機器學習資料集劃分訓練集驗證集測試集

機器學習資料探勘之資料集劃分：訓練集驗證集測試集 Q：將資料集劃分為測試資料集和訓練資料集的常用套路是什麼呢？ A：three ways shown as follow:1.像sklearn一樣，提供一個將資料集切分成訓練集和測試集的函式：預設是把資料集的7

最流行的4個機器學習資料集

機器學習演算法需要作用於資料，而資料的本質則決定了應用的機器學習演算法是否合適，而資料的質量也會決定演算法表現的好壞程度。所以會研究資料，會分析資料很重要。本文作為學習研究資料系列博文的開篇，列舉了4個最流行的機器學習資料集。 Iris Iris也稱鳶尾花卉資料集，是一類多

收藏！超全機器學習資料合集！（附下載）

最近在群裡發現一些小夥伴在尋找資料的時候總是無處可找，網上出現很多收集免費資料再去打包收錢的人，我看不慣這樣的人，所以把自己收集的檔案分享給大家。百度雲經常抽風，如果大家遇到了失效的連結，請在評論區給我評論，我會很快的更新。 1：資料探勘：概念與技術（中文第三版）連結: https

機器不學習：如何處理資料中的「類別不平衡」？

轉自：機器學習中常常會遇到資料的類別不平衡（class imbalance），也叫資料偏斜（class skew）。以常見的二分類問題為例，我們希望預測病人是否得了某種罕見疾病。但在歷史資料中，陽性的比例可能很低（如百分之0.1）。在這種情況下，學習出好的分類器是

機器學習資料探勘資料集劃分訓練集驗證集測試集

機器學習資料探勘之資料集劃分：訓練集驗證集測試集 Q：將資料集劃分為測試資料集和訓練資料集的常用套路是什麼呢？ A：three ways shown as follow:1.像sklearn

機器學習-類別不平衡問題

之前 size 訓練最近鄰機制每次問題線性大於引言：我們假設有這種情況，訓練數據有反例998個，正例2個，模型是一個永遠將新樣本預測為反例的學習器，就能達到99.8%的精度，這樣顯然是不合理的。類別不平衡：分類任務中不同類別的訓練樣例數差別很大。

機器學習資料

hadoop1. https://pan.baidu.com/s/1jIegLmu 密碼: 87im (資料）2. https://pan.baidu.com/s/1bpAjo7d 密碼: yppj（數據）本文出自 “我是程序我最大” 博客，請務必保留此出處http://skinglzw.blog.51cto

最優化方法與機器學習工具集

ron 區別分布 .html 高斯 inter 初始 pos pre 摘要：　　1.最小二乘法　　2.梯度下降法　　3.最大（對數）似然估計（MLE）　　4.最大後驗估計（MAP）　　5.期望最大化算法（EM）　　6.牛頓法　　7.擬牛頓叠代（BFGS）　

8種應對機器學習資料集類別不平衡的策略

1.獲取更多的資料

2. 改變評價指標

3.對資料進行重新取樣

4.生成合成資料

5.嘗試其他的方法

6.懲罰模型

7.轉變視角

8. 創新

相關推薦