1. 程式人生 > >教你對抗機器學習資料集裡的不均衡資料

教你對抗機器學習資料集裡的不均衡資料

收藏下地址:

英文原文:https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

漢文翻譯:https://blog.csdn.net/jiandanjinxin/article/details/50857205

其他文章:https://blog.csdn.net/tingfeng96/article/details/72854874

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650718717&idx=1&sn=85038d7c906c135120a8e1a2f7e565ad&scene=0#wechat_redirect

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650724464&idx=1&sn=1f34358862bacfb4c7ea17c864d8c44d&chksm=871b1c0eb06c95180e717d8316b0380602f638a764530b4b9e35ac812c7c33799d3357d46f00&scene=0&key=0f5e635eeb6bf20a076ad60d7f11c6ef5c5c1c8f02873bc8b458381b629a1e2ae76174d0d4ba34331c71d095e3b3b92aa7fff5e1e11badeaf6c87ff90fd264f3dc6b1eb074eaccb2ac46e8f2d440cefd&ascene=0&uin=MTU1NTY3MTA0Mg%3D%3D&devicetype=iMac+MacBookPro12%2C1+OSX+OSX+10.11.6+build(15G1217)&version=12010310&nettype=WIFI&fontScale=100&pass_ticket=csWk%2BJXfpl7rA8r527fLqF%2BF3EZEeBKpFRjI%2BWMXoPf2PEtPt%2FLMrscLX4GBl7gg

下面為從微信公眾號摘抄的一篇文章,也可以看看

一、資料層面策略:取樣技術
1、隨機欠取樣和隨機過取樣
欠取樣:優點是在平衡資料的同時減小了資料量,加速訓練,尤其是當樣本集很大的時候。
        缺點是資料減少會影響模型的特徵學習能力和泛化能力
        
過取樣:優點是不會導致資料資訊損失,一般效果也會好於欠取樣。
        缺點是由於是對較少類別的複製,過取樣增加了過擬合的可能性
        
2、基於聚類的過取樣
    對不同的類別分別進行聚類,一般情況下設定樣本較多的聚類中心數目較多,而樣本較少的類聚類中心較少。
然後通過對每個cluster進行過取樣和欠取樣使原始類別中所有的cluster有相同的樣本。
    這種方法通過聚類作為中介不但一定程度上緩解了類間的樣本不均衡問題,還一定程度上緩解了類內的不平衡問題。
但這種方法和一般的過取樣一樣容易使模型對訓練資料過擬合。

3、Informed Over Sampling(SMOTE):
a)簡單的SMOTE
對於一個xi,先找到其近鄰的k個樣本,然後從這幾個近鄰樣本中隨機選取一個xi^hat,生成新的樣本
優點:通過人造相似樣本取代直接複製的方法減弱過擬合,也沒有丟失有用的資訊
缺點:但這種方法在進行人工合成樣本時沒有考慮近鄰樣本可能來自於不同類別,導致增大類別間的重疊。
另外,SMOTE在資料維度很高時效率很低。

b)Borderline-SMOTE
SMOTE沒有考慮樣本較少的那個類別自身潛在的分佈,Borderline-SMOTE在此進行了優化

c)基於資料清洗的SMOTE
利用Tomek Links方法去掉一些重疊樣本,清洗資料。

二、演算法策略:整合演算法
1、Bagging
優點:可以提高演算法的穩定型和準確率,減弱演算法的variance和過擬合,而且在噪聲樣本環境下,Bagging通常比
Boosting表現好
缺點:但Bagging的問題是隻在基礎分類器都能產生不錯的結果時work,如果有的基礎分類結果很差,可能會嚴重影響Bagging的效果

2、Boosting
優點:演算法容易實現且有很好的泛化性
缺點:對於噪聲和離群點比較敏感

相關推薦

對抗機器學習資料均衡資料

收藏下地址:英文原文:https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/漢文翻譯:https://blog.csdn

手把手用深度學習做物體檢測(二):資料標註

  “本篇文章將開始我們訓練自己的物體檢測模型之旅的第一步—— 資料標註。”   上篇文章介紹瞭如何基於訓練好的模型檢測圖片和視訊中的物體,若你也想先感受一下物體檢測,可以看看上篇文章:《手把手教你用深度學習做物體檢測(一):快速感受物體檢測的酷炫 》。   其實,網上關於資料標註的文章已有很多,但

如何解決機器學習深度學習訓練樣本均衡的問題!

解決樣本不均衡的問題很多,主流的幾個如下: 1.樣本的過取樣和欠取樣。 2..使用多個分類器進行分類。 3.將二分類問題轉換成其他問題。 4.改變正負類別樣本在模型中的權重。 一、樣本的過取樣和欠取樣。 1.過取樣:將稀有類別的樣本進行復制,通過增加此稀有

機器學習中訓練樣本均衡問題

在實際中,訓練模型用的資料並不是均衡的,在一個多分類問題中,每一類的訓練樣本並不是一樣的,反而是差距很大。比如一類10000,一類500,一類2000等。解決這個問題的做法主要有以下幾種: 欠取樣:就是把多餘的樣本去掉,保持這幾類樣本接近,在進行學習。(可能會導致過擬合)

機器學習中訓練資料,交叉驗證資料,測試資料的作用

#1. 簡介 在Andrew Ng的機器學習教程裡,會將給定的資料集分為三部分:訓練資料集(training set)、交叉驗證資料集(cross validation set)、測試資料集(test set)。三者分別佔總資料集的60%、20%、20%。 那麼

8種應對機器學習資料類別平衡的策略

資料集類別不平衡通常發生在分類問題上,例如有兩個類別(A,B)的資料集,A有80個,而B有20個,那麼這個資料集是不平衡的。大多數資料集每一個類別通常不是完全的平衡,小的不平衡不會有太大的問題。但是當樣本分佈差距很大的時候,就會有很大的影響。嚴重的不平衡會導致訓練的模型大概率

機器學習的 50 個最佳免費資料

您也可以檢視這篇文章的英語和日語版本。 用於機器學習的開放資料集有哪些呢?Gengo 團隊為高質量的資料集建立了一份最終備忘單。這些高質量的資料集或者涵蓋範圍廣泛(比如 Kaggle),或者非常細化(比如自動駕駛汽車的資料)。 首先,在搜尋資料集時要記住幾點。

機器學習實戰例項練習-計算給定資料的夏農熵

本文內容以程式碼為主(詳細請參考<機器學習實戰>書籍),主要用於自讀回顧,故註釋未精簡化,若發現錯誤還望各位前輩批評指正.資訊熵:用來描述系統資訊量的不確定度.                                 from math import lo

這10本由淺入深的好書,或讓成為機器學習領域的專家

微博 .com 比較 編碼風格 兩個 行數據 開始 自己 推薦書 [email protected]/* */ 老師推薦,阿裏雲雲棲社區組織翻譯。 以下為譯文: 機器學習是個跨領域的學科,而且在實際應用中有巨大作用,但是沒有一本書能讓你成為機器學習

最優化方法與機器學習工具

ron 區別 分布 .html 高斯 inter 初始 pos pre 摘要:   1.最小二乘法   2.梯度下降法   3.最大(對數)似然估計(MLE)   4.最大後驗估計(MAP)   5.期望最大化算法(EM)   6.牛頓法   7.擬牛頓叠代(BFGS)  

入門機器學習

簡單 oss 運行 自動 oom 不可 ida 暫時 數據集 什麽是機器學習? 機器學習的核心思想是創造一種普適的算法,它能從數據中挖掘出有趣的東西,而不需要針對某個問題去寫代碼。你需要做的只是把數據“投餵”給普適算法,然後它會在數據上建立自己的邏輯。 比如說有一種算法,叫

機器學習(十三) 學習和隨機森林(上)

討論 隨機 分享圖片 inf nbsp 集成學習 bsp image mage 一、什麽是集成學習 二、Soft Voting Classifier 更合理的投票,應該有的權值 三、

機器學習(十三) 學習和隨機森林(下)

img over 是你 trees https info 入門級 一點 競賽 五、隨機森林和 Extra-Trees 六、Ada Boosting 和 Gradient Boosting 七、Stacking

機器學習模型建立一個API服務

1. 什麼是API 當調包俠們訓練好一個模型後,下一步要做的就是與業務開發組同學們進行程式碼對接,以便這些‘AI大腦’們可以順利的被使用。然而往往要面臨不同程式語言的挑戰,例如很常見的是調包俠們用Python訓練模型,開發同學用Java寫業務程式碼,這時候,Api就作為一種解決方案被使用。 簡單地說,AP

自制力差?!強迫自己學習

網際網路時代,誘惑實在太多了,安靜地坐下來想好好地學習一波,誘惑便徐徐襲來~ 不由自主地拿起手機朋友圈,抖音刷起來~ 滴滴!有個好基友來叫我打遊戲了! 叮!海賊王更新了,看一波先! 哇!趙麗穎結婚了!我也來官宣一波(微博訊息彈出來) … 呃?時間哪去了? 不就

手把手如何用Python從PDF檔案中匯出資料(附連結)

有很多時候你會想用Python從PDF中提取資料,然後將其匯出成其他格式。不幸的是,並沒有多少Python包可以很好的執行這部分工作。在這篇貼子中,我們將探討多個不同的Python包,並學習如何從PDF中提取某些圖片。儘管在Python中沒有一個完整的解決方案,你還是應該能夠運用這裡的技能開始上手。

舉兩個栗子:如何正確建立個人的機器學習專案

選自Towards Data Science,作者:Edouard Harris,機器之心編譯。 面試機器學習方面的工作時,在簡歷的個人專案那塊,你會寫什麼?建模?做機器學習專案?專案資料從哪兒來?在 SharpestMinds 創始人 Edouard Harris 介紹的兩個成功例子中,人家是從基

正確的學習web前端開發技術的方法分享

近幾年IT業可謂是發展火熱,而且新生了很多的職業。例如安卓開發工程師、iOS開發工程師。在這眾多的新生職業中備受矚目的當屬web前端工程師了,前端工程師薪資高,就業發展前景好,更多的人選擇了這一職業成為自己的發展方向,想要自己成為一名合格的web前端工程師,web前端開發學習路線圖值得大家去看看。

用pytbon批量採集亞馬遜商品資料

隨著傳統外貿渠道的疲態,跨境電商現在發展異常火爆,跨境電商未來很有可能成為主流的外貿出口模式,並且成為推動中國外貿經濟的一個重要的突破口。跨境電商主要分跨境進口和跨境出口,主流的跨境電商平臺各有特點。 亞馬遜公司作為美國最大的一家網路電子商務公司,是網路上最早開始經營電子商務的公司之一,

手把手怎麼解析多層巢狀的JSON資料(使用JSONModel)

使用API API介紹 參考的JSON資料(可能與你看到的不同) { "date": "20181020", "stories": [ { "title": "每週一吸 · 狸花貓",