分類任務中資料類別不平衡問題的幾種解決方案

阿新 • • 發佈：2018-12-26

類別不平衡（class-imbalance），是指分類任務中不同類別的訓練樣例數目差別很大的情況（例如，訓練集正類樣例10個，反類樣例90個），本文假設正類樣例較少，反類樣例較多。

現有解決方案大體分為三類，如下文所示。

欠取樣（undersampling）

欠取樣方法，即去除一些反類樣例，使得正、反類樣例數量接近。

EasyEnsemble為欠取樣的代表性演算法，利用繼承學習機制，將反例劃分為若干個集合，供不同學習器使用，這樣對每個學習器來看都進行了欠取樣，但在全域性來看卻不會丟失重要資訊。

欠取樣示意圖

上圖為EasyEnsemble示意圖，若反例樣本是正例樣本數量的4倍，將反例樣本隨機劃分成4個集合，每個集合分別和全部正例樣本組成不同的訓練集，每個訓練集由不同學習器進行學習，這樣，每個訓練集的資料都是平衡的，全域性來看又不會捨棄掉任何反例樣本。

過取樣（oversampling）

過取樣，即增加一些正例，使得正、反類樣例數量接近。

SMOTE，過取樣的代表性演算法，通過對訓練集的正例進行插值，來產生額外的正例。

閾值移動（threshold-moving）

閾值移動，直接基於原始訓練集進行學習，但是修改分類器預測時的決策過程；下面以邏輯迴歸（logistics regression）為例，進行說明。

邏輯迴歸（logistics regression），即對數機率迴歸，其模型可以表示為：
$y =$

1 1 + e − ( w

T x + b ) y=\frac{1}{1+e^{-(w^\mathrm{T}x+b)}}

y = \frac{1}{1 + e ^{- (w^{T} x + b)}}

即：

\ln{\frac{y}{1-y}}=w^\mathrm{T}x+b

其中，

y

為預測得到結果，

x

為輸入樣本資料，

w

和

b

為模型權值和偏置。

如上圖所示，圖中曲線為對數機率函式（Sigmoid 函式的一種），因此， $y$ 在0到1之間。

我們將 $y$ 視為樣本 $x$ 為正例的可能性，那麼 $1-y$ 是其為反例的可能性，機率 $\frac{y}{1-y}$ 反映了正例可能性和反例可能性之比。

一般情況下，

當樣本平衡時，分類器的決策規則為：

若 $\frac{y}{1-y}>1$ ，則預測為正例；
上條規則亦可以表示為，若 $y>0.5$ ，則預測為正例。

當樣本不平衡時，記 $m^+$ 為正例樣本數量， $m^-$ 為反例樣本數量，分類器決策規則變為：

若 $\frac{y}{1-y}>\frac{m^+}{m^-}$ ，則預測為正例；
上條規則亦可以表示為，若 $\frac{y}{1-y}\times\frac{m^-}{m^+}>1$ ，或 $y>\frac{m^+}{m}$ ，則預測為正例。

這種類別不平衡學習的策略也叫“再縮放”（rescaling）或“再平衡”（rebalance）

分類任務中資料類別不平衡問題的幾種解決方案

類別不平衡（class-imbalance），是指分類任務中不同類別的訓練樣例數目差別很大的情況（例如，訓練集正類樣例10個，反類樣例90個），本文假設正類樣例較少，反類樣例較多。現有解決方案大體分為三類，如下文所示。欠取樣（undersampling）欠取樣方法，即去除一

機器學習中的類別不平衡問題

類別不平衡問題指分類任務中不同類別的訓練樣本數目差別很大的情況。下面介紹幾種緩解類別不平衡的方法： 1、欠取樣即去除多餘的樣本，使得正負樣本數目基本一致。注意：（1）由於丟棄了一些樣本，訓練速度相對加快了。 &n

分類方法中樣本類別不均衡問題

一、前言大部分的分類學習方法都存在一個基本的假設，訓練集中不同類別的訓練樣本數目差不多。如果不同類別的樣本數目差距很大，比如正類樣本有98個，而負類樣本只有2個，這種情況下學習出來的分類器只要一直返回正類的預測結果，那很輕易的就能達到百分之九十八的正確率，但實際上這樣的模

類成員函數不能作為普通函數地址傳遞給普通函數指針，幾種解決方案

設置函數指針 glut idle llb .sh c函數 open 百度代碼如下 #include <iostream> using namespace std; class A { public: int i; public: void

vue陣列中資料變化但是檢視沒有更新解決方案

原文連結：http://www.cnblogs.com/sufubo/p/6906261.html#undefined 問題:在vue專案中,我更改陣列中的某一條資料,直接arr[i]=newVal ,發現頁面上陣列沒有實時重新整理; 檢視官網發現: 陣列更新檢測變異方法 Vue 包含一組觀察陣列

[JAVA IDEA]在使用maven專案中，無法讀取resources資料夾中的配置檔案的一種解決方案

1、在通過配置檔案來連線資料庫時，在resouces檔案中放入了db.properties配置檔案，但無法正常讀取到　讀取配置檔案資訊的程式碼： InputStream input=JdbcUtil.class.getClassLoader().getResourceAsStream("db.prope

系統技術非業餘研究 » MYSQL資料庫網絡卡軟中斷不平衡問題及解決方案

最近公司在MySQL的資料庫上由於採用了高速的如PCIe卡以及大記憶體，去年在壓力測試的時候突然發現數據庫的流量可以把一個千M網絡卡壓滿了。隨著資料庫的優化，現在流量可以達到150M，所以我們採用了雙網絡卡，在交換機上繫結，做LB的方式，提高系統的吞吐量。但是在最近壓測試的一個數據庫中，mps

降低資料壓力的幾種解決方案

在現代的軟體系統中，幾乎所有的系統都使用到了資料庫，不論是關係型資料，例如MySql、SQLite、Oracle、SQLServer等，還是非關係性資料，例如mongoDB、redis等。本文已web系統為例來闡述為什麼要降低資料庫的壓力，在提出具體方案之前先大

SQL SERVER 2008資料丟失幾種解決方案

一、事務處理 --資料還原到指定時間點的處理示例 --建立測試資料庫 CREATE DATABASE Db GO --對資料庫進行備份 BACKUP DATABASE Db TO DISK='c:\db.bak' WITH FORMAT GO --建立測試表 CREATE

關於 Swift 中重寫 preferredStatusBarStyle 不起作用問題解決方案

前言：本次使用的 Swift 版本為 4.2 版本，所以程式碼上與之前版本的寫法會有不一樣的地方，但思路都如此。那我就根據自己的專案簡單說下解決辦法，又更好辦法的，也請大牛留言探討， O(∩_∩)O謝謝！分析：在 iOS9 之前使用

Web開發中跨域的幾種解決方案

隨著Web App的功能越來越強各種跨域的需求催生了無數的跨域手法。甚至在HTML5標準中都給出了官方的跨域方法，也是最近應付面試的需要，拿一篇文章來總結既有的各種跨域手段。這些跨域通訊的方法大致可以分為兩類：一類是Hack，比如通過title, navigation等物件傳遞資訊，JSONP可

502的幾種解決方案

限制文件中 tps 運行 pro https pac time 文件 1.FastCGI進程是否已經啟動2.FastCGI worker進程數是否不夠運行 netstat -anpo | grep “php-cgi” | wc -l 判斷是否接近FastCGI進程，接近配

清除float浮動造成影響的幾種解決方案

cor 解決元素 height blog con ext style oat 1. “清除浮動” ？？準確的描述應該是“清除浮動造成的影響” 學習浮動推薦的視頻教程《CSS深入理解之float浮動》 2.如何清除浮動造成

實現在線預覽PDF的幾種解決方案

動態 api for ive pdf span www 控制器動態顯示原文:實現在線預覽PDF的幾種解決方案因客戶需要實現PDF的預覽處理，在網上找了一些PDF在線預覽的解決方案，有的用PDFJS的在線預覽方式，有的使用PDFObject的嵌入式顯示，有的通過轉換JPG

生成分散式唯一ID的幾種解決方案

分散式ID的特性唯一性：確保生成的ID是全網唯一的。有序遞增性：確保生成的ID是對於某個使用者或者業務是按一定的數字有序遞增的。高可用性：確保任何時候都能正確的生成ID。帶時間：ID裡面包含時間，一眼掃過去就知道哪天的交易。 1. UUID UUID

關於Android熱修復的幾種解決方案

文中引用到的一些部落格： http://www.jianshu.com/p/0a31d145cad2 https://mp.weixin.qq.com/s?__biz=MzI1MTA1MzM2Nw==&mid=400118620&idx=1&sn=b4fdd5055731290eef

分散式事物幾種解決方案

本文只做引薦，大概說一些自己的理解分散式事物幾種解決方案分散式不存在絕對的事物處理！！！大概四種解決方案基於訊息佇列最終一致性； TCC型解決方案；二階段提交強一致性； LCN：https://github.com/coding

org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)錯誤幾種解決方案

報錯資訊： org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): com.study.server.mapper.UserMapper.insert at org.apache.ibat

Android的延遲實現的幾種解決方案以及原理分析

寫這篇文章的目的，是看到群裡有人在實現延遲的時候，用如下的第四種方法，個人感覺有點不妥，為了防止更多的人有這種想法，所以自己抽空深入分析，就分析的結果，寫下此文，希望對部分人有啟示作用。 1.實現延遲的幾種方法？答： 1.java.util.Time

清除浮動，clearfix的幾種解決方案

之前給大家介紹兩種浮動閉合的辦法CSS清除浮動萬能float閉合，得知很多同學都在使用下面的骨灰級解決辦法： .clear{clear:both;height:0;overflow:hidden;} 上訴辦法是在需要清除浮動的地方加個div.clear或者

分類任務中資料類別不平衡問題的幾種解決方案

欠取樣（undersampling）

過取樣（oversampling）

閾值移動（threshold-moving）

相關推薦