SVM 解決類別不平衡問題(scikit_learn)

阿新 • • 發佈：2019-01-07

在支援向量機中， $C$ 是負責懲罰錯誤分類資料的超引數。

解決資料類別不平衡的一個方法就是使用基於類別增加權重的 $C$ 值

C_{j} = C * w_{j}

其中， $C$ 是誤分類的懲罰項， $w_{j}$ 是與類別 $j$ 的出現頻率成反比的權重引數， $C_{j}$ 就是類別 $j$ 對應的加權 $C$ 值

主要思路就是增大誤分類少數類別帶來的影響，保證少數類別的分類正確性，避免被多數類別掩蓋

在scikit-learn 中，使用 svc 方法時，可以通過設定引數

class_weight=’balanced’

實現上述加權功能

引數‘balanced’ 會自動按照以下公式計算權值：

w_{j} = \frac{n}{k n_{j}}

其中， $w_{j}$ 為類別 $j$ 對應權值， $n$ 為資料總數， $k$ 為類別數量，即資料有 $k$ 個種類， $n_{j}$ 是類別 $j$ 的資料個數

0.匯入庫

# Load libraries
from sklearn.svm import SVC
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
import numpy as np

1、載入Iris Flower 資料集

#只加載兩個類別的資料，兩類，各50個
iris = datasets.load_iris()
X = iris.data[:100 
,:]
y = iris.target[:100]

2.不均衡化資料集

# 刪掉前四十個資料，資料總數變為60個
X = X[40:,:]
y = y[40:]

# 類別為0的類別不變，類別不為0的全部變為1
y = np.where((y == 0), 0, 1)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

可以看到，有60個數據，10個為類別0,50個為類別1

3.特徵標準化

# Standarize features
scaler = StandardScaler()
X_std = scaler.fit_transform(X)

4.使用加權類別訓練SVM分類器

# Create support vector classifier
svc = SVC(kernel='linear', class_weight='balanced', C=1.0, random_state=0)

# Train classifier
model = svc.fit(X_std, y)

翻譯自Chris Albon 部落格
原文地址

SVM 解決類別不平衡問題(scikit_learn)

在支援向量機中，CC 是負責懲罰錯誤分類資料的超引數。解決資料類別不平衡的一個方法就是使用基於類別增加權重的CC值 Cj=C∗wjCj=C∗wj 其中，CC是誤分類的懲罰項，wjwj是與類別 jj 的出現頻率成反比的權重引數，CjCj 就是類別 jj

分類中解決類別不平衡問題

關注微信公眾號【Microstrong】,我現在研究方向是機器學習、深度學習，分享我在學習過程中的讀書筆記！一起來學習，一起來交流，一起來進步吧！1.什麼是類別不平衡問題如果不同類別的訓練樣例數目稍有差別，通常影響不大，但若差別很大，則會對學習過程造成困擾。例如有998個

分類任務中資料類別不平衡問題的幾種解決方案

類別不平衡（class-imbalance），是指分類任務中不同類別的訓練樣例數目差別很大的情況（例如，訓練集正類樣例10個，反類樣例90個），本文假設正類樣例較少，反類樣例較多。現有解決方案大體分為三類，如下文所示。欠取樣（undersampling）欠取樣方法，即去除一

機器學習-類別不平衡問題

之前 size 訓練最近鄰機制每次問題線性大於引言：我們假設有這種情況，訓練數據有反例998個，正例2個，模型是一個永遠將新樣本預測為反例的學習器，就能達到99.8%的精度，這樣顯然是不合理的。類別不平衡：分類任務中不同類別的訓練樣例數差別很大。

類別不平衡之欠采樣（undersampling）

HR shuffle cat 圖片 mage cascade sele cas awk 類別不平衡就是指分類任務中不同類別的訓練樣例數目差別很大的情況常用的做法有三種，分別是1.欠采樣， 2.過采樣， 3.閾值移動由於這幾天做的project的target為正值的概率不

pytorch處理類別不平衡問題

訪問本站觀看效果更佳當訓練樣本不均勻時，我們可以採用過取樣、欠取樣、資料增強等手段來避免過擬合。今天遇到一個3d點雲資料集合，樣本分佈極不均勻，正例與負例相差4-5個數量級。資料增強效果就不會太好了，另外過取樣也不太合適，因為是空間資料，新增的點有可能會對真實分佈產生未知影響。所以採用欠取

BAT機器學習特徵工程工作經驗總結(一)如何解決資料不平衡問題（附python程式碼）

很多人其實非常好奇BAT裡機器學習演算法工程師平時工作內容是怎樣？其實大部分人都是在跑資料，各種map-reduce，hive SQL，資料倉庫搬磚，資料清洗、資料清洗、資料清洗，業務分析、分析case、找特徵、找特徵…而複雜的模型都是極少數的資料科學家在做。例

機器不學習：如何處理資料中的「類別不平衡」？

轉自：機器學習中常常會遇到資料的類別不平衡（class imbalance），也叫資料偏斜（class skew）。以常見的二分類問題為例，我們希望預測病人是否得了某種罕見疾病。但在歷史資料中，陽性的比例可能很低（如百分之0.1）。在這種情況下，學習出好的分類器是

機器學習中的類別不平衡問題

類別不平衡問題指分類任務中不同類別的訓練樣本數目差別很大的情況。下面介紹幾種緩解類別不平衡的方法： 1、欠取樣即去除多餘的樣本，使得正負樣本數目基本一致。注意：（1）由於丟棄了一些樣本，訓練速度相對加快了。 &n

【機器學習】類別不平衡學習

本文主要記錄《機器學習》一書中關於類別不平衡問題的處理。類別不平衡問題（class-imbalance）就是說對於分類任務來說，不同類別的訓練樣例相差很大的情況。不是一般性，這裡主要介紹負樣本遠遠多於正樣本的情況。（在閱讀深度神經網路論文時，發現這種情

8種應對機器學習資料集類別不平衡的策略

資料集類別不平衡通常發生在分類問題上，例如有兩個類別（A,B）的資料集，A有80個，而B有20個，那麼這個資料集是不平衡的。大多數資料集每一個類別通常不是完全的平衡，小的不平衡不會有太大的問題。但是當樣本分佈差距很大的時候，就會有很大的影響。嚴重的不平衡會導致訓練的模型大概率

機器學習之類別不平衡問題 (2) —— ROC和PR曲線

完整程式碼 ROC曲線和PR（Precision - Recall）曲線皆為類別不平衡問題中常用的評估方法，二者既有相同也有不同點。本篇文章先給出ROC曲線的概述、實現方法、優缺點，再闡述PR曲線的各項特點，最後給出兩種方法各自的使用場景。 R

解決樣本不平衡問題的奇技淫巧彙總

先舉一個“恐怖”的例子，直觀的感受一下樣本不平衡問題：你根據1000個正樣本和1000個負樣本正確訓練出了一個準確率90%召回率90%的分類器，且通過實驗驗證沒有欠取樣過取樣的問題哦~完美的樣本，完美的模型，破費，你心裡暗自得意。然後模型上線，正式預測每天的未知樣本~。

Focal Loss（RetinaNet）筆記一種減小類別不平衡影響的方法

預測 png cal 參考 oca .org paper 分享圖片方法 Paper： https://arxiv.org/abs/1708.02002 還參考了：https://www.jianshu.com/p/8e501a159b28 其中p是預測屬

機器學習之類別不平衡問題 (1) —— 各種評估指標

機器學習之類別不平衡問題 (1) —— 各種評估指標機器學習之類別不平衡問題 (2) —— ROC和PR曲線在二分類問題中，通常假設正負類別相對均衡，然而實際應用中類別不平衡的問題，如100, 1000, 10000倍的資料偏斜是非常常見的，比如疾病

[轉]如何處理機器學習中的不平衡類別

down 觀測 input 推薦可能 type 兩個好的 exchange 如何處理機器學習中的不平衡類別原文地址：How to Handle Imbalanced Classes in Machine Learning 原文作者：elitedatascienc

分類中樣本資料不平衡問題的解決方法

資料探勘的重點在資料，當資料不平衡的時候怎麼辦呢？轉自：http://blog.csdn.net/dream2009gd/article/details/35569343 問題：研究表明，在某些應用下，1∶35的比例就會使某些分類

文字分類 - 樣本不平衡的解決思路與交叉驗證CV的有效性

現實情況中，很多機器學習訓練集會遇到樣本不均衡的情況，應對的方案也有很多種。筆者把看到的一些內容進行簡單羅列，此處還想分享的是交叉驗證對不平衡資料訓練極為重要。文章目錄 1 樣本不平衡的解決思路 1.2 將不平衡樣本當作離群點

分類問題中訓練資料類別不均衡怎麼解決

碰到樣本資料類別不均衡怎麼辦？如果有 10000個樣例，做二分類，9990條資料都屬於正類1，如果不處理的話預測全部結果為 1，準確率也為 99%，但這顯然不是想要的結果。碰到這樣樣本很不平衡的樣例，應該怎樣做。前期資料準備 1. 欠取樣 def down_sa

通過加權解決Detectron訓練object detection模型時的類間不平衡問題

使用深度學習解決分類問題時，類間不平衡是一個常見的問題，我們也有很多常用的方法去解決這一問題。比如，對類別少的樣本進行augment，或者重取樣；對類別多的樣本進行降取樣；根據不同類別的樣本數目對損失函式進行加權；或者簡單粗暴地對較少的樣本在資料集內進行復制；等等。

SVM 解決類別不平衡問題(scikit_learn)

0.匯入庫

1、載入Iris Flower 資料集

2.不均衡化資料集

3.特徵標準化

4.使用加權類別訓練SVM分類器

相關推薦