1. 程式人生 > >樣本不均衡解決辦法

樣本不均衡解決辦法

正負樣本不均衡,正負是指的二分類麼?

正負樣本不均衡時,常用方法:

1.抽樣

   過抽樣:將樣本量少的一類sample補齊

   欠抽樣:將樣本量多的一類sample壓縮

   組合抽樣:約定一個數量級N,同時進行過取樣和欠取樣,使得正負樣本量和等於約定數量級N

這種方法容易導致較少樣本共線性,或者丟失資料資訊。

   (共線性:在統計學中稱為多重共線性。指線性迴歸模型中由於變數之間存在精確的相關關係或者高度相關關係而使模型估計失真或難以準確估計。) 

2.常規的方法包括演算法中的weight,weight matrix