1. 程式人生 > >機器學習中資料取樣方式

機器學習中資料取樣方式

當機器學習中樣本比例不平衡時,通常會對資料進行取樣的方法,對資料取樣可以有針對性地改變資料中樣本的比例,取樣一般有兩種方式:over-samplingunder-sampling,前者是增加樣本數較少的樣本,其方式是直接複製原來的樣本,而後者是減少樣本數較多的樣本,其方式是丟棄這些多餘的樣本。

通常來說,當總樣本數目較多的時候考慮 under-sampling,而樣本數數目較少的時候考慮 over-sampling