1. 程式人生 > >機器學習問題中過擬合出現的原因及解決方案

機器學習問題中過擬合出現的原因及解決方案

如果一味的追求模型的預測能力,所選的模型複雜度就會過高,這種現象稱為過擬合。模型表現出來的就是訓練模型時誤差很小,但在測試的時候誤差很大。

一、產生的原因:

1.樣本資料問題

樣本資料太少
樣本抽樣不符合業務場景
樣本中的噪音資料影響

2.模型問題

模型複雜度高,引數太多
決策樹模型沒有剪紙
模型訓練過程中權重迭代次數太多,擬合了資料中的噪聲資料

二、解決方案

1.樣本資料方面

增加樣本數量
對樣本資料進行降維
新增驗證資料
抽樣方法要符合業務場景
清洗噪聲資料

2.模型方面

控制模型複雜度,優先選擇複雜度簡單的模型,或者融合模型
利用先驗知識新增L1,L2正則項
進行交叉驗證
不要過度訓練,最優化求解,收斂之前停止迭代
如果是決策樹模型進行減值
權重衰減