1. 程式人生 > >過擬合產生的原因和預防

過擬合產生的原因和預防

可見,資料規模一定時,隨機噪音越大,或者確定性噪音越大(即目標函式越複雜),越容易發生overfitting。總之,容易導致overfitting 的因素是:資料過少;隨機噪音過多;確定性噪音過多;假設過於複雜(excessive power)。如果我們的假設空間不包含真正的目標函式f(X)(未知的),那麼無論如何H 無法描述f(X) 的全部特徵。這時就會發生確定性噪音。它與隨機噪音是不同的。我們可以類比的理解它:在計算機中隨機數實際上是“偽隨機數”,是通過某個複雜的偽隨機數演算法產生的,因為它對於一般的程式都是雜亂無章的,我們可以把偽隨機數當做隨機數來使用。確定性噪音的哲學思想與之類似。:-)
4,解決過擬合問題對應導致過擬合發生的幾種條件,我們可以想辦法來避免過擬合。(1) 假設過於複雜(excessive dvc) => start from simple model(2) 隨機噪音 => 資料清洗(3) 資料規模太小 => 收集更多資料,或根據某種規律“偽造”更多資料正規化(regularization) 也是限制模型複雜度的,在下一講介紹。4.1 資料清洗(data ckeaning/Pruning)將錯誤的label 糾正或者刪除錯誤的資料。4.2 Data Hinting: “偽造”更多資料, add "virtual examples"例如,在數字識別的學習中,將已有的數字通過平移、旋轉等,變換出更多的資料。