1. 程式人生 > >L1、L2正則(Regularization )簡介

L1、L2正則(Regularization )簡介


過擬合就是隨著模型的複雜度的增加,訓練集上的正確率很高error很小,訓練集擬合的非常好,但是在測試集上面的錯誤率卻越來越高,效果很差,即模型的泛化能力很差;

而正則化是通過約束引數的範數使其不要太大,所以可以在一定程度上減少過擬合情況;防止過擬合的方法有很多,比如:early stopping,L2正則等;

L1可以實現稀疏,關於稀疏可以暫且理解為:讓引數W是稀疏的,就是希望W的大部分元素都是0。影響預測結果y的特徵有很多,但是其中一部分特徵對輸出y是完全沒有影響的,在最小化目標函式的時候雖然加入這些特徵會降低訓練誤差,但是實際應用這些無效的特徵資訊會干擾y的正確預測,所以我們引入稀疏將這些特徵的權重置為0,從而起到選擇有效特徵的作用;

L2正則(範數)是指向量各元素的平方和然後求平方根。我們讓L2範數的規則項||W||2最小,可以使得W的每個值都很小,都接近於0,注意與L1範數不同,它不會讓它等於0,而是接近於0,這裡有很大的區別。


而越小的引數說明模型越簡單,越簡單的模型則越不容易產生過擬合現象,如圖所示:當w的值比較大時,說明斜率比較大,資料會出現明顯的波動上升或下降,只有當w都比較小時曲線的斜率才會比較小,導數絕對值比較小,曲線不會過分擬合數據。