L1、L2正則化

阿新 • • 發佈：2019-01-20

過擬合：對於訓練集擬合效果非常好，但是對於訓練集以外的資料集擬合效果不好。通常發生在變數（特徵）較多的情況，也就是說曲線儘可能的滿足訓練資料集，導致無法泛化（泛化是指模型能夠應用到新樣本的能力）到新資料集中。解決辦法：減少樣本特徵、正則化（通常新增L2正則化）

欠擬合：模型沒有沒有很好的捕捉到資料特徵，不能夠很好的擬合數據。與過擬合是相反的。其解決辦法：新增其他特徵項、新增多項式特徵、減少正則化引數。

第一張圖表示欠擬合，可以看出很多類別被分類錯誤。

第二張圖表示擬合，就是擬合效果比較好。

第三張圖表示過擬合，在此資料集上擬合效果非常好，可以想象一下，其在實際應用中效果將會非常差。

（正則化代價函式）=（經驗代價函式）+（正則化引數）X（正則化項）

經驗代價函式是實際與預測的誤差，我們不僅需要訓練誤差小，還想要測試誤差小，因此引入第二項正則化約束函式，使得模型儘量簡單。

Q1:什麼叫做正則化？

L0正則化：表示矩陣中非0元素的個數。簡單粗暴的來說就是要是引數w稀疏，但是其往往難以求最優解，因此通常使用L1正則化進行稀疏。

L1正則化：是指各個元素的絕對值之和。Lasso Regularization，其是L0正規化的最優凸近似。

L2正則化：是指各個元素的平方和再求平方根。防止過擬合。

Q2：L0、L1為什麼能實現稀疏，為什麼需要稀疏？

我們在進行訓練模型的時候，特徵中部分特徵對實際的預測輸出並沒有貢獻，因此在預測新樣本時，將會對預測輸出造成影響。稀疏規則化運算元的約束就是為了完成特徵自動選擇，去掉對預測無用的特徵，也就是說將這些無用的特徵的權值設定為0。令一個方面新增稀疏正則化能夠更好的解釋模型。舉個例子來說，假如預測病人是否患有癌症，其影響的因素有，飲食口味、家族病史、睡眠質量、運動情況、性別、年齡、文化程度等等，最後通過學習，我們發現只有飲食口味、家族病史和睡眠質量影響是否患癌，也就是說其他的運動情況、性別、年齡、文化程度等特徵權重為0，這樣就能夠簡化我們的預測模型。

以下這張圖能夠解釋為什麼L1正則化能夠實現稀疏。這是一個二維情況，就是四個突出點，多維情況下，會有更多的凸點，在這些凸點中會有權重為0的情況，其中（0，w2）這個點與代價函式相交，此時為最優解。

Q3：L2正則化為什麼能防止過擬合？

L2正則化其為各個元素的平方和再開方，以下為二維情況，可以看出去曲線是沒有菱角的，為平滑的，這個時候最優解中使得w1或w2為0的情況機率較小，因此其是不具有稀疏性的。

過擬合傾向的是將權值減小，這樣在測試新資料時，誤差將不會偏差較大，想象一下，當每個特徵變數的權重減小時，那麼每個特徵值相差較大時，其結果也將不會影響較大，這就是抗干擾能力。

L1、L2正則化

L1、L2正則化

深入理解L1、L2正則化原理與作用

泛化能力、訓練集、測試集、K折交叉驗證、假設空間、欠擬合與過擬合、正則化（L1正則化、L2正則化）、超引數

機器學習之路： python線性回歸過擬合 L1與L2正則化

L1和L2正則化直觀理解

L1，L2正則化

L1和L2正則化。L1為什麼能產生稀疏值，L2更平滑

L1與L2正則化

L1、L2 正則項詳解 - 解空間、先驗分佈、最大似然估計 and 最大後驗估計

【通俗易懂】機器學習中 L1 和 L2 正則化的直觀解釋

神經網路中的過擬合的原因及解決方法、泛化能力、L2正則化

dropout和L1，L2正則化的理解筆記

機器學習筆記（二）L1，L2正則化

L1、L2正則(Regularization )簡介

L1和L2正則化區別

批歸一化（Batch Normalization）、L1正則化和L2正則化

機器學習損失函式、L1-L2正則化的前世今生

L1正則化和L2正則化

NN模型設定--L1/L2正則化

訓練過程--正則化(regularization)技巧(包括L2正則化、dropout，資料增廣，早停)

L1、L2正則化

相關推薦