1. 程式人生 > >L1、L2正則化

L1、L2正則化

過擬合:對於訓練集擬合效果非常好,但是對於訓練集以外的資料集擬合效果不好。通常發生在變數(特徵)較多的情況,也就是說曲線儘可能的滿足訓練資料集,導致無法泛化(泛化是指模型能夠應用到新樣本的能力)到新資料集中。解決辦法:減少樣本特徵、正則化(通常新增L2正則化)

欠擬合:模型沒有沒有很好的捕捉到資料特徵,不能夠很好的擬合數據。與過擬合是相反的。其解決辦法:新增其他特徵項、新增多項式特徵、減少正則化引數。

第一張圖表示欠擬合,可以看出很多類別被分類錯誤。

第二張圖表示擬合,就是擬合效果比較好。

第三張圖表示過擬合,在此資料集上擬合效果非常好,可以想象一下,其在實際應用中效果將會非常差。

            (正則化代價函式)=(經驗代價函式)+(正則化引數)X(正則化項)  

            經驗代價函式是實際與預測的誤差,我們不僅需要訓練誤差小,還想要測試誤差小,因此引入第二項正則化約束函式,使得模型儘量簡單。

Q1:什麼叫做正則化?

    L0正則化:表示矩陣中非0元素的個數。簡單粗暴的來說就是要是引數w稀疏,但是其往往難以求最優解,因此通常使用L1正則化進行稀疏。

   L1正則化:是指各個元素的絕對值之和。Lasso Regularization,其是L0正規化的最優凸近似。

   L2正則化:是指各個元素的平方和再求平方根。防止過擬合。

Q2:L0、L1為什麼能實現稀疏,為什麼需要稀疏?

     我們在進行訓練模型的時候,特徵中部分特徵對實際的預測輸出並沒有貢獻,因此在預測新樣本時,將會對預測輸出造成影響。稀疏規則化運算元的約束就是為了完成特徵自動選擇,去掉對預測無用的特徵,也就是說將這些無用的特徵的權值設定為0。令一個方面新增稀疏正則化能夠更好的解釋模型。舉個例子來說,假如預測病人是否患有癌症,其影響的因素有,飲食口味、家族病史、睡眠質量、運動情況、性別、年齡、文化程度等等,最後通過學習,我們發現只有飲食口味、家族病史和睡眠質量影響是否患癌,也就是說其他的運動情況、性別、年齡、文化程度等特徵權重為0,這樣就能夠簡化我們的預測模型。

     以下這張圖能夠解釋為什麼L1正則化能夠實現稀疏。這是一個二維情況,就是四個突出點,多維情況下,會有更多的凸點,在這些凸點中會有權重為0的情況,其中(0,w2)這個點與代價函式相交,此時為最優解。


Q3:L2正則化為什麼能防止過擬合?

  L2正則化其為各個元素的平方和再開方,以下為二維情況,可以看出去曲線是沒有菱角的,為平滑的,這個時候最優解中使得w1或w2為0的情況機率較小,因此其是不具有稀疏性的。

         過擬合傾向的是將權值減小這樣在測試新資料時,誤差將不會偏差較大,想象一下,當每個特徵變數的權重減小時,那麼每個特徵值相差較大時,其結果也將不會影響較大,這就是抗干擾能力。

     

相關推薦

L1L2

過擬合:對於訓練集擬合效果非常好,但是對於訓練集以外的資料集擬合效果不好。通常發生在變數(特徵)較多的情況,也就是說曲線儘可能的滿足訓練資料集,導致無法泛化(泛化是指模型能夠應用到新樣本的能力)到新資料集中。解決辦法:減少樣本特徵、正則化(通常新增L2正則化) 欠擬合:模型

深入理解L1L2原理與作用

art ida 似的 得來 .net 最優化問題 比較 nor 多維 過節福利,我們來深入理解下L1與L2正則化。 1 正則化的概念 正則化(Regularization) 是機器學習中對原始損失函數引入額外信息,以便防止過擬合和提高模型泛化性能的一類方法的統稱。也就是

泛化能力訓練集測試集K折交叉驗證假設空間欠擬合與過擬合L1L2超引數

泛化能力(generalization): 機器學習模型。在先前未觀測到的輸入資料上表現良好的能力叫做泛化能力(generalization)。 訓練集(training set)與訓練錯誤(training error): 訓練機器學習模型使用的資料集稱為訓練集(tr

機器學習之路: python線性回歸 過擬合 L1L2

擬合 python sco bsp orm AS score 未知數 spa git:https://github.com/linyi0604/MachineLearning 正則化: 提高模型在未知數據上的泛化能力 避免參數過擬合正則化常用的方法: 在目

L1L2直觀理解

正則化是用於解決模型過擬合的問題。它可以看做是損失函式的懲罰項,即是對模型的引數進行一定的限制。 應用背景: 當模型過於複雜,樣本數不夠多時,模型會對訓練集造成過擬合,模型的泛化能力很差,在測試集上的精度遠低於訓練集。 這時常用正則化來解決過擬合的問題,常用的正則化有L1正則化和L2

L1L2

正則化引入的思想其實和奧卡姆剃刀原理很相像,奧卡姆剃刀原理:切勿浪費較多東西,去做,用較少的東西,同樣可以做好的事情。 正則化的目的:避免出現過擬合(over-fitting) 經驗風險最小化 + 正則化項 = 結構風險最小化 經驗風險最小化(ERM),是為了讓擬合的誤差足夠小,即:對訓

L1L2L1為什麼能產生稀疏值,L2更平滑

參考部落格:https://zhuanlan.zhihu.com/p/35356992      https://zhuanlan.zhihu.com/p/25707761      https://www.zhihu.com/question/37096933/answer/70426653   首先

L1L2

在機器學習中,我們茶廠聽到L1和L2正則化,用他們來防止過擬合,但是在什麼情況下使用它們和它們的原理是什麼樣的可能一知半解。所以在本部落格中將對L1和L2做簡單的介紹和應用場景。 如果引數過多,模型過於複雜,容易造成過擬合(overfit)。即模型在訓練樣本資料上表現的很好

L1L2 項詳解 - 解空間先驗分佈最大似然估計 and 最大後驗估計

L1、L2 正則項詳解(解空間、先驗分佈) 引入 直觀看 解空間 先驗分佈 最大似然估計 最大後驗估計 引入 線上性迴歸

【通俗易懂】機器學習中 L1L2 的直觀解釋

機器學習中,如果引數過多,模型過於複雜,容易造成過擬合(overfit)。即模型在訓練樣本資料上表現的很好,但在實際測試樣本上表現的較差,不具備良好的泛化能力。為了避免過擬合,最常用的一種方法是使用使用正則化,例如 L1 和 L2 正則化。但是,正則化項是如

神經網路中的過擬合的原因及解決方法泛化能力L2

過擬合:訓練好的神經網路對訓練資料以及驗證資料擬合的很好,accuracy很高,loss很低,但是在測試資料上效果很差,即出現了過擬合現象。 過擬合產生的原因: (1)資料集有噪聲 (2)訓練資料不足 (3)訓練模型過度導致模型非常複雜 解決方法: (1)降低模型

dropout和L1L2的理解筆記

理解dropout from http://blog.csdn.net/stdcoutzyx/article/details/49022443 123 開篇明義,dropout是指在深度學習網路的訓練過程中,對於神經網路單元,按照一定的概率將其暫時從網路

機器學習筆記(二)L1L2

2.正則化 2.1 什麼是正則化? (截自李航《統計學習方法》) 常用的正則項有L1,L2等,這裡只介紹這兩種。 2.2 L1正則項 L1正則,又稱lasso,其公式為: ​ L1=α∑kj=1|θj| 特點:約束θj的大小,並且可以產

L1L2(Regularization )簡介

過擬合就是隨著模型的複雜度的增加,訓練集上的正確率很高error很小,訓練集擬合的非常好,但是在測試集上面的錯誤率卻越來越高,效果很差,即模型的泛化能力很差; 而正則化是通過約束引數的範數使其不要太

L1L2區別

1. L1和L2的定義 L1正則化,又叫Lasso Regression 如下圖所示,L1是向量各元素的絕對值之和 L2正則化,又叫Ridge Regression 如下圖所示,L2是向量各元素的平方和 2. L1和L2的異同點 相同點:都用於避免過擬合 不同點:L

批歸一(Batch Normalization)L1L2

from: https://www.cnblogs.com/skyfsm/p/8453498.html https://www.cnblogs.com/skyfsm/p/8456968.html BN是由Google於2015年提出,這是一個深度神經網路訓練的技巧,它不僅可以加快了

機器學習損失函式L1-L2的前世今生

前言: 我們學習一個演算法總是要有個指標或者多個指標來衡量一下算的好不好,不同的機器學習問題就有了不同的努力目標,今天我們就來聊一聊迴歸意義下的損失函式、正則化的前世今生,從哪裡來,到哪裡去。 一.L1、L2下的Lasso Regression和Ridg

L1L2

在機器學習中,我們非常關心模型的預測能力,即模型在新資料上的表現,而不希望過擬合現象的的發生,我們通常使用正則化(regularization)技術來防止過擬合情況。正則化是機器學習中通過顯式的控制模型複雜度來避免模型過擬合、確保泛化能力的一種有效方式。如果將模型原始的假設空間比作“天空”,那麼天空飛翔的“鳥

NN模型設定--L1/L2

正則化的理解   規則化函式Ω有多重選擇,不同的選擇效果也不同,不過一般是模型複雜度的單調遞增函式——模型越複雜,規則化值越大。   正則化含義中包含了權重的先驗知識,是一種對loss的懲罰項(regularization term that penalizes paramete

訓練過程--(regularization)技巧(包括L2dropout,資料增廣,早停)

正則化(regularization)   正則化是解決高方差問題的重要方案之一,也是Reducing Overfiltering(克服過擬合)的方法。   過擬合一直是DeepLearning的大敵,它會導致訓練集的error rate非常小,而測試集的error rate大部分時候很