【深度學習理論】正則化方法：L1、L2、資料擴增、Dropout

阿新 • • 發佈：2019-01-18

正則化

在訓練資料不夠多時，或者過度訓練時，常常會導致overfitting（過擬合）。隨著訓練過程的進行，模型複雜度增加，在train data上的error漸漸減小，但是在驗證集上的error卻反而漸漸增大。因為訓練出來的網路過擬合了訓練集，對訓練集外的資料卻不不好。在大多數的實際情況中，訓練集與測試集難以完全符合相同資料分佈規律。
這裡寫圖片描述
在實際資料中一般會劃分為三個資料集：train data、validation data、test data。其中train data決定了模型的內部引數（梯度下降），根據validation data確定early stop的batch以及learning date

，而test data確定accuracy來判斷模型魯棒性。

L1-norm

在原始的代價函式後面加一個代價項，這個代價項屬於一範數，即全部權重w的絕對值的和，然後除以總數n，再乘以係數λ。代價函式是關於權重的，因此通過對權重進行求導，可以得到在權重上的梯度值，根據梯度值去更新權值，使得代價函式找到極小值點。
這裡寫圖片描述

首先對權重求偏導，其中sgn()是符號函式，表示每一個權重項的正負。
這裡寫圖片描述
權重更新過程為：

對於第二項 $\frac{η λ}{n} s g n (w)$ ，當權值 $w$ 為負數的時候，第二項會導致式子變大，也就是趨於0；當權值 $w$ 為正數的時候，第二項會導致式子變小，也就是趨於0。總之使權重的絕對值儘量小。當權值為0的時候， $w$

w

是不可導的，所以會去除第二項然後對權值進行更新，因此只需要使sgn(0)=0即可。L1正則化可以產生稀疏權值矩陣，即產生一個稀疏模型，可以用於特徵選擇。原先的費用函式在x=0處導數不為0，那麼L2正則項後的導數也不是0。但是L1正則項的係數只要大於原先原先費用函式在0的導數，更新後就會在0處變為極小值，從而使一部分引數的最優值變為0。（簡單地說，L1可以懲罰到0）

L2-norm

L2正則化是在原始代價函式後面新增二範數，也叫做懲罰項，對權值進行控制。係數中的1/2是為了抵消在代價函式求導的時候的出現的係數2。
這裡寫圖片描述
首先對上面的代價函式分別對權值 $w$ 和 $b$ 求偏導數：

因此L2正則化項只對權值的更新會產生影響。權值更新方程為：

如果設定

λ = 0

，也就是不設定正則化項，那麼權值係數為1，是沒有影響，如果非0，那麼

\frac{η λ}{n}

為正，則權重

w

會變小。因此叫做權重衰減（weight decay）。對於mini-batch，如下：
這裡寫圖片描述

L2正則化可以防止模型過擬合（overfitting）；一定程度上，L1也可以防止過擬合。

為什麼要減小權重來避免過擬合？
更小的權值w，從某種意義上說，表示網路的複雜度更低，對資料的擬合剛剛好（這個法則也叫做奧卡姆剃刀），而在實際應用中，也驗證了這一點，L2正則化的效果往往好於未經正則化的效果。過擬合的時候，擬合函式的係數往往非常大，如下圖所示，過擬合，就是擬合函式需要顧忌每一個點，最終形成的擬合函式波動很大。在某些很小的區間裡，函式值的變化很劇烈。這就意味著函式在某些小區間裡的導數值（絕對值）非常大，由於自變數值可大可小，所以只有係數足夠大，才能保證導數值很大。
這裡寫圖片描述

Dropout

Dropout是通過修改神經網路本身來實現的，它是在訓練網路時用的一種技巧。初始化網路結構如下：
這裡寫圖片描述
然後在隱藏層進行隨機遺忘，如下圖：

運用了dropout的訓練過程，相當於訓練了很多個只有半數隱層單元的神經網路（後面簡稱為“半數網路”），每一個這樣的半數網路，都可以給出一個分類結果，這些結果有的是正確的，有的是錯誤的。隨著訓練的進行，大部分半數網路都可以給出正確的分類結果，那麼少數的錯誤分類結果就不會對最終結果造成大的影響。

資料擴增方案

1.影象旋轉對稱變換
2.隨機新增噪聲
3.做彈性畸變
4.GAN生成

【深度學習理論】正則化方法：L1、L2、資料擴增、Dropout

正則化

L1-norm

L2-norm

Dropout

資料擴增方案

【深度學習理論】正則化方法：L1、L2、資料擴增、Dropout

機器學習 - 正則化方法：L1和L2 regularization、資料集擴增、dropout

正則化方法：L1和L2 regularization、資料集擴增、dropout

【Ian Goodfellow課件】深度學習中的正則化

【機器學習】正則化方法

【學習筆記】正則化

資深程序員帶你玩轉深度學習中的正則化技術（附Python代碼）！

【JS學習筆記】正則表示式

AI聖經-深度學習-讀書筆記（七）-深度學習中的正則化

【Linux學習四】正則表示式

【深度學習理論】一文看懂卷積神經網路

【爬蟲學習1】正則表示式加Requests爬取貓眼電影排行

機器學習中的正則化方法

【機器學習】正則化的線性迴歸 —— 嶺迴歸與Lasso迴歸

【轉】正則化相關鏈接

深度學習基礎--正則化與norm--L1範數與L2範數的聯絡

【深度學習系列】CNN模型的視覺化

【深度學習筆記】關於卷積層、池化層、全連線層簡單的比較

【程式語言學習——python】正則表示式小作業

吳恩達深度學習筆記(34)-你不知道的其他正則化方法

【深度學習理論】正則化方法：L1、L2、資料擴增、Dropout

正則化

L1-norm

L2-norm

Dropout

資料擴增方案

相關推薦