神經網絡相關名詞解釋

阿新 • • 發佈：2018-09-02

變量名詞情況效果網絡相關 1.2 記憶自變量 tle

神經網絡相關名詞解釋

這篇文章的目的是把之前概念理解的名詞用公式記憶一下。

1. 正則化

1.0 過擬合

這是正則化主要解決的問題。 過擬合現象主要體現在accuracy rate和cost兩方面： 1.模型在測試集上的準確率趨於飽和而訓練集上的cost仍處於下降趨勢 2.訓練集數據的cost趨於下降但測試集數據的cost卻趨於飽和或上升

1.1 L2正則化

L2正則化就是在代價函數後面再加上一個正則化項：

技術分享圖片

C_0代表原始的代價函數，後面那一項就是L2正則化項，它是這樣來的：所有參數w的平方的和，除以訓練集的樣本大小n。λ就是正則項系數，權衡正則項與C_0項的比重。另外還有一個系數1/2，1/2經常會看到，主要是為了後面求導的結果方便

，後面那一項求導會產生一個2，與1/2相乘剛好湊整。

L2正則化項是怎麽避免overfitting的呢？我們推導一下看看，先求導：

技術分享圖片

可以發現L2正則化項對b的更新沒有影響，但是對於w的更新有影響:

技術分享圖片

在不使用L2正則化時，求導結果中w前系數為1，現在w前面系數為 1?ηλ/n ，因為η、λ、n都是正的，所以 1?ηλ/n小於1，它的效果是減小w，這也就是權重衰減（weight decay）的由來。當然考慮到後面的導數項，w最終的值可能增大也可能減小。

另外，需要提一下，對於基於mini-batch的隨機梯度下降，w和b更新的公式跟上面給出的有點不同：

技術分享圖片

對比上面w的更新公式，可以發現後面那一項變了，變成所有導數加和，乘以η再除以m，m是一個mini-batch中樣本的個數。

到目前為止，我們只是解釋了L2正則化項有讓w“變小”的效果，但是還沒解釋為什麽w“變小”可以防止overfitting？一個所謂“顯而易見”的解釋就是：更小的權值w，從某種意義上說，表示網絡的復雜度更低，對數據的擬合剛剛好（這個法則也叫做奧卡姆剃刀），而在實際應用中，也驗證了這一點，L2正則化的效果往往好於未經正則化的效果。

當然，對於很多人（包括我）來說，這個解釋似乎不那麽顯而易見，所以這裏添加一個稍微數學一點的解釋（引自知乎）：

過擬合的時候，擬合函數的系數往往非常大，為什麽？如下圖所示，過擬合，就是擬合函數需要顧忌每一個點，最終形成的擬合函數波動很大。在某些很小的區間裏，函數值的變化很劇烈。這就意味著函數在某些小區間裏的導數值（絕對值）非常大，由於自變量值可大可小，所以只有系數足夠大，才能保證導數值很大。

技術分享圖片

而正則化是通過約束參數的範數使其不要太大，所以可以在一定程度上減少過擬合情況。

1.2 L1正則化

在原始的代價函數後面加上一個L1正則化項，即所有權重w的絕對值的和，乘以λ/n（這裏不像L2正則化項那樣，需要再乘以1/2，具體原因上面已經說過。）

技術分享圖片

同樣先計算導數：

技術分享圖片

上式中sgn(w)表示w的符號。那麽權重w的更新規則為：

技術分享圖片

比原始的更新規則多出了η * λ * sgn(w)/n這一項。當w為正時，更新後的w變小。當w為負時，更新後的w變大——因此它的效果就是讓w往0靠，使網絡中的權重盡可能為0，也就相當於減小了網絡復雜度，防止過擬合。

另外，上面沒有提到一個問題，當w為0時怎麽辦？當w等於0時，|W|是不可導的，所以我們只能按照原始的未經正則化的方法去更新w，這就相當於去掉η*λ*sgn(w)/n這一項，所以我們可以規定sgn(0)=0，這樣就把w=0的情況也統一進來了。（在編程的時候，令sgn(0)=0,sgn(w>0)=1,sgn(w<0)=-1）

神經網絡相關名詞解釋

變量名詞情況效果網絡相關 1.2 記憶自變量 tle 神經網絡相關名詞解釋這篇文章的目的是把之前概念理解的名詞用公式記憶一下。 1. 正則化 1.0 過擬合這是正則化主要解決的問題。過擬合現象主要體現在accuracy rate和cost兩方面： 1.模型在

神經網絡相關名詞解釋

神經網絡相關名詞解釋

1. 正則化

1.0 過擬合

1.1 L2正則化

1.2 L1正則化

神經網絡相關名詞解釋

編程語言相關名詞解釋匯總

python之類的相關名詞解釋

Java開發相關名詞解釋 Java開發學習

領域相關名詞解釋

《數據庫系統概論》相關名詞解釋

webservice相關名詞解釋

Jmeter相關名詞解釋

java開發環境及相關名詞解釋

Arch Linux 獨特的包管理器相關名詞解釋及用法對照

貝葉斯分類器，隨機森林，梯度下載森林，神經網絡相關參數的意義和data leakage

AI相關 TensorFlow -卷積神經網絡踩坑日記之一

JavaSE--【轉】網絡安全之證書、密鑰、密鑰庫等名詞解釋

C++卷積神經網絡實例：tiny_cnn代碼具體解釋（6）——average_pooling_layer層結構類分析

神經網絡的相關知識(1.python 實現MLp)

MATLAB神經網絡訓練結果各參數解釋

卷積神經網絡-解釋1

網絡名詞解釋

二、大資料相關的幾個名詞解釋

股票相關常用名詞解釋

神經網絡相關名詞解釋

神經網絡相關名詞解釋

1. 正則化

1.0 過擬合

1.1 L2正則化

1.2 L1正則化

相關推薦