# [cs231n （七）神經網路 part 3 : 學習和評估 ][1]

阿新 • • 發佈：2018-12-11

標籤（空格分隔）：神經網路

0.回顧

cs231n （一）影象分類識別講了KNN
cs231n （二）講了線性分類器：SVM和SoftMax
cs231n （三）優化問題及方法
cs231n （四）反向傳播
cs231n （五）神經網路 part 1:構建架構
cs231n （六）神經網路 part 2:傳入資料和損失

1.引言

之前入門了一個兩層的神經網路，基本就是網路框架，現在就需要好好優化網路了，來開啟電腦開幹哈、、、麼麼噠~

2. 梯度檢驗

意不意外、驚不驚喜？我有出現了、
其實這裡就一點：用中心化公式更好

$\displaystyle \frac{df(x)}{dx}=\frac{f(x+h)-f(x)}{h} (bad)$

d x d f ( x ) = h f ( x + h ) - f ( x ) (b a d)

按照定義h是一個趨近於零的數值，目前計算機的能力下：近似為1e-5

$\displaystyle \frac{df(x)}{dx}=\frac{f(x+h)-f(x-h)}{2h}(instead)$

反正目前來說就是：費力（耗費計算能力）不討好！

關於梯度檢驗我們需要掌握幾點：

使用雙精度計算會降低誤差
目標函式不可導的時候也會影響梯度精度的
使用資料少點：笨啊，因為這樣不可導的資料點就越少啊
梯度檢驗期間最好是不要使用正則化

不要使用dropout和資料增強（augmentation）
等待梯度開始下降後再開始梯度檢查
檢查部分維度：假設其他維度是正確的
步長h的設定：一般是1e-4 ----> 1e-6 為什麼？

看了這張圖就知道為什麼了。

3. 做到：合理性檢查

特定情況下的損失值應該合理
是否是因為提高了正則化強度之後導致的損失值變大
小資料的過擬合：不要用正則化，使用20個數據應該能達到損失是零

4. 接下來檢查整個學習過程

其實就是跟蹤一些重要的引數，從而達到修改超引數的便利，比如：每個epoch的loss

1. 損失函式

損失值跟蹤： 可以得到不同學習率下的損失值變化情況

左邊：不同學習率下的loss變化，右邊：隨著epochloss的變化

loss震盪程度和batch size有關係哦，當size=1 震盪程度就會很大，當size=N也就是整個資料，那麼震盪最小

2. 訓練和驗證集精度

緊接著需要跟蹤的另一個指標就是：驗證和訓練集的準確率，看下圖

訓練集和驗證集之間的空隙說明：模型的過擬合程度 驗證集的準確率很低，說明模型嚴重過擬合，此時應該增大正則化強度（正則化項、dropout、增加資料）

再則就是驗證曲線和訓練曲線很接近，說明模型容量太小，應該增加引數數量。

3. 權重更新

最後一個指標就是：權重值更新了的數量和全部值的比

這個比例應該在1e-3左右，如果小，說明學習率小，如如果大，說明學習率太大。

# assume parameter vector W and its gradient vector dW
param_scale = np.linalg.norm(W.ravel())
update = -learning_rate*dW # simple SGD update
update_scale = np.linalg.norm(update.ravel())
W += update # the actual update
print update_scale / param_scale # want ~1e-3

4. 層啟用數及梯度分佈情況

初始化問題，梯度消失或者nan值，解決辦法：得到網路中所有層的啟用資料及梯度分佈，觀測資料結果，我們看一下下面的圖就知道了。

對於影象資料，我們視覺化第一層特徵。

左邊：特徵亂七八糟，網路應該是沒有收斂，學習率不當，正則化權重太低
右邊：特徵明顯，種類多，好圖。

5. 引數更新

當我們使用BP計算梯度以後，梯度就可以更新了，那麼如何更新呢？

1. 隨機梯度下降

一般更新沿著負梯度調參
x += - learning_rate * dx 比如： $\alpha$ = 0.05
動量更新新方法，在深度學習中總是能快速收斂
從物理角度講，想象一座高山，高度勢能是U=mgh，so： $U\propto h$

質點所受的力與梯度的能量 $（F=-\nabla U）$ 有關，**其實就是保守力就等於勢能的負梯度！！！**物理專業的驕傲哈哈、

而又因為： $F = ma$ 所以有：

# 動量法
v = mu * v - learning_rate * dx # 融合速度
x += v # 融合位置

引入引數 mu和v , 前者就是動量咯，最後結論：mu = [0.5,0.9,0.95,0.99]
要注意mu不是恆定不變的，一般是從0.5慢慢提升至0.99

Nesterov動量 理論上更有比較好的支援，實踐下比上述動量還好。

當向量位於某個位置x時，mu * v 會輕微改變引數向量，因此計算梯度時，應該計算x + mu * v就更有意義？？？

動量將會把我們帶到綠色箭頭的位置，那麼應該再向前看一些。

就知道你聽的一頭霧水！

x_ahead = x + mu * v
# 計算dx_ahead(x_ahead處的梯度)
v = mu * v - learning_rate * dx_ahead
x += v

實際中改寫x_ahead = x + mu * v就懂了。

x += -mu * v_prev + (1 + mu) * v && v_prev = v
x += v

v_prev = v # back this up
v = mu * v - learning_rate * dx # velocity update stays the same
x += -mu * v_prev + (1 + mu) * v # position update changes form

2. 學習率退化

**隨epoch衰減：**一般是每5個epoch減少一半,看驗證集的錯誤率停止下降，就乘常數，降低學習率。
指數衰減： $\alpha=\alpha_0e^{-kt}$
1/t衰減： $\alpha=\alpha_0/(1+kt)$

$\alpha_0$ ,k:超引數，t:迭代次數
隨步數衰減的隨機失活（dropout）更受歡迎

3. 二階法

還有最優化方法是基於牛頓法的：

$\displaystyle x\leftarrow x-[Hf(x)]^{-1}\nabla f(x)$

其中 $Hf(x)$ 是Hessian矩陣，這裡是沒有學習率這個引數或者說概念的，這個方法啊，少用。

4. 逐層層自適應學習率:Adagrad、RMSprop

Adagrad：一個由Duchi等人提出適應學習率演算法

跟蹤每個引數的平方和，必須加平方根

接收到高梯度值的權重更新的效果被減弱，而接收到低梯度值的權重的更新效果將會增強

eps防止出現0的情況
缺點：學習率太激進，容易過早停止學習。

RMSprop 高效，且沒被髮表的適應性學習率法，Hinton coursera

就是去除了Adagrad的缺點，慢慢降低了學習率。

cache =  decay_rate * cache + (1 - decay_rate) * dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

超引數decay_rate，多用[0.9,0.99,0.999]

# Assume the gradient dx and parameter vector x
cache += dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

Adam RMSProp的動量版

m = beta1*m + (1-beta1)*dx
v = beta2*v + (1-beta2)*(dx**2)
x += - learning_rate * m / (np.sqrt(v) + eps)

論文中推薦的引數值eps=1e-8, beta1=0.9, beta2=0.999

RMSProp更新, 方法中的分母項, 所以動量類的可以繼續前進

6. 超引數優化

總結一下：

初始化學習率
學習率衰減
正則化強度

交叉驗證最好使用一個驗證集
超引數的範圍：learning_rate = 10 ** uniform(-6, 1) dropout=uniform(0,1)

隨機選擇好於網路搜尋

大範圍搜尋——————>>>貝葉斯超引數優化

7. 評估（整合模型）

提升準確率的辦法： 訓練獨立幾個模型，然後平均結果
模型設定多個記錄位點： 記錄網路值。
跑引數平均值：也可以提上幾個百分點，對網路的權重進行備份。

8. 總結

訓練網路：

小批量梯度檢查
小批量期間得到100%準確率
跟蹤損失準確率以及第一層權重視覺化
權重更新方法：SGD+Nesterov動量法，Adam法
學習率衰減
隨機搜尋超引數
整合模型（比賽得獎的幾乎都用了整合）

9. 附錄拓展

$(y-Xw)^T(y-Xw)$
$= (y^T-w^TX^T)(y-Xw)$
$= y^Ty + y^T - (w^TX^T)y + w^TX^T(Xw)$
$= y^Ty - y^T(Xw) - (Xw)^Ty + w^T(X^TX)w$
$= y^Ty - 2w^T(X^Ty) + w^T(X^TX)w$

$A^TB = B^TA ？$

# [cs231n （七）神經網路 part 3 : 學習和評估 ][1]

標籤（空格分隔）：神經網路 0.回顧 cs231n （一）影象分類識別講了KNN cs231n （二）講了線性分類器：SVM和SoftMax cs231n （三）優化問題及方法 cs231n （四）反向傳播 cs231n （五）神經網路 part 1:

# [cs231n （六）神經網路 part 2:傳入資料和損失 ][1]

標籤（空格分隔）：神經網路 0.回顧 cs231n （一）影象分類識別講了KNN cs231n （二）講了線性分類器：SVM和SoftMax cs231n （三）優化問題及方法 cs231n （四）反向傳播 cs231n （五）神經網路（part 1）

# [cs231n （八）神經網路總結：最小網路案例研究 ][1]

機器學習筆記（七）神經網路

神經網路神經網路神經元模型感知機與多層網路多層前饋神經網路（multi-layer feedforward neural networks）誤差逆傳播（error BackPropagation

cs231n斯坦福基於卷積神經網路的CV學習筆記（二）神經網路訓練細節

五，神經網路注意點part1 例項：邏輯迴歸二層神經網路訓練函式使用權重w和偏差值biase計算出第一個隱含層h，然後計算損失，評分，進行反向傳播回去多種常用啟用函式（一般預設max（0，x）），如sigmoid函式具有飽和區梯度0，非零點中心，計算x複

斯坦福cs231n學習筆記（11）------神經網路訓練細節（梯度下降演算法大總結/SGD/Momentum/AdaGrad/RMSProp/Adam/牛頓法）

神經網路訓練細節系列筆記：通過學習，我們知道，因為訓練神經網路有個過程: <1>Sample 獲得一批資料； <2>Forward 通過計算圖前向傳播，獲得loss； <3>Backprop 反向傳播計算梯度，這

斯坦福cs231n學習筆記（8）------神經網路訓練細節（資料預處理、權重初始化）

神經網路訓練細節系列筆記：這一篇，我們將繼續介紹神經網路訓練細節。一、Data Preprocessing（資料預處理）如圖是原始資料，資料矩陣X有三種常見的資料預處理形式，其中我們假定X的大小為[N×D]（N是資料的數量，D是它們的維數

pytorch入門（2）-------神經網路的構建

https://blog.csdn.net/broken_promise/article/details/81174760 一、神經網路的構建：激勵函式的選擇，如果層數較少的神經網路，激勵函式有多種選擇，在影象卷積神經網路中，激勵函式選擇ReLu，在迴圈神經網路中，選擇ReL或者Tanh。所有的層結

從零開始學習比特幣開發（七）-P2P網路建立流程之生成地址對並連線到指定地址

本節繼續講解比特幣P2P網路建立流程，這節講解的執行緒為’ThreadOpenAddedConnections’，它的作用是生成地址對並連線到指定地址。本文可以結合比特幣系統啟動的的第12步的講解來看，可以更加系統的瞭解比特幣系統啟動的過程。 P2P 網路的建立是在比特幣系統啟動的第

深度學習筆記（四）——神經網路和深度學習（淺層神經網路）

1.神經網路概覽神經網路的結構與邏輯迴歸類似，只是神經網路的層數比邏輯迴歸多一層，多出來的中間那層稱為隱藏層或中間層。從計算上來說，神經網路的正向傳播和反向傳播過程只是比邏輯迴歸多了一次重複的計算。正向傳播過程分成兩層，第一層是輸入層到隱藏層，用上標[1]來表示；第二層是隱藏層到輸出層，用上標

Keras搭建第一個分類（Classification）神經網路（mnist手寫體數字分類）

我們使用mnist資料集，這個資料集有手寫體數字0-9的圖片，一共10類，我們對這個資料集中的手寫體數字圖片進行分類。如果mnist資料集無法自動下載，可能是因為from keras.datasets import mnist自動下載資料集的網址被牆，請手動下載並按下面程式碼中註釋進行相應

機器學習筆記（六）神經網路引入及多分類問題實踐

一、神經網路引入我們將從計算機視覺直觀的問題入手，提出引入非線性分類器的必要性。首先，我們希望計算機能夠識別圖片中的車。顯然，這個問題對於計算機來說是很困難的，因為它只能看到畫素點的數值。應用機器學習，我們需要做的就是提供大量帶標籤的圖片作為訓練集，有的圖片是一輛車，有的圖片不是一輛車，最終我們

吳恩達《神經網路與深度學習》課程筆記歸納（二）-- 神經網路基礎之邏輯迴歸

上節課我們主要對深度學習（Deep Learning）的概念做了簡要的概述。我們先從房價預測的例子出發，建立了標準的神經網路（Neural Network）模型結構。然後從監督式學習入手，介紹了Standard NN，CNN和RNN三種不同的神經網路模型。接著介紹了兩種不

吳恩達《神經網路與深度學習》課程筆記歸納（三）-- 神經網路基礎之Python與向量化

上節課我們主要介紹了邏輯迴歸，以輸出概率的形式來處理二分類問題。我們介紹了邏輯迴歸的Cost function表示式，並使用梯度下降演算法來計算最小化Cost function時對應的引數w和b。通過計算圖的方式來講述了神經網路的正向傳播和反向傳播兩個過程。本節課我們將來

吳恩達機器學習筆記（5）—— 神經網路

本教程將教大家如何快速簡單的搭起一個自己的部落格，並不會系統的教會你如何建站，但是可以讓掌握建站的基礎對以後web學習有一定的幫助。購買一個域名域名就相當於地址，我們就是通過域名來訪問我們的網站，現在萬網和騰訊雲都有廉價域名賣，首年大概1-5元一年吧。

Note——Neural Network and Deep Learning （1）[神經網路與深度學習學習筆記（1）]

一、初學神經網路的體會正如書中作者說的神經網路可以被稱作最美的程式設計正規化之一，神經網路將我們需要解決的複雜問題，比如手寫字型分類，簡化成一個個簡單的步驟，而本人無需瞭解內部的具體結構引數變化等。關於神經網路已經有很多實用的庫，使用這些庫可以很快的解決問題。但是不滿

深度學習之PyTorch實戰（2）——神經網路模型搭建和引數優化

　　上一篇部落格先搭建了基礎環境，並熟悉了基礎知識，本節基於此，再進行深一步的學習。　　接下來看看如何基於PyTorch深度學習框架用簡單快捷的方式搭建出複雜的神經網路模型，同時讓模型引數的優化方法趨於高效。如同使用PyTorch中的自動梯度方法一樣，在搭建複雜的神經網路模型的時候，我們也可以使用PyTor

tensorflow課堂筆記（六）神經網路搭建的八股

""" 神經網路搭建的八股：前向傳播就是搭建網路，設計網路結構（forward.py） def forward(x, regularizer): w= b= y= return y def get_weight(shape, regular

機器學習（西瓜書）學習筆記（四）---------神經網路

1. 神經元模型神經網路/人工神經網路：由具有適應性的簡單單元組成的廣泛並行互連的網路。神經網路學習：機器學習和神經網路兩個學科交叉的部分。 Neural Networks中的基本單元：神經元。從電腦科學的角度，NN就是一個包含了大量引數的數學模型，該模型由若干個函式相互代入而

神經網路中embedding層作用——本質就是word2vec，資料降維，同時可以很方便計算同義詞（各個word之間的距離），底層實現是2-gram（詞頻）+神經網路

Embedding tflearn.layers.embedding_ops.embedding (incoming, input_dim, output_dim, validate_indices=False, weights_init='truncated_norm

# [cs231n （七）神經網路 part 3 : 學習和評估 ][1]

0.回顧

1.引言

2. 梯度檢驗

3. 做到：合理性檢查

4. 接下來檢查整個學習過程

1. 損失函式

2. 訓練和驗證集精度

3. 權重更新

4. 層啟用數及梯度分佈情況

5. 引數更新

1. 隨機梯度下降

2. 學習率退化

3. 二階法

4. 逐層層自適應學習率:Adagrad、RMSprop

6. 超引數優化

7. 評估（整合模型）

8. 總結

9. 附錄拓展

相關推薦