神經網路訓練的一些建議（Batch Normalization）

阿新 • • 發佈：2019-01-21

資料的歸一化

先放上巨集毅大神的圖，說明一下我們為什麼要做資料的歸一化

說明：x2的變化比較大，使用w2方向上就顯得比較陡峭（梯度），學習率就不能設定得過大。

Batch Normalization

為什麼要有batch normalization

主要是避免internal covariate shift，如圖所示，輸出上下波動太大（如同第二個人）的話會影響整個模型的訓練，第二個人告訴第二個人話筒放低點，第三個人告訴第二個人放高點，如果你的步長過大的話就會變成第二個圖，跟沒訓練一樣，所以最開始為了解決這樣的狀況，會考慮把學習率放小點，但這樣網路就會變得比較慢。所以bn就可以把每一層的輸出的變化都變小。訓練也會變快，我們也就能訓練更加深層的神經網路。

這邊吳恩達的解釋也是異曲同工：
Batch歸一化減少了輸入值改變的問題，它的確使這些值變得更穩定，神經網路的之後層就會有更堅實的基礎。即使使輸入分佈改變了一些，它會改變得更少。它做的是當前層保持學習，當改變時，迫使後層適應的程度減小了，你可以這樣想，它減弱了前層引數的作用與後層引數的作用之間的聯絡，它使得網路每層都可以自己學習，稍稍獨立於其它層，這有助於加速整個網路的學習。

所以，希望這能帶給你更好的直覺，重點是Batch歸一化的意思是，尤其從神經網路後層之一的角度而言，前層不會左右移動的那麼多，因為它們被同樣的均值和方差所限制，所以，這會使得後層的學習工作變得更容易些。
Batch歸一化還有一個作用，它有輕微的正則化效果。

測試時的batchnorm

我們使用指數平均的方法計算每一個batch的平均值

神經網路訓練的一些建議（Batch Normalization）

資料的歸一化

Batch Normalization

測試時的batchnorm

神經網路訓練的一些建議（Batch Normalization）

神經網路訓練中-Epoch、Batch Size和迭代

[kaggle系列四] 通過mnist來研究神經網路的一些細節（1）

【深度學習】批歸一化（Batch Normalization）

深度學習 --- 神經網路的學習原理（學習規則）

批歸一化（Batch Normalization）、L1正則化和L2正則化

批標準化（Batch Normalization）、Tensorflow實現Batch Normalization

CNN 中的BN（batch normalization）“批歸一化”原理

TensorFlow 中的正則化（Batch Normalization）詳解和實現程式碼

神經網路模型學習筆記（ANN,BPNN）

卷積神經網路改進想法初探（上篇）

3.1 Tensorflow: 批標準化（Batch Normalization）

BP神經網路迴歸預測模型（python實現）

神經網路例程-使用（3-1）結構的神經網路實現與、或、異或三種邏輯運算

BN（Batch Normalization）在TensorFlow的實現

神經網路訓練中,傻傻分不清Epoch、Batch Size和迭代

改善深層神經網路——超引數除錯、Batch正則化和程式框架（7）

cs231n斯坦福基於卷積神經網路的CV學習筆記（二）神經網路訓練細節

斯坦福CS231n計算機視覺-神經網路訓練細節（1）

加速神經網路訓練（Speed UpTraining)

神經網路訓練的一些建議（Batch Normalization）

資料的歸一化

Batch Normalization

測試時的batchnorm

相關推薦