本文關注：對於神經網路（主要是全連線網路+SGD）的學習訓練，標準化有什麼好處（加速收斂），以及為什麼有這樣的好處。本文觀點大多總結自lecun98年的論文：Efficient BackProp，詳情請參考原論文。翻譯以及總結過程如有疏漏，歡迎指教。另需說明的是：神經網路模型多變複雜，這裡多是對於一般情況的啟發性討論，實際使用中需要具體情況具體分析（例如影象領域大多僅減均值，不除方差）。

什麼是標準化

在機器學習領域中，標準化(standardization)是預處理（preprocessing）的常見步驟之一。其操作為減均值除方差，生成的分佈均值為0方差為1，其公式為：

x_{i} = \frac{x_{i} - μ_{i}}{δ_{i}} (μ_{i} = \frac{\sum_{j = 1}^{N} x_{i}^{(j)}}{N}, δ_{i}^{2} = \frac{\sum_{i = 1}^{N} (x_{i}^{(j)} - μ_{i})^{2}}{N - 1})

其中

x_{i}

表示輸入

x

的第

i

維，

x_{i}^{(j)}

表示訓練集中第

j

個樣本的第

i

維的值，訓練集中總共有

N

個樣本，

μ_{i}, δ_{i}

為訓練集預估的第

i

維的均值和方差。

為什麼需要標準化

簡要地說，為了保證網路可以良好的收斂，在不清楚各個維度的相對重要程度之前，標準化使得輸入的各個維度分佈相近，從而允許我們在網路訓練過程中，對各個維度“一視同仁”（即設定相同的學習率、正則項係數、權重初始化、以及啟用函式）。反過來，當我們使用全域性相同的學習率、權重初始化、以及啟用函式等網路設定時，方差更大的維度將獲得更多的重視。

網路設定, BP, SGD簡介

具體地，考慮單層全連線網路的情況

y = W x + b \Leftrightarrow y_{i} = \sum_{j = 1}^{n} w_{i j} x_{j} + b_{i} = w_{i}^{T} x + b

，SGD等基於BP一階梯度的優化演算法的常見形式為

\frac{\partial L}{\partial W} = \frac{\partial L}{\partial y} x^{T} \Leftrightarrow \frac{\partial L}{\partial w_{i}} = \frac{\partial L}{\partial y_{i}} x W = W - η \frac{\partial L}{\partial W} = W - η \frac{\partial L}{\partial y} x^{T} \Leftrightarrow w_{i} = w_{i} - η \frac{\partial L}{\partial w_{i}} = w_{i} - η \frac{\partial L}{\partial y_{i}} x

其中

w_{i}

為引數矩陣

W

的第

i

行元素組成的向量（即第

i

行的轉置），

x_{i}, y_{i}

分別為輸入

x

輸出

y

神經網路訓練技巧討論：為什麼需要標準化

什麼是標準化

為什麼需要標準化

網路設定, BP, SGD簡介

神經網路訓練技巧討論：為什麼需要標準化

神經網路訓練技巧討論：如何選取batch size

為什麼使用神經網路訓練得到的語言模型不需要做資料平滑

深度學習神經網路訓練調參技巧

深度神經網路訓練的技巧

AndrewNg機器學習第四周作業：關於使用邏輯迴歸、神經網路訓練資料並應用之的心得

【資料極客】Week3_訓練深度神經網路的技巧

python資料分析與挖掘實戰筆記二：第99頁神經網路訓練出現的錯誤'Some keys in session_kwargs are not supported at this time: %s'

TensorFlow官方文件樣例——三層卷積神經網路訓練MNIST資料

#####好好好好####Keras深度神經網路訓練分類模型的四種方法

【opencv3--ANN神經網路訓練識別OCR資料集】

Tensorpack，一個基於TensorFlow的神經網路訓練介面，原始碼包含很多示例

TensorFlow遊樂園介紹及其神經網路訓練過程

神經網路訓練中,傻傻分不清Epoch、Batch Size和迭代

神經網路訓練中Epoch、batch_size、iterator的關係

將神經網路訓練成一個“放大鏡”

BP神經網路——訓練一個加法運算

神經網路訓練中-Epoch、Batch Size和迭代

cs231n斯坦福基於卷積神經網路的CV學習筆記（二）神經網路訓練細節

深度學習入門——利用卷積神經網路訓練CIFAR—10資料集