【機器學習trick】Batch-Normalization的理解和研究

阿新 • • 發佈：2019-01-13

Batch-Normalization概述

15年穀歌發表了一篇文章，名字是《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》，文章介紹了一種新的深度學習演算法，可以有效的提高模型的效率和精度。
在介紹原理之前，首先要提一下關於資料分佈的問題。我們在使用機器學習訓練資料的時候，一般都會對資料進行歸一化（？）白化（？）或者減去均值等操作，這是因為
將資料分佈中心移到原點附近，能使函式更快的擬合，加快訓練速度。

（關於歸一化的問題將另寫一篇文章討論），那麼我們就會發現一個問題，經過神經網路一層的計算後，得到的輸出的分佈又發生了變化，文中稱這種情況為Internal Covariate Shift，所以這會對後面的處理產生效率和精度方面的影響，BN的作用其實就是在網路內部對資料再次進行標準化，物件是已經提取出來的特徵。
總之BN的優點非常多，包括收斂速度快，泛化能力強等，給使用者帶來的優勢就是更節省時間，而且可以一定程度上擺脫dropout和L2 正則化等糾正過擬合的trick，當然具體的效果還是要根據自己實驗的資料來判定。

BN基本原理

首先考慮的問題是我們如何處理神經網路內部的資料，理論上來說直接做一次標準化就可以，但是文章中提出這麼做的話會影響模型的表達能力，如圖中表示。假設是模型使用的啟用函式是sigmoid函式，標準化以後就相當於把資料限定在了函式的線性部分，其他部分都被忽略掉了。

所以作者重構了一下原來的公式，使其可以表達提取的特徵，
這裡寫圖片描述
BN層的前向傳導過程
BNFF
具體的細節以後補充

【機器學習trick】Batch-Normalization的理解和研究

Batch-Normalization概述

BN基本原理

【機器學習trick】Batch-Normalization的理解和研究

【機器學習筆記】：一文讓你徹底理解準確率，精準率，召回率，真正率，假正率，ROC/AUC

【機器學習基礎】理解為什麼機器可以學習1——PAC學習模型

【機器學習基礎】理解為什麼機器可以學習——Hoeffding不等式

【機器學習筆記】第二章：模型評估與選擇

【機器學習實戰】第13章利用 PCA 來簡化數據

【機器學習筆記】自組織映射網絡（SOM）

【機器學習實戰】樸素貝葉斯

【機器學習模型】整合學習總結

【機器學習八】決策數

【機器學習七】利用K-means壓縮圖片

【機器學習六】貝葉斯NB

【機器學習五】KNN

【機器學習四】SVM

【機器學習三】梯度下降法K-means優化演算法

【機器學習二】梯度下降法KMeans

【機器學習實戰】FP-growth演算法詳解

【機器學習123】緒論

【機器學習123】模型評估與選擇 (上)

【機器學習筆記】線性迴歸之最小二乘法

【機器學習trick】Batch-Normalization的理解和研究

Batch-Normalization概述

BN基本原理

相關推薦