[論文閱讀] Batch Normalization: Accelerating Deep Network Training By Reducing Internal Covariate Shift

阿新 • • 發佈：2019-01-10

Background

存在什麼問題？
- 訓練深度神經網路是比較複雜的，因為每層輸入的分佈在訓練過程中都在變化。如果每層輸入的分佈在不停的變化，那我們就需要不停的調整我們的引數去補償這部分變化，這就使得訓練過程更加緩慢。
- 此外，由於分佈的變化使得使用saturating nonlinearity function變得更加難以訓練。
  - 首先我們區分什麼是saturating，什麼是non-saturating
    - non-saturating：如果一個函式 ${\lim_{x \to -\infty}f(x)\to-\infty}$ 或者是 ${\lim_{x \to +\infty}f(x) \to +\infty}$ 則 $f(x)$ 是non-saturating的。比如，ReLU
    - saturating：如果函式 $f(x)$ 不是non-saturating，則他就是saturating。比如，sigmoid
  - 接下來，為什麼saturating nonlinearity 難以訓練？因為他會面臨梯度消失問題。
    - 考慮以sigmoid為啟用函式的一層。 $z = g(Wu+b), g=\frac{1}{1+exp(-x)}$ 。
    - 當我們 $|x|$ 增長的時候，我們 $g^{'}(x)$ 趨近於0。這時候就可能會出現梯度消失問題。
    - 但是 $x$ 又被 $W, b$ 和之前layer的引數影響，所以有很大可能性梯度會比較小。
現存的有什麼解決方法？
- 資料分佈—白化操作，PCA Whitening
  - 我們可以在每一層輸入之前都使用白化操作將資料對映到0為中心，不同特徵之間具有相同方差的空間。
  - 但是這樣操作計算量很大，並且有時候是不可導的。因為在計算PCA Whitening的過程中，我們需要計算協方差矩陣 $\Sigma=\sum_{i=1}^{i=m}{x_i*x_i^T}$ ，然後再進行特徵值分解。這樣提取得到了特徵之間無關(decorrelated)的新特徵向量空間。
  - 所以，目前我們一般只在預處理階段使用白化操作。
- non-saturating nonlinearity—ReLU
  - 上面提到，我們使用saturating nonlinearity會導致梯度消失的問題，所以我們可以使用non-saturating nonlinearity來代替saturating nonlinearity。但是這樣並沒有從本質上改變資料的分佈。我們還是要調整parameter來補償輸入分佈的變化，這就使得我們的訓練更慢。

Method

為了normalized 資料分佈，並且簡化計算，使得處處可導。相對於PCA計算向量不同緯度之間的correlation，Batch Normalization 單獨normalized 特徵向量的每個緯度。這是Batch Normalization和PCA 白化的一個重要不同。
LeCun et al.提出了 $\hat{x}^{(k)}=\frac{x^{(k)} - E[x^{(k)}]}{\sqrt{Var[x^{(k)}]}}$ ，但是隻使用這個可能會降低模型的表達能力。比如說我們使用non-linear的sigmoid，在輸入之前經過這個transform處理後，會使得我們的sigmoid有點趨近於linear的transform。
為了解決該問題，作者定義了 $identity\space \space transform$ ， $y^{(k)}=\gamma^{(k)}\hat{x}^{(k)}+\beta^{(k)}$ 來強化模型的表達能力。
總結一下，在訓練過程中，我們使用如下的流程來計算normalization。
此外，作者也給出了反向傳播的公式，如下所示。
上面描述了在訓練階段normalization的過程。但是在測試(inference)階段我們應該怎麼處理呢？關鍵在於怎麼計算 $\hat{x}$ ，我們知道在訓練階段我們通過減去batch 內的均值除以方差可以得到 $\hat{x}$ ，但是在測試階段我們沒有batch，或者batch的分佈和訓練時候不一樣。那麼我們怎麼處理呢？作者提出了同樣的處理方式 $\hat{x}^{(k)}=\frac{x^{(k)} - E[x^{(k)}]}{\sqrt{Var[x^{(k)}]}}$ ，不過 $Var[x]=\frac{m}{m-1}E_{\beta}[\sigma^2]$ 無偏估計量來表示。然後再 $y^{(k)}=\gamma^{(k)}\hat{x}^{(k)}+\beta^{(k)}$ 。
此外還有以下幾點需要注意
- 文中說為了避免saturating 啟用函式的梯度消失問題，BN一般放在啟用函式之前
- $\gamma$ 和 $\beta$ 是針對每一個特徵有一對。比如說我們通過全連線層的輸出是512緯的，那麼BN層就有512對 $\gamma$ 和 $\beta$ 。針對卷積層的情況， $\gamma$ 和 $\beta$ 也是針對每一個特徵有一對。假設說我們Convolutional layer的輸出是 $m*W*H*512$ ,那麼BN層就有512對 $\gamma$ 和 $\beta$ 。不過計算均值 $\mu_{B}$ 的

[論文閱讀] Batch Normalization: Accelerating Deep Network Training By Reducing Internal Covariate Shift

Background 存在什麼問題？訓練深度神經網路是比較複雜的，因為每層輸入的分佈在訓練過程中都在變化。如果每層輸入的分佈在不停的變化，那我們就需要不停的調整我們的引數去補償這部分變化，這就使得訓練過程更加緩慢。此外，由於分佈的變化使得使用

論文學習：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

目錄 1. Problem I. Introduction II. Analysis 2. Address the problem I. Batch normalization 及其問題 II. 梯度修正及其問題 III. Key alg

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》論文筆記

1. 論文思想訓練深度學習網路是相當複雜的，每個層的輸入分佈會在訓練中隨著前一層的引數變化而改變。仔細地網路初始化以及較低的學習率下會降低網路的訓練速度，特別是具有飽和非線性的網路。在該論文中將該中現象稱之為“internal covariate shift”，在論文中為了解決該問

【論文學習】Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Batch Normalization 學習筆記原文地址：http://blog.csdn.net/hjimce/article/details/50866313 作者：hjimce 一、背景意義本篇博文主要講解2015年深度學習領域，非常值得學習的一篇文獻：《Batch Nor

Batch normalization:accelerating deep network training by reducing internal covariate shift的筆記

work second mean 其它什麽區域引用 right delta 說實話，這篇paper看了很久，，到現在對裏面的一些東西還不是很好的理解。下面是我的理解，當同行看到的話，留言交流交流啊！！！！！這篇文章的中心點：圍繞著如何降低 internal

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

導致 mage 正常子網區域恢復利用局部最優 AMM 1. 摘要訓練深層的神經網絡非常困難，因為在訓練的過程中，隨著前面層數參數的改變，每層輸入的分布也會隨之改變。這需要我們設置較小的學習率並且謹慎地對參數進行初始化，因此訓練過程比較緩慢。作者將這種現象稱之

【論文閱讀】Learning a Deep Convolutional Network for Image Super-Resolution

開發十年，就只剩下這套架構體系了！ >>>

[ 論文閱讀 ] [ 2018 KDD ] [ 42 ] Deep Interest Network for Click-Through Rate Prediction

進行 through lan 數據博客 cti 業界點擊 red 這個博客的目的是串一下阿裏的一篇利用神經網絡進行點擊率預估的文章。作者提出了DIN (Deep Interest Network) 網絡, 對點擊的提升較大。特征工程工業界的數據一般長成categ

論文閱讀——LANE-Label Informed Attributed Network Embedding原理即實現

帶標籤資料的sku嵌入方法方法名：Label Informed Attributed Network Embedding 簡稱：LANE sku嵌入向量中應包括：user對sku的行為，sku屬性，sku標籤演算法基本流程從使用者對sku的pv序列構造網路

論文閱讀：Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

論文首先提出了神經網路訓練的一個不好的現象：batch size的增大到一定程度，ResNet的分類準確率會下降。這個現象推翻了我以前的一個直覺：覺得batch size大，訓練的效果會更好。為了加快訓練的速度（增大batch size）同時保證準確率，論文

論文閱讀 Multi-Scale Structure-Aware Network for Human Pose Estimation

1、文章在hourglass的網路基礎上做了四點改進 1）多尺度監督來加強語義特徵學習來融合多尺度的特徵 2）多尺度的迴歸網路來優化整體的人體結構 3）structure-aware損失（在多

【論文閱讀】Deeply-Recursive Convolutional Network for Image Super-Resolution

開發十年，就只剩下這套架構體系了！ >>>

Internal Covariate Shift以及Batch Normalization

1 Internal Covariate Shift 意思個人的理解是在多層網路訓練中,後面層次的神經網路接受到的節點受到前面層次的網路引數變化導致該層輸入資料的分佈發生了變化.泛指,在多層資料網路中各層之間引數變化引起的資料分佈發生變化的現象. 2 其危害一是導致後層網路引數要適應分

論文閱讀 | ExtremeNet：Bottom-up Object Detection by Grouping Extreme and Center Points

出了 span soft cor 相同 1.0 ask poi 可能相關鏈接論文地址：https://arxiv.org/abs/1901.08043 論文代碼：https://github.com/xingyizhou/ExtremeNet 概述 ExtremeN

論文閱讀筆記十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

每一個內核基於 proc vgg 包含 rep 重要偏差論文源址：https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet 摘要

Feed Forward and Backward Run in Deep Convolution Neural Network 論文閱讀筆記

徒手實現CNN：綜述論文詳解卷積網路的數學本質 Abstract 對卷積網路的數學本質和過程仍然不是太清楚，這也就是本論文的目的。我們使用灰度圖作為輸入資訊影象， ReLU 和 Sigmoid 啟用函式構建卷積網路的非線性屬性，交叉熵損失函式用於計算

論文閱讀-《BlitzNet: A Real-Time Deep Network for Scene Understanding》

ICCV 2017 1.Motivation: 為了做到實時的目標檢測和語義分割 2.Framework 採用的是Resnet50+SSD, ssd這種one-stage的檢測器天生適合和分割一塊做。上取樣過程用到的block如下圖所示，除了

2017-06-Deep Network Flow for Multi-Object Tracking-論文閱讀筆記

摘要：資料關聯是很多計算機視覺應用的重要組成部分，多目標跟蹤就是其中的一個例子。典型的資料跟蹤方法是找到一個圖匹配方式或者一個網路流使得配對連線的代價最小，然而經常使用的是手工設計特徵或者固定特徵的線性函式。本文指出通過將優化問題表示為可微的函式反向傳播學習資料關聯的特徵是必要。本文用上述

Deep Interest Network for Click-Through Rate Prediction 論文閱讀總結

文章目錄摘要 1. 背景 1.1 名詞解釋 1.2 相關工作 2. 系統總覽 2.1 電商CTR資料特點 2.2 特徵處理(User Behavior Features)

論文閱讀：Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis

這篇論文是在2017年3月22日發表在CVPR上的，作者在這篇論文中提出了一個叫做深度從粗糙到精細化的多工卷積神經網路（Deep MANTA），該模型可以用於對一張圖片中的車輛進行多工的分析。該網路同時執行的多工包括：車輛檢測、部件定位、可見性描述和三維形

[論文閱讀] Batch Normalization: Accelerating Deep Network Training By Reducing Internal Covariate Shift

Background

Method

相關推薦