深度學習中的Xavier初始化和He Initialization（MSRA初始化）、Tensorflow中如何選擇合適的初始化方法?

阿新 • • 發佈：2018-12-09

Xavier初始化：

論文：Understanding the difficulty of training deep feedforward neural networks

論文地址：http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf

“Xavier”初始化方法是一種很有效的神經網路初始化方法。“Xavier”初始化方法初始化方法的目標就是使得每一層輸出的方差應該儘量相等。xavier權重初始化使得訊號在經過多層神經元后保持在合理的範圍（不至於太小或太大）。Xavier初始化可以幫助減少梯度彌散問題，使得訊號在神經網路中可以傳遞得更深。

Xavier初始化演算法的推導：

Xavier 的推導過程主要基於以下三個假設：

1、忽略偏置項對網路的影響；

2、所有的非線性函式均為雙曲正切函式Tanh ，且非線性函式的前向後向計算都近似為線性計算，因此它的影響也可以忽略；

3、輸入資料和引數相互獨立。

我們假設神經網路的隱藏層計算公式為：

其中n是上一層神經元的數量。那麼，根據概率統計裡的兩個隨機變數乘積的方差展開式為：

如果E(xi)=E(wi)=0（可以通過批量標準化Batch Normalization來滿足這個條件），則上式變為：

如果隨機變數xi、wi還滿足獨立同分布，則上式變為：

即輸出的方差var(z)與輸入的方差var(x)有關，為使輸出的方差var(z)與輸入的方差var(x)相同，則只要nVar(Wi)=1。

即：

對於前向傳播時，wi的方差為：

反向傳播時wi的方差為：

我們需要保證正向傳播和反向傳播時的方差相等。而實際情況中，和往往不相等，因此，我們就取一種折衷方案，即令方差為：

又在概率統計學中，[a,b] 間的均勻分佈的方差為：

我們這裡假設引數初始化的範圍是[-a,a]。將b=-a帶入上面的的公式，得：

上面兩式是相等的，故可以解出：

故Xavier初始化就是下面的均勻分佈：

因此，假如我們定義引數所在層的輸入維度為n，輸出維度為m，那麼這層的權重w的初始化就是從範圍內的均勻分佈內取隨機值。

Xavier初始化方法適用的啟用函式需要滿足一定限制：關於0對稱；線性（或可以近似看成線性）。而ReLU和PReLU啟用函式不滿足前面的條件一。

He Initialization（MSRA初始化）：

論文：Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

論文地址：https://arxiv.org/pdf/1502.01852.pdf

上面的Xavier初始化的非線性函式選擇的是tanh，那麼如果非線性函式選擇RELU時，我們仍然想使得每一層輸出的方差儘量相等，該怎麼做呢？

He Initialization推導過程：

這裡又有一個假設：

假定在ReLU網路中，每一層有一半的神經元被啟用，另一半為0。也就是說，我們假定前面的線性計算部分輸出的值有一半大於0，另一半小於0。

假設卷積層的線性計算部分公式為：

我們假設wl和xl仍然都是獨立同分布的，則：

我們令wl的均值為0，則有：

又，故xl的均值顯然不為0。

如果我們讓wl-1對稱分佈在0附近，bl-1=0，那麼yl-1也關於0對稱分佈，yl-1的均值也為0，令其上界為k，則有：

按照我們最開始的假設，經過ReLU 層後，xl的資料有一半變成了0，另一半變成了從0到k的均勻分佈，那麼有：

故

即當非線性函式是RELU時，有

注意上面的推導式基於假設xl的資料經過Relu層後，有一半變成了0，另一半變成了從0到k的均勻分佈。

代回上式，得：

如果將前面的層都帶入，則：

故可得：

於是我們在初始化w時，就可以在一個一個均值為0，方差為的高斯分佈中取隨機值。

可以類比上面的Xavier初始化的推導過程，我們發現就是右邊多乘了一個1/2。

注意我們的第一層的w應該滿足，因為輸入資料沒有經過relu函式就進入了第一層。

類似地，對於反向傳播，我們也能得出類似的結論：

注意：

有的文章將He Initialization這種初始化方法稱為MSRA初始化，且引用的論文也是同一篇，推導過程完全一樣，可以認為He Initialization與MSRA初始化就是同一種方法。

Tensorflow中如何選擇合適的初始化方法?

如果使用sigmoid和tanh等關於0對稱且為線性（或近似線性）的啟用函式，最好使用xavier初始化；

如果使用relu和Prelu啟用函式，則最好使用He Initialization。

深度學習中的Xavier初始化和He Initialization（MSRA初始化）、Tensorflow中如何選擇合適的初始化方法?

Xavier初始化：論文：Understanding the difficulty of training deep feedforward neural networks 論文地址：http://proceedings.mlr.press/v9/glorot10a/glorot10a

基於深度學習的CT影象肺結節自動檢測（系列放在一起）

PS 為了方便查詢，將SongpingWang的肺結節系列部落格放在一起。（剛好公司要我開始接手這一塊）感謝大神具體連結： 0 ：https://blog.csdn.net/wsp_1138886114/article/details/81840891 1 ：https://blog.

10 大深度學習架構：計算機視覺優秀從業者必備（附程式碼實現）

近日，Faizan Shaikh 在 Analytics Vidhya 發表了一篇題為《10 Advanced Deep Learning Architectures Data Scientists Should Know!》的文章，總結了計算機視覺領域已經成效卓著的 10

【深度學習】120G+訓練好的word2vec模型（中文詞向量）

很多人缺少大語料訓練的word2vec模型，在此分享下使用268G+語料訓練好的word2vec模型。訓練語料：百度百科800w+條，26G+ 搜狐新聞400w+條，13G+ 小說：229G+ image.png 模型引數： window=5

【深度學習基礎-04】最鄰近規則分類（K Nearest Neighbor）KNN演算法

1 基本概念 Cover和Hart在1968年提出了最初的臨近演算法分類演算法classfication 輸入基於例項的學習instance-based learning ,懶惰學習lazy learning 2 例子： &n

【網路】HTTP協議中的長連線和短連線（keep-alive狀態）

HTTP1.1規定了預設保持長連線（HTTP persistent connection ，也有翻譯為持久連線），資料傳輸完成了保持TCP連線不斷開（不發RST包、不四次握手），等待在同域名下繼續用這個通道傳輸資料；相反的就是短連線。　HTTP首部的Connection: Keep-alive是HT

深度學習基礎--卷積計算和池化計算公式

卷積計算和池化計算公式卷積卷積計算中，（）表示向下取整。輸入：n* c0* w0* h0 輸出：n* c1* w1* h1 其中，c1就是引數中的num_output，生成的特徵圖個數。 w1=(w0+2pad-kernel_size)/stride+1;

【深度學習】【物聯網】深度解讀：深度學習在IoT大資料和流分析中的應用

作者｜Natalie編輯｜EmilyAI 前線導讀：在物聯網時代，大量的感知器每天都在收集併產生

吳恩達-深度學習-課程筆記-3: Python和向量化( Week 2 )

有時指數檢查都是效果很快 -1 tro str 1 向量化( Vectorization ) 在邏輯回歸中，以計算z為例，z = w的轉置和x進行內積運算再加上b，你可以用for循環來實現。但是在python中z可以調用numpy的方法，直接一句z = np.d

深度學習解決局部極值和梯度消失問題方法簡析（轉載）

復雜度現實概率傳播相同證明 dap 很難卷積神經網絡轉載：http://blog.sina.com.cn/s/blog_15f0112800102wojj.html 這篇文章關於對深度CNN中BP梯度消失的問題的做了不錯的解析，可以看一下：多層感知機解決

【深度學習系列】用PaddlePaddle和Tensorflow實現經典CNN網絡GoogLeNet

mage eat oba card fin filter mod 一個 lec 　　前面講了LeNet、AlexNet和Vgg，這周來講講GoogLeNet。GoogLeNet是由google的Christian Szegedy等人在2014年的論文《Going Deepe

【深度學習系列】用PaddlePaddle和Tensorflow實現GoogLeNet InceptionV2/V3/V4

targe 所有 conn ride 出了 prev 縮減 tro 例如　　上一篇文章我們引出了GoogLeNet InceptionV1的網絡結構，這篇文章中我們會詳細講到Inception V2/V3/V4的發展歷程以及它們的網絡結構和亮點。 GoogLeNet I

FFmpeg源代碼簡單分析：常見結構體的初始化和銷毀（AVFormatContext，AVFrame等）

new init _array border 代碼 alloc ecc .com VC 結構體初始化銷毀 AVFormatContext avformat_alloc_context() avfo

深度學習之經驗和訓練集（訓練中英文樣本）

深度學習之經驗和訓練集（訓練中英文樣本）學習深度學習和在深度學習兩年多，積累了很多的學習資料，以及一些經驗吧。學習目標是什麼？這個是一切深度學習需要明確的目標 *目前在這個方面，前人研究到什麼程度？遇到那些困哪？本人研究的是中文自然語言的讀（機器以某人的

順序表的建立和初始化過程詳解（C語言實現）

順序表存放資料的特點和陣列這種資料型別完全吻合，因此順序表的實現使用的是陣列。需要注意的是，使用陣列實現順序表時，一定要預先申請足夠大的記憶體空間，避免因儲存空間不足，造成資料溢位，導致不必要的程式錯誤甚至崩潰。在建立順序表時，除了預先申請記憶體空間，還需要實時記錄順序表的長度和順序表本身申請的記憶體大

中序線索二叉樹的建立、線索化和遍歷（前序遍歷和後序遍歷）

線索二叉樹的概念線索二叉樹的原理：線索二叉樹是將普通二叉樹左右孩子中的空鏈域利用起來，將左孩子空鏈域指向當前節點的線性遍歷前驅，將右孩子空鏈域指向當前節點的線性遍歷後繼，指向該線性序列中的前驅或後繼

翻譯：開始閱讀深度學習研究論文：為什麼和如何做

Getting started with reading Deep Learning Research papers: The Why and the How 當你讀完那本書或者完成了關於深度學習的線上課程後，你如何繼續學習呢?你如何變得“自給自足”，這樣你就不需要依靠別人來打破這個領

《吳恩達深度學習工程師系列課程之——改善深層神經網路：超引數除錯、正則化以及優化》學習筆記

本課程分為三週內容：深度學習的使用層面優化演算法超引數除錯、Batch正則化和程式框架 WEEK1 深度學習的使用層面 1.建立神經網路時選擇：神經網路層數每層隱藏單元的個數學習率為多少各層採用的啟用函式為哪些 2

機器學習和深度學習引用量最高的20篇論文（2014-2017）

機器學習和深度學習的研究進展正深刻變革著人類的技術，本文列出了自 2014 年以來這兩個領域發表的最重要（被引用次數最多）的 20 篇科學論文，以饗讀者。機器學習，尤其是其子領域深度學習，在近些年來取得了許多驚人的進展。重要的研究論文可能帶來使全球數十億人受益的技術突破。這一領域的研究目前發展

深度學習中的Xavier初始化和He Initialization（MSRA初始化）、Tensorflow中如何選擇合適的初始化方法?

Xavier初始化：

Xavier初始化演算法的推導：

He Initialization（MSRA初始化）：

He Initialization推導過程：

Tensorflow中如何選擇合適的初始化方法?

相關推薦