深度學習——Xavier初始化方法

阿新 • • 發佈：2019-01-31

為了使得網路中資訊更好的流動，每一層輸出的方差應該儘量相等。

基於這個目標，現在我們就去推導一下：每一層的權重應該滿足哪種條件。

文章先假設的是線性啟用函式，而且滿足0點處導數為1，即
這裡寫圖片描述

現在我們先來分析一層卷積：
這裡寫圖片描述
其中ni表示輸入個數。

根據概率統計知識我們有下面的方差公式：
這裡寫圖片描述

特別的，當我們假設輸入和權重都是0均值時（目前有了BN之後，這一點也較容易滿足），上式可以簡化為：
這裡寫圖片描述

進一步假設輸入x和權重w獨立同分布，則有：
這裡寫圖片描述

於是，為了保證輸入與輸出方差一致，則應該有：
這裡寫圖片描述

對於一個多層的網路，某一層的方差可以用累積的形式表達：
這裡寫圖片描述

特別的，反向傳播計算梯度時同樣具有類似的形式：
這裡寫圖片描述

綜上，為了保證前向傳播和反向傳播時每一層的方差一致，應滿足：

這裡寫圖片描述

但是，實際當中輸入與輸出的個數往往不相等，於是為了均衡考量，最終我們的權重方差應滿足：

———————————————————————————————————————
這裡寫圖片描述
———————————————————————————————————————

學過概率統計的都知道 [a,b] 間的均勻分佈的方差為：
這裡寫圖片描述

因此，Xavier初始化的實現就是下面的均勻分佈：

——————————————————————————————————————————
這裡寫圖片描述
———————————————————————————————————————————

下面，我們來看一下caffe中具體是怎樣實現的，程式碼位於include/caffe/filler.hpp檔案中。

template <typename Dtype>
class XavierFiller : public Filler<Dtype> {
 public:
  explicit XavierFiller(const FillerParameter& param)
      : Filler<Dtype>(param) {}
  virtual void Fill(Blob<Dtype>* blob) {
    CHECK 
(blob->count());
    int fan_in = blob->count() / blob->num();
    int fan_out = blob->count() / blob->channels();
    Dtype n = fan_in;  // default to fan_in
    if (this->filler_param_.variance_norm() ==
        FillerParameter_VarianceNorm_AVERAGE) {
      n = (fan_in + fan_out) / Dtype(2);
    } else if (this->filler_param_.variance_norm() ==
        FillerParameter_VarianceNorm_FAN_OUT) {
      n = fan_out;
    }
    Dtype scale = sqrt(Dtype(3) / n);
    caffe_rng_uniform<Dtype>(blob->count(), -scale, scale,
        blob->mutable_cpu_data());
    CHECK_EQ(this->filler_param_.sparse(), -1)
         << "Sparsity not supported by this Filler.";
  }
};

由上面可以看出，caffe的Xavier實現有三種選擇

（1） 預設情況，方差只考慮輸入個數：
這裡寫圖片描述

（2） FillerParameter_VarianceNorm_FAN_OUT，方差只考慮輸出個數：
這裡寫圖片描述

（3） FillerParameter_VarianceNorm_AVERAGE，方差同時考慮輸入和輸出個數：
這裡寫圖片描述

之所以預設只考慮輸入，我個人覺得是因為前向資訊的傳播更重要一些

深度學習——Xavier初始化方法

為了使得網路中資訊更好的流動，每一層輸出的方差應該儘量相等。基於這個目標，現在我們就去推導一下：每一層的權重應該滿足哪種條件。文章先假設的是線性啟用函式，而且滿足0點處導數為1，即現在我們先來分析一層卷積：其中ni表示輸入個

深度學習－網路Xavier初始化方法

參考：深度學習－網路Xavier初始化方法通過方差分析詳解最流行的Xavier權重初始化方法在 Xavier Glorot 和 Yoshua Bengio 2010 年的論文 Understanding the difficulty of training deep feedf

深度學習權重初始化的幾種方法

經常看到深度學習引數初始化都是使用隨機初始化，但是最近看了一篇文章Spectral Normalization中對於GAN判別器沒有使用BN，BN其實弱化了引數初始化的作用，但是我們一旦不使用了BN,使用傳統的隨機初始化容易出現梯度消失的問題，因此決定嘗試

Xavier初始化方法

轉載出處: https://blog.csdn.net/shuzfan/article/details/51338178 “Xavier”初始化方法是一種很有效的神經網路初始化方法，使用xavier演算法自動確定給予輸入—輸出神經元數量的初始化規模，方法來源於2010年的一篇論文《Und

深度學習:正則化方法

正則化是機器學習中非常重要並且非常有效的減少泛華誤差的技術，特別是在深度學習模型中，由於其模型引數非常多非常容易產生過擬合。因此研究者也提出很多有效的技術防止過擬合，比較常用的技術包括：引數新增約束，例如L1、L2範數等訓練集合擴充，例如新增噪聲、資料變換等D

“Xavier”初始化方法

為了使得網路中資訊更好的流動，每一層輸出的方差應該儘量相等。基於這個目標，現在我們就去推導一下：每一層的權重應該滿足哪種條件。文章先假設的是線性啟用函式，而且滿足0點處導數為1，即現在我們先來分析一層卷積：其中ni表示輸入個數。根據概率統計知識我

【深度學習】深度學習權重初始化

本文對CS231中的Training Neural Networks的權重更新部分進行記錄權重的初始化在深度神經網路中起著比較大的重要，算是一個trick，但在實際應用上確是個大殺器。 1. 如果一開始把網路中的權重初始化為0，會發生什麼？因為權重初始

深度學習權重初始化

深度學習其本質是優化所有權重的值，使其達到一個最優解的狀態，這其中，需要更新權重的層包括卷積層、BN層和FC層等。在最優化中，權重的初始化是得到最優解的重要步驟。如果權重初始化不恰當，則可能會導致模型陷入區域性最優解，導致模型預測效果不理想，甚至使損失函式震盪，模型不收斂。而且，使用不同的權重初始化方式，模型

深度學習中的Xavier初始化和He Initialization（MSRA初始化）、Tensorflow中如何選擇合適的初始化方法?

Xavier初始化：論文：Understanding the difficulty of training deep feedforward neural networks 論文地址：http://proceedings.mlr.press/v9/glorot10a/glorot10a

深度學習中Xavier初始化

“Xavier”初始化方法是一種很有效的神經網路初始化方法，方法來源於2010年的一篇論文《Understanding the difficulty of training deep feedforward neural networks》。文章主要的目標就是使得每一層輸出的方差應該儘量相等。下面進行推導

深度學習初始化方法

首先說明：在caffe/include/caffe中的 filer.hpp檔案中有它的原始檔，如果想看，可以看看哦，反正我是不想看，程式碼細節吧，現在不想知道太多，有個巨集觀的idea就可以啦，如果想看程式碼的具體的話，可以看：http://blog.csdn.net/xizero00/article/d

權值初始化方法之Xavier與MSRA

首先介紹一下Xavier等初始化方法比直接用高斯分佈進行初始化W的優勢所在：一般的神經網路在前向傳播時神經元輸出值的方差會不斷增大,而使用Xavier等方法理論上可以保證每層神經元輸入輸出方差一致。這裡先介紹一個方差相乘的公式，以便理解Xavier： Xavie

OC學習篇之---類的初始化方法和點語法的使用

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

卷積神經網路（三）：權值初始化方法之Xavier與MSRA

基礎知識首先介紹一下Xavier等初始化方法比直接用高斯分佈進行初始化W的優勢所在：一般的神經網路在前向傳播時神經元輸出值的方差會不斷增大,而使用Xavier等方法理論上可以保證每層神經元輸入輸出方差一致。這裡先介紹一個方差相乘的公式，以便理解Xav

【opencv學習】矩陣CvMat的兩種宣告和初始化方法

double a[9]={1,2,3;4,5,6;7,8,9} //方式一：直接宣告 CvMat mat_01; //矩陣變數 mat_01 = cvMat(3,3,CV_64FC1

網路權重初始化方法總結（下）：Lecun、Xavier與He Kaiming

目錄權重初始化最佳實踐期望與方差的相關性質全連線層方差分析 tanh下的初始化方法 Lecun 1998 Xavier 2010 ReL

Java學習之初始化塊

java學習初始化塊：分類： 1、靜態初始化塊 2、非靜態初始化塊語法： [修飾符]{ 初始化塊邏輯 } 例子: 父類public class Block { static { Syste

c++中成員函數指針數組定義和初始化方法

fun all turn bsp ati const 成員函數指針溢出 cat 實際項目中經常遇到很多類似操作，比如命令碼對應執行函數等，對於此類操作，比較好的方式是使用const數組，將命令碼和操作函數綁定在一起，通過查表方式找到操作函數，並執行操作函數。這樣可以簡化代

委托初始化方法實例

選中 this leg clas style erro controls 返回 cti string strBirthError = ""; foreach (DataRow dr in dtInfo.Row

深度學習最全優化方法---來源於知乎

ati 默認 tle 設置約束 apt 接下來 nali ini 寫在前面：本寶寶好想只了解sgd,monument,adagrad,adam深度學習最全優化方法總結比較（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

深度學習——Xavier初始化方法

為了使得網路中資訊更好的流動，每一層輸出的方差應該儘量相等。

基於這個目標，現在我們就去推導一下：每一層的權重應該滿足哪種條件。

綜上，為了保證前向傳播和反向傳播時每一層的方差一致，應滿足：

因此，Xavier初始化的實現就是下面的均勻分佈：

相關推薦