pytorch系列 -- 9 pytorch nn.init 中實現的初始化函式 uniform, normal, const, Xavier, He initialization

阿新 • • 發佈：2018-11-17

本文內容：
1. Xavier 初始化
2. nn.init 中各種初始化函式
3. He 初始化

torch.init https://pytorch.org/docs/stable/nn.html#torch-nn-init

1. 均勻分佈

torch.nn.init.uniform_(tensor, a=0, b=1)
服從~ $U (a,$

b ) U(a, b)

U (a, b)

2. 正太分佈

torch.nn.init.normal_(tensor, mean=0, std=1)
服從~ $N (m e$

a n , s t d ) N(mean, std)

N (m e a n, s t d)

3. 初始化為常數

torch.nn.init.constant_(tensor, val)

初始化整個矩陣為常數val

4. Xavier

基本思想是通過網路層時，輸入和輸出的方差相同，包括前向傳播和後向傳播。具體看以下博文：

為什麼需要Xavier 初始化？
文章第一段通過sigmoid啟用函式講述了為何初始化？

簡答的說就是：

如果初始化值很小，那麼隨著層數的傳遞，方差就會趨於0，此時輸入值也變得越來越小，在sigmoid上就是在0附近，接近於線性，失去了非線性
如果初始值很大，那麼隨著層數的傳遞，方差會迅速增加，此時輸入值變得很大，而sigmoid在大輸入值寫倒數趨近於0，反向傳播時會遇到梯度消失的問題

其他的啟用函式同樣存在相同的問題。
https://prateekvjoshi.com/2016/03/29/understanding-xavier-initialization-in-deep-neural-networks/

所以論文提出，在每一層網路保證輸入和輸出的方差相同。
2. xavier初始化的簡單推導
https://blog.csdn.net/u011534057/article/details/51673458

對於Xavier初始化方式，pytorch提供了uniform和normal兩種：

torch.nn.init.xavier_uniform_(tensor, gain=1) 均勻分佈 ~ $U(-a,a )$
其中， a的計算公式： $a=gain \times \sqrt{ \frac{6}{fan\_in +fan\_out}}$
torch.nn.init.xavier_normal_(tensor, gain=1) 正態分佈~ $N(0,std)$
其中std的計算公式：
$std= gain \times \sqrt{\frac{2}{fan\_in+ fan\_out}}$

5. kaiming (He initialization)

Xavier在tanh中表現的很好，但在Relu啟用函式中表現的很差，所何凱明提出了針對於Relu的初始化方法。
Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification He, K. et al. (2015)
該方法基於He initialization,其簡單的思想是：
在ReLU網路中，假定每一層有一半的神經元被啟用，另一半為0，所以，要保持方差不變，只需要在 Xavier 的基礎上再除以2

也就是說在方差推到過程中，式子左側除以2.
pytorch也提供了兩個版本：

torch.nn.init.kaiming_uniform_(tensor, a=0, mode=‘fan_in’, nonlinearity=‘leaky_relu’)，均勻分佈 ~ $U(−bound,bound)$
其中，bound的計算公式：
$\text{bound} = \sqrt{\frac{6}{(1 + a^2) \times \text{fan\_in}}}$
torch.nn.init.kaiming_normal_(tensor, a=0, mode=‘fan_in’, nonlinearity=‘leaky_relu’), 正態分佈~ $N(0,std)$

其中，std的計算公式：
$\text{std} = \sqrt{\frac{2}{(1 + a^2) \times \text{fan\_in}}}$

兩函式的引數：

a：該層後面一層的啟用函式中負的斜率(預設為ReLU，此時a=0)
mode：‘fan_in’ (default) 或者 ‘fan_out’. 使用fan_in保持weights的方差在前向傳播中不變；使用fan_out保持weights的方差在反向傳播中不變

針對於Relu的啟用函式，基本使用He initialization，pytorch也是使用kaiming 初始化卷積層引數的

pytorch系列 -- 9 pytorch nn.init 中實現的初始化函式 uniform, normal, const, Xavier, He initialization

本文內容： 1. Xavier 初始化 2. nn.init 中各種初始化函式 3. He 初始化 torch.init https://pytorch.org/docs/stable/nn.html#torch-nn-init 1. 均勻分佈 torch.nn.init.u

tf.get_variable 中變數初始化函式和Xavier初始化器

當使用 tf.get_variable(name, shape=None, initializer=None) 來定義變數時，可以利用變數初始化函式來實現對 initializer 的賦值。在神經網路中，最常權重賦值方式是正態隨機賦值和 Xavier賦值。 1. 變數初始

順序棧的C語言實現——初始化函式、入棧函式和出棧函式

將順序棧的結構定義為： #define M 100 　//棧的空間 typedef struct { int data[M]; int top; } SqStack; 試寫出SqStack的初始化函式、入棧函式和出棧函式。並在main()函式中測試上述

pytorch系列 ---9的番外， Xavier和kaiming是如何fan_in和fan_out的，_calculate_fan_in_and_fan_out解讀 Conv2d

本文主要藉助程式碼講解Xavier和kaiming是如何藉助_calculate_fan_in_and_fan_out函式來計算當前網路層的fan_in（輸入神經元個數）和fan_out（輸出神經元個數的），先針對Linear和Conv2d兩種。 m_c = nn.Conv2d

pytorch系列 --4 pytorch 0.4改動後Variable和Tensor合併問題data和.detach

本文主要講述pytorch0.4更新後相關的程式碼遷移問題 Tensor和Variable合併 torch.Tensor 和torch.autograd.Variable現在是同一個類。torch.Tensor 能夠像之前的Variable一樣追蹤歷史和反向傳播。Variable仍能

pytorch系列 --11 pytorch loss function： MSELoss BCELoss CrossEntropyLoss及one_hot 格式求 cross_entropy

本文主要包括： pytorch 實現的損失函式 pytorch實現的loss function 神經網路主要實現分類以及迴歸預測兩類問題，對於迴歸問題，主要講述均方損失函式，而對於一些迴歸問題，需要根據特殊情況自定義損失函式。對於分類，主要講述二分類交叉熵和多分

pytorch系列12 --pytorch自定義損失函式custom loss function

本文主要內容： nn.Module 和 nn.Functional 區別和聯絡自定義損失函式 1. 關於nn.Module與nn.Functional的區別： https://discuss.pytorch.org/t/whats-the-differe

《Shader從入門到精通》系列第八節:在Shader中實現黑白濾鏡

關於紅孩兒 95年第一次使用BASIC在學習機上進行超級瑪麗遊戲程式設計至今已經過去了18年，期間自學多門程式語言，建立多個遊戲程式設計愛好者網站，03年起進入遊戲公司從事遊戲程式設計師職位至今，擔任過2D引擎及工具開發，Linux網路伺服器開發，3D引擎及工具

除錯經驗——使用自定義函式在Oracle中實現類似LISTAGG函式的行轉列（字串連線）功能

問題描述： LISTAGG函式是一個很實用的函式，但僅在Oracle 11.2以後的版本中才有。生產環境中有個資料庫是Oracle 11.1，需要行轉列，但並不能使用LISTAGG函式。解決方法：參考以下文章： https://oracle-base.com/artic

廖威雄: 思維導圖：利用attribute((section()))構建初始化函式表與Linux核心init的實現

本文具體解說了利用__attribute__((section()))構建初始化函式表。以及Linux核心各級初始化的原理。作者簡單介紹：廖威雄，2016年本科畢業於暨南大學。眼下就職於珠海全志科技股份有限公司從事linu

建立一個數組，實現函式init（）初始化陣列，實現empty（）清空陣列、，實現reverse（）函式完成陣列元素的逆置。自己設計函式的引數，返回值。

#define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <stdlib.h> void init(int arr[], int len) { for (int i = 0; i < len; ++i)

【springmvc 的請求流程一】：web伺服器啟動的時候和執行DispatcherServlet 中的init 方法，初始化springmvc 容器

總結： 1 當伺服器啟動的時候如果在裡面配置了<load-on-startup>的話，就會在伺服器啟動的手自動載入init()方法，並且例項化servlet,但是如果沒有配置，也會在DispatcherServlet第一次請求發出的時候執行DispatcherS

C++在類模板中實現友元函式的方法

在類模板中過載了運算子,並把該函式宣告為友元函式.如果在類體外定義該友元函式(外部函式),則出現如下編譯錯誤: main.obj:errorLNK2019:無法解析的外部符號"class std::basic_ostream<char,struct std::char

web.xml中的初始化引數(init-param)與上下文引數（context-param）

servlet的初始化引數：<init-param> web.xml中配置servlet的時候，標籤<servlet>中可以包含標籤<inti-param>來配置初始化引數。一個Servlet可以配置一個或多個初始化引數。

VS2010中實現命令響應函式的刪除

我們知道，使用Microsoft Visual Studio的整合開發環境中相MFC框架進行專案開發時，有時會遇到新增命令訊息響應函式操作失誤的情況，如：將訊息響應函式對應了錯誤的類，作了這個類的成員函式。而依靠MFC

在驅動模組初始化函式中實現裝置節點的自動建立(轉)

我們在剛開始寫Linux裝置驅動程式的時候，很多時候都是利用mknod命令手動建立裝置節點，實際上Linux核心為我們提供了一組函式，可以用來在模組載入的時候自動在/dev目錄下建立相應裝置節點，並在解除安裝模組時刪除該節點，當然前提條件是使用者空間移植了udev。　　核心中定義了struct class結構

java中實現序列化介面的意義

1.一個物件有對應的一些屬性，把這個物件儲存在硬碟上的過程叫做”持久化“。 2.物件的預設序列化機制寫入的內容是：物件的類，類簽名，以及非瞬態和非靜態欄位的的值。 3.序列化能把堆記憶體中的物件的宣告週期延長，做持久化操作，當下次再需要這個物件的時候，我們不用new了，直

Golang 引用庫中含有初始化代碼時如何引用

usr nbsp 博文 str 符號 imp oca all 補充簡單點說吧，要在引用庫前加‘_‘符號給出示例 //foo.go // /usr/local/go/pkg/src/foo/foo.go package foo import "fmt" type Foo

java類中的初始化順序

log 初始化靜態變量 clas bsp 類成員變量 art 類成員學習 1）父類靜態資源加載：靜態變量、靜態方法、靜態初始化塊　　按靜態資源的定義順序來加載 2）子類靜態資源加載：同上 3）父類成員變量、成員方法、初始化塊 4）父類構造器 5）子類成員變量、成員方法

Java中程序初始化的順序

int() 測試 subclass ini 透明 turn views 是我輸出 1，在一個類的內部（不考慮它是另一個類的派生類）：很多人認為，類的成員變量是在構造方法調用之後再初始化的，先不考慮這種觀點的正確性，先看一下下面的代碼： [java] view pl

pytorch系列 -- 9 pytorch nn.init 中實現的初始化函式 uniform, normal, const, Xavier, He initialization

1. 均勻分佈

2. 正太分佈

3. 初始化為常數

4. Xavier

5. kaiming (He initialization)

相關推薦