神經網路為什麼要使用啟用函式，為什麼relu要比sigmoid要好

阿新 • • 發佈：2019-01-06

首先，我們使用mnist資料庫做個測試，建立一個10層的神經網路，每層的平均梯度幅度如下：
epoch:1 iteration:10/300
3.23e-07 8.3215e-07 3.3605e-06 1.5193e-05 6.4892e-05 0.00027249 0.0011954 0.006295 0.029835 0.12476 0.38948
epoch:1 iteration:20/300
4.4649e-07 1.3282e-06 5.6753e-06 2.5294e-05 0.00010326 0.00043651 0.0019583 0.0096396 0.040469 0.16142 0.5235
可以看到，最開始的幾層只有1e-6到1e-7這個量級的梯度，基本上梯度在最後3層就已經飽和了。使用SGD等演算法的話，前邊幾層的引數在梯度下降的時候幾乎沒有得到改變，自始至終都是隨機值。
而使用ReLU呢：
epoch:1 iteration:10/300
0.68193 0.47672 0.48507 0.48 0.49133 0.47511 0.45136 0.48241 0.50238 0.62887 3.7748
epoch:1 iteration:20/300
0.49834 0.3182 0.26373 0.23835 0.23295 0.2293 0.2558 0.27504 0.29768 0.36264 0.51806
可以看到，梯度的scale幾乎沒什麼變化。
最近Google的論文Batch Normalization[1]解決了sigmoid的saturate問題，但效果仍然沒有ReLU好，證明ReLU至少在影象分類問題上是比sigmoid更接近本質的，至於這個本質是什麼，現在還不得而知。
是因為上邊說的稀疏性嗎？MSRA的論文Parametric ReLU[2]否定了這個說法，非稀疏的啟用函式能得到更好的效果。所以，這個問題只能等大神們的進一步分析了。

參考文獻：
[1]

Sergey Ioffe, Christian Szegedy. Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift.
[2] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification.

神經網路為什麼要使用啟用函式，為什麼relu要比sigmoid要好

神經網路常用啟用函式對比 sigmoid VS sofmax（附python原始碼）

話談tensorflow神經網路的啟用函式

神經網路之一啟用函式

人工神經網路之啟用函式 -tanh函式

卷積神經網路學習--啟用函式

【深度學習技術】卷積神經網路常用啟用函式總結

神經網路之啟用函式(Activation Function)

神經網路常用啟用函式及其應用舉例

神經網路softmax啟用函式的求導過程

神經網路常用啟用函式對比：sigmoid VS sofmax（附python原始碼）

神經網路之啟用函式 dropout原理解讀 BatchNormalization 程式碼實現

神經網路之啟用函式(Activation Function)（附maxout）

神經網路為什麼要使用啟用函式，為什麼relu要比sigmoid要好

深度學習：卷積神經網路，卷積，啟用函式，池化

神經網路中的啟用函式（activation function）-Sigmoid, ReLu, TanHyperbolic(tanh), softmax, softplus

吳恩達深度學習筆記(21)-神經網路的權重初始化為什麼要隨機初始化？

深度神經網路之損失函式和啟用函式

c呼叫c++函式，為什麼要加extern c

在c++程式中呼叫被c編譯器編譯後的函式，為什麼要加extern "c"?

override,final的使用，兩者都是針對虛擬函式，也就是說要有virtual關鍵字

神經網路為什麼要使用啟用函式，為什麼relu要比sigmoid要好

相關推薦