1. 程式人生 > >神經網路為什麼要使用啟用函式,為什麼relu要比sigmoid要好

神經網路為什麼要使用啟用函式,為什麼relu要比sigmoid要好

首先,我們使用mnist資料庫做個測試,建立一個10層的神經網路,每層的平均梯度幅度如下:
epoch:1 iteration:10/300
3.23e-07 8.3215e-07 3.3605e-06 1.5193e-05 6.4892e-05 0.00027249 0.0011954 0.006295 0.029835 0.12476 0.38948
epoch:1 iteration:20/300
4.4649e-07 1.3282e-06 5.6753e-06 2.5294e-05 0.00010326 0.00043651 0.0019583 0.0096396 0.040469 0.16142 0.5235
可以看到,最開始的幾層只有1e-6到1e-7這個量級的梯度,基本上梯度在最後3層就已經飽和了。使用SGD等演算法的話,前邊幾層的引數在梯度下降的時候幾乎沒有得到改變,自始至終都是隨機值。
而使用ReLU呢:
epoch:1 iteration:10/300
0.68193 0.47672 0.48507 0.48 0.49133 0.47511 0.45136 0.48241 0.50238 0.62887 3.7748
epoch:1 iteration:20/300
0.49834 0.3182 0.26373 0.23835 0.23295 0.2293 0.2558 0.27504 0.29768 0.36264 0.51806
可以看到,梯度的scale幾乎沒什麼變化。
最近Google的論文Batch Normalization[1]解決了sigmoid的saturate問題,但效果仍然沒有ReLU好,證明ReLU至少在影象分類問題上是比sigmoid更接近本質的,至於這個本質是什麼,現在還不得而知。
是因為 上邊說的稀疏性嗎?MSRA的論文Parametric ReLU[2]否定了這個說法,非稀疏的啟用函式能得到更好的效果。所以,這個問題只能等大神們的進一步分析了。

參考文獻:
[1] 
Sergey Ioffe
Christian SzegedyBatch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift.
[2] Kaiming HeXiangyu ZhangShaoqing RenJian SunDelving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification.