1. 程式人生 > >Self-Normalizing Neural Networks(自歸一化神經網路)閱讀筆記

Self-Normalizing Neural Networks(自歸一化神經網路)閱讀筆記

Abstarct:

   針對FNNs(feed-forward neural networks)的層數都比較淺的情況,作者提出了SNNs(自標準化神經網路)的概念,SNNs可以使得網路更深,探索高層的抽象特徵。另外不像bn的強制每層歸一化,SNNs可以自動收斂到均值0方差1,SELUs就是具有自標準化屬性的啟用函式。 使Banach定點定理,我們證明了這一點啟用接近零的平均值和單位方差,即使有噪聲和擾動的存在 ,通過許多網路層後值趨向零均值和單位方差.

SNN的收斂性允許
(1)培養具有多層次的深層網路,(2)強化正規化方案,(3)使學習非常強勁。
對於FNN
我們考慮(i)沒有規範化的ReLU網路,(ii)批量標準化(BN)(iii)層次標準化,(iv)權重標準化,(v)highway網路和(vi)resnet網路

1.Itroduction:

   為訓練更深的CNN網路,為了得到0均值和單位方差,已提出的方法有:
批量標準化(batch normalization)標準化神經元的啟用值為零均值和單位方差。
層標準化(layer normalization)也確保零均值和單位方差。Layer Normalization是受
Batch Normalization的啟發而來,針對於RNN.
權重標準化(weight normalization)當上一層啟用具有零均值和單位方差時確保零均值和單位方差。
(什麼是Weight Normalization?
即權重歸一化,也就是對權重值進行歸一化。

Weight Normalization的優點
1.WN是通過重寫深度網路的權重來進行加速的,沒有引入對minibatch的依賴,更適合於RNN網路
2.引入更少的噪聲
3.不需要額外的空間進行儲存minibatch的均值和方差,對時間的開銷也小,所以速度會更快)

2. SNNs:

2.1 u,v表示上一層的均值和方差,輸入輸出對應關係為
y=fwx
wu
定理1:(對於自標準化神經網路)神經網路如果擁有一個自標準化的對映g:Ω→Ω,用於將均值和
方差從一個層對映到下一個層輸出值y的均值和方差,並且具有取決於(ω,τ)在Ω內的穩定和吸引的固定點。 此外,平均值和方差保留在域Ω中,即g(Ω)⊆Ω,其中Ω= {(μ,ν)|) μ∈[μmin,μmax],ν∈[νmin,νmax]}。 當迭代應用在對映 g時,Ω內的每個點收斂到固定值點。
       因此,我們認為如果神經網路的啟用值的均值和方差在一個預定義的間隔內時,這個網路就完成了標準化。即如果x的均值和方差已經在間隔範圍內,那麼y的均值和方差保持在這些間隔中,即標準化跨層傳遞。 在這些間隔範圍內,如果對映g被迭代地應用,平均值和方差均收斂於固定點。
     SNNs可以在層傳播時保持輸出的標準化。
2.2構建自標準化神經網路。
我們的目標是通過調整函式g的性質來構建自標準化神經網路。 g只有兩種設計選擇:(1)改變啟用函式(2)針對權重的改變:權重的初始化。因為從x到y只會受這兩種元素影響。
     對於啟用函式,作者針對FNN 網路提出“縮放指數線性單位”(SELUs)實現自標準化。 SELU啟用函式如下:
selu可以實現SNNs,relu,tanh,Lrelu都不能實現,啟用函式必須有以下特點:
(1)用於控制平均值的負值和正值
(2)飽和區域(導數接近零),以減小低層出現較大的方差
(3)大於1的斜率,如果在下層中值太小則增加方差。
(4)啟用函式是個連續曲線。 後者方差減少通過方差增加來平衡確保了一個固定點,其中。 我們通過乘以指數線性來滿足啟用函式的這些屬性單位(ELU),λ> 1,以確保正淨輸入的斜率大於1。
     對於權重初始化,我們對高層的所有單位提出ω= 0和τ= 1設定。 接下來的段落將顯示這個初始化的優點。 當然,在學習這些關於權重向量的假設是不合理的。 然而,即使對於未歸一化的權重向量也具有自標準化屬性(可以證明),因此在學習和權重變化期間可以保持自標準化屬性。

2.3推匯出平均值和方差對映函式g。
     作者首先假設了輸入x之間相互獨立,如x1,x2,x3…..相互獨立。z=wx則淨輸入z是獨立的但不一定相同分佈的加權和,對於其中心極限定理得n(樣本數)越大,z更接近正態分佈:。。。。。
2.4穩定的和有吸引力的固定點(0,1)用於歸一化權重
(u,v)——(0,1)
     作者證明了在w=0,τ= 1,(u,v)——(0,1)的情況下,g是圍繞固定點(0,1)收斂的對映。 因此,(0,1)是一個屬於對映g的穩定的固定點。
定理二(降低 v)
     該定理的詳細證明可以在附錄 Section A3 中找到。因此,當對映經過許多層級時,在區間 [3, 16] 內的方差被對映到一個小於 3 的值。
定理三(提高 v)
     該定理的證明可以在附錄 Section A3 找到。所有對映 g(Eq. (3)) 的不動點 (μ, ν) 確保了 0.8 =< τ時ν˜>0.16,0.9 =< τ時ν ˜> 0.24。
由定理二和三證明了SELU的主要特性是在方差大時減少方差,在方差小時增加方差。

2.6 應做的處理
a.權重初始化應該為E(w)=0,Var(w)=1/n
由於方差v的值在一定範圍內,因此,SNN不會面臨梯度消失和爆炸問題。
b.隨機的對變數做”α dropout”。這是一種使均值和方差不變的dropout型別。

3.關於實驗

論文裡給出了實驗程式碼,主要就是三點,對權重的初始化值設定,selu函式,α dropout。
實驗未做。。。。。。。主要最近伺服器壞了,沒法跑呀。。。。