1. 程式人生 > >recurrent neural netword,lstm學習記錄

recurrent neural netword,lstm學習記錄

1,rnn在時間層面上會存在梯度消失,原因是由於sigmoid和tan的導數都小於一導致。即使使用relu,則可能會遇到梯度爆炸問題。且過大的步長會導致學死,因為一旦全部為0則無法翻過來。

sigmoid導數值範圍為(0,0.25],反向傳播時會導致“梯度消失“。tanh函式導數值範圍【0,1】,相對好一點。  sigmoid函式不是0中心對稱,tanh函式是,可以使網路收斂的更好。

2,LSTM比rnn多了一個輸出,即使cell的長期狀態。而rnn的狀態可以認為是短期的狀態。