1. 程式人生 > >太深了,梯度傳不下去,於是有了highway。 幹脆連highway的參數都不要,直接變殘差,於是有了ResNet。 強行穩定參數的均值和方差,於是有了BatchNorm。RNN梯度不穩定,於是加幾個通路和門控,於是有了LSTM。 LSTM簡化一下,有了GRU。

太深了,梯度傳不下去,於是有了highway。 幹脆連highway的參數都不要,直接變殘差,於是有了ResNet。 強行穩定參數的均值和方差,於是有了BatchNorm。RNN梯度不穩定,於是加幾個通路和門控,於是有了LSTM。 LSTM簡化一下,有了GRU。

梯度 直接 ID orm rop 發展 均值 nor 噪聲

請簡述神經網絡的發展史
sigmoid會飽和,造成梯度消失。於是有了ReLU。
ReLU負半軸是死區,造成梯度變0。於是有了LeakyReLU,PReLU。
強調梯度和權值分布的穩定性,由此有了ELU,以及較新的SELU。
太深了,梯度傳不下去,於是有了highway。
幹脆連highway的參數都不要,直接變殘差,於是有了ResNet。
強行穩定參數的均值和方差,於是有了BatchNorm。
在梯度流中增加噪聲,於是有了 Dropout。
RNN梯度不穩定,於是加幾個通路和門控,於是有了LSTM。
LSTM簡化一下,有了GRU。
GAN的JS散度有問題,會導致梯度消失或無效,於是有了WGAN。
WGAN對梯度的clip有問題,於是有了WGAN-GP。

太深了,梯度傳不下去,於是有了highway。 幹脆連highway的參數都不要,直接變殘差,於是有了ResNet。 強行穩定參數的均值和方差,於是有了BatchNorm。RNN梯度不穩定,於是加幾個通路和門控,於是有了LSTM。 LSTM簡化一下,有了GRU。