1. 程式人生 > >深度學習優化器比較

深度學習優化器比較

    如圖所示:

經驗之談
對於稀疏資料,儘量使用學習率可自適應的優化方法,不用手動調節,而且最好採用預設值
SGD通常訓練時間更長,但是在好的初始化和學習率排程方案的情況下,結果更可靠
如果在意更快的收斂,並且需要訓練較深較複雜的網路時,推薦使用學習率自適應的優化方法。
Adadelta,RMSprop,Adam是比較相近的演算法,在相似的情況下表現差不多。
在想使用帶動量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果

參考
1. https://blog.csdn.net/fengchao03/article/details/78208414
2. https://blog.csdn.net/g11d111/article/details/76639460