Deep Learning 最優化方法之Momentum（動量）

阿新 • • 發佈：2018-12-10

本文是Deep Learning 之最優化方法系列文章的Momentum（動量）方法。主要參考Deep Learning 一書。

先上結論：

1.動量方法主要是為了解決Hessian矩陣病態條件問題（直觀上講就是梯度高度敏感於引數空間的某些方向）的。

2.加速學習

3.一般將引數設為0.5,0.9，或者0.99，分別表示最大速度2倍，10倍，100倍於SGD的演算法。

4.通過速度v，來積累了之間梯度指數級衰減的平均，並且繼續延該方向移動：

再看看演算法：這裡寫圖片描述

動量演算法直觀效果解釋：

如圖所示，紅色為SGD+Momentum。黑色為SGD。可以看到黑色為典型Hessian矩陣病態的情況，相當於大幅度的徘徊著向最低點前進。而由於動量積攢了歷史的梯度，如點P前一刻的梯度與當前的梯度方向幾乎相反。因此原本在P點原本要大幅徘徊的梯度，主要受到前一時刻的影響，而導致在當前時刻的梯度幅度減小。

直觀上講就是，要是當前時刻的梯度與歷史時刻梯度方向相似，這種趨勢在當前時刻則會加強；要是不同，則當前時刻的梯度方向減弱。

從另一個角度講：

要是當前時刻的梯度與歷史時刻梯度方向相似，這種趨勢在當前時刻則會加強；要是不同，則當前時刻的梯度方向減弱。假設每個時刻的梯度g總是類似，那麼由我們可以直觀的看到每次的步長為：

即當設為0.5,0.9，或者0.99，分別表示最大速度2倍，10倍，100倍於SGD的演算法。

Deep Learning 最優化方法之Momentum（動量）

本文是Deep Learning 之最優化方法系列文章的Momentum（動量）方法。主要參考Deep Learning 一書。先上結論： 1.動量方法主要是為了解決Hessian矩陣病態條件問題（直觀上講就是梯度高度敏感於引數空間的某些方向）的。 2.加速學

BAT資深演算法工程師「Deep Learning」讀書系列分享（一） | 分享總結

本文轉載自:https://www.leiphone.com/news/201708/LEBNjZzvm0Q3Ipp0.html 雷鋒網 AI 科技評論按：「Deep Learning」這本書是機器學習領域的重磅書籍，三位作者分別是機器學習界名人、GAN的提出者、谷歌大腦研究科學家 Ian

(Stanford CS224d) Deep Learning and NLP課程筆記（三）：GloVe與模型的評估

本節課繼續講授word2vec模型的演算法細節，並介紹了一種新的基於共現矩陣的詞向量模型——GloVe模型。最後，本節課重點介紹了word2vec模型評估的兩種方式。 Skip-gram模型上節課，我們介紹了一個十分簡單的word2vec模型。模型的目標是預測word $o$出現在另一個word \(c

(Stanford CS224d) Deep Learning and NLP課程筆記（一）：Deep NLP

Stanford大學在2015年開設了一門Deep Learning for Natural Language Processing的課程，廣受好評。並在2016年春季再次開課。我將開始這門課程的學習，並做好每節課的課程筆記放在部落格上。爭取做到每週一更吧。本文是第一篇。 NLP簡介 NLP，全名Natu

(Stanford CS224d) Deep Learning and NLP課程筆記（二）：word2vec

本節課將開始學習Deep NLP的基礎——詞向量模型。背景 word vector是一種在計算機中表達word meaning的方式。在Webster詞典中，關於meaning有三種定義： the idea that is represented by a word, phrase, etc. the i

基於Deep Learning的跟蹤演算法總結（一）

博主最近主要關注使用深度學習的視訊跟蹤一系列演算法，本文為學習筆記，僅供學習交流，如有侵權，請指出。 No Free Lunch 不同於檢測、識別等視覺領域深度學習一統天下的趨勢，深度學習在目標跟蹤領域的應用並非一帆風順。其主要問題在於訓練資料的缺失。深

基於Deep Learning的跟蹤演算法總結（二）

本文主要談談TCNN（樹狀CNN）實現物體跟蹤演算法的大致流程和原理。論文：《Modeling and Propagating CNNs in a Tree Structure for Visual Tracking》，應該是投了CVPR2017。論文地

基於Deep Learning的跟蹤演算法總結（四）

題外話：博主這段時間忙於辦理簽證，比較忙，一直沒時間看論文。：-（一、引言深度學習具有強大的能力，但由於目標跟蹤任務本身的特殊性，深度學習一直沒能很好地發揮出自己的潛能。其中，導致深度學習演算法速度慢的一個重要原因是online-update，即更新過程

Machine learning 成神之路（1）

Coursera Standford Machine Learning 學習筆記 Andrew 教授貌似很牛的樣子，machine learning 的需求很大喲，這是他說的。什麼是supervise learning 監督學習？據說這是一種很常見的 machine l

Deep Learning with Python 系列筆記（六）：深度學習實踐進階

Keras functional API keras中常用的Sequential 模型，通常假設網路只有一個輸入和一個輸出，並且這些網路層之間是一種線性的堆疊。如下：事實上，這種結構太過普通，我們需要把許多內容和實際操作都通過一個Sequential模型實現

Deep learning with python 學習筆記（一）

一、前饋神經網路第三章：編寫前饋神經網路的程式碼：#Layer Neural Network for Regression import autograd.numpy as np import autograd.numpy.random as npr from aut

Deep Learning論文筆記之（二）Sparse Filtering稀疏濾波

structure 分布的確 tlab bolt 期望有一個尋找 mean Deep Learning論文筆記之（二）Sparse Filtering稀疏濾波自己平時看了一些論文，但老感覺看完過後就會慢慢的淡忘，某一天重新拾起來的時候又好像沒有

Coursera-Deep Learning Specialization 課程之（四）：Convolutional Neural Networks: -weak4程式設計作業

人臉識別 Face Recognition for the Happy House from keras.models import Sequential from keras.layers import Conv2D, ZeroPadding2D,

機器學習入門之四：機器學習的方法-神經網絡（轉載）

轉載 bsp 圖像 src nbsp 加速數值 str 我們　　轉自飛鳥各投林　　神經網絡　　　　神經網絡(也稱之為人工神經網絡，ANN)算法是80年代機器學習界非常流行的算法，不過在90年代中途衰落。現在，攜著“深度學習”之勢，神

Ajax技術之XMLHttpRequest（二）【XMLHttpRequest常用方法和屬性】

tro 沒有 body htm 事件 thead 指定 response date 一、XMLHttpRequest中常用的方法：（1）open（）方法：用於設置進行異步請求目標的URL、請求方法以及其他參數信息。函數原型：open("method","URL",asy

C#可擴展編程之MEF學習筆記（三）：導出類的方法和屬性（轉）

學習說了如何 mod ati dem ont num imp 前面說完了導入和導出的幾種方法，如果大家細心的話會註意到前面我們導出的都是類，那麽方法和屬性能不能導出呢？？？答案是肯定的，下面就來說下MEF是如何導出方法和屬性的。　　還是前面的代碼，第二篇中已經提供了下

JAVA基礎學習之路（六）數組與方法參數的傳遞

就是 .com 另一個 AS oid span 參數 spa nbsp 通常，向方法中傳遞的都是基本數據類型，而向方法中傳遞數組時，就需要考慮內存的分配 public class test2 { public static void main(String a

學習之路（五）淺談：三種語句結構，vim編輯器快捷鍵及使用方法，find命令使用

vim編輯器循環；forwhileuntil for 變量 in 列表； do 循環體 done e.g for I in ‘seq 1 $FILE‘ ; doecho "Hello,‘head -n $I

行java之道（一）學習的方法

行java之道（一）學習的心得自序我是一名普通的JAVA開發從業者，接下來一段時間我會更新一些自己的心得體會，之所以想要這麼做，一是因為自己早有將自己的心得體會記錄下來的願景；二是因為自己在近來招聘中所遇見的應聘者誇誇其談框架，卻對基礎答非所問

HTTP請求方法之header（原來不光只有post和get啊~~）

以前一直以為HTTP請求只有POST和GET方法（知識最常用的），後來看一篇簡書，裡面提到還有HEAD方法，再查查資料發現不止這3個。。。據RFC2616標準（現行的HTTP/1.1）得知，通常有以下8種方法：OPTIONS、GET、HEAD、POST、PUT、DELET

Deep Learning 最優化方法之Momentum（動量）

相關推薦