【深度學習筆記】優化演算法（ Optimization Algorithm）

阿新 • • 發佈：2018-12-10

本文依舊是吳恩達《深度學習工程師》課程的筆記整理與拓展。

一、優化演算法的目的與挑戰

優化演算法主要是用來加快神經網路的訓練速度，使得目標函式快速收斂。

優化問題面臨的挑戰有病態解、鞍點、梯度爆炸與梯度消失……具體可見參考文獻【1】241頁到249頁。

其中深度學習不太可能陷入區域性最優，因為loss函式通常涉及多個維度(w1,w2...)

二、常見的優化演算法

1、基本演算法

小批量梯度下降即各種變體

批量梯度下降（Batch gradient descent）
隨機梯度下降（Stochastic gradient descent）
小批量梯度下降（Mini-batch gradient descent）

三者關係：

mini-batch size = m,Batch gradient descent

mni-batch size = 1,Stochastic gradient descent

三者各自的特點：

Batch gradient descent：優化目標函式一次迭代的時間太長

Stochastic gradient descent：喪失了向量化加速的優勢

Stochastic gradient descent：可以向量化，而且每次迭代不用遍歷整個資料集

如何選擇mini-batch size:

如果是小的訓練集（m<=2000），可以直接使用Batch gradient descent；對於大的訓練集，常見的size有64,128,256,512.另外注意考慮CPU/GPU memory。

涉及概念Epoch:

1 epoch即一代就是遍歷整個資料集一次。

Momentum梯度下降法（Gradient descent with momentum）

相對於通常的梯度下降法，該優化演算法採用了dw的指數加權平均數替換原來的dw，使得w更快地指向最優解。

指數加權平均 Exponentially weighted averages

這裡補充一下指數加權平均的概念。課堂上是以倫敦連續很多天的溫度為例子， $\theta _{t}$ 是指第t天的溫度

$V_{t} = \beta V _{t-1}+(1-\beta )\theta _{t}$

這裡的指數加權平均Vt大約是 $\frac{1}{1-\beta }$ 天的平均溫度

2、自適應學習率演算法

RMSprop

和Momentum演算法一樣，可以消除梯度下降中的擺動並使用更大的學習率。

Adam

結合了Momentum和RMSprop兩種演算法，是很常用的優化演算法。

三、如何選擇合適的優化演算法

一是考慮自己對演算法的熟悉程度，便於除錯超引數；二是Adam從總體來說是最好的選擇。詳見參考文獻【2】、【3】

四、優化策略

許多優化技術並非真正的演算法，而是一般化的模板，可以特定地產生演算法，或是併入到很多不同的演算法中。

正則化輸入 Normalizing inputs

正則化輸入可以使得代價函式更圓，從而加快訓練速度。

實現方法分為兩步：零均值化，歸一化方差。即減去均值除以標準差。

批標準化 Batch Normalization

 批標準化使得每一層的隱藏單元有著標準的均值和方差（不一定分別為0和1），從而加快訓練速度。

$\gamma \varepsilon$ 這兩個引數是需要學習的引數。更多內容參看論文。

預訓練

待學習

學習率衰減 Learning rate decay

$\alpha =\frac{1}{1+decayrate*epochnum}\alpha _{0}$

兩個超引數：decayrate、 $\alpha _{0}$

【深度學習筆記】優化演算法（ Optimization Algorithm）

本文依舊是吳恩達《深度學習工程師》課程的筆記整理與拓展。一、優化演算法的目的與挑戰優化演算法主要是用來加快神經網路的訓練速度，使得目標函式快速收斂。優化問題面臨的挑戰有病態解、鞍點、梯度爆炸與梯度消失……具體可見參考文獻【1】241頁到249頁。

深度學習中的優化演算法（待更）

優化演算法可以使得神經網路執行的速度大大加快，機器學習的應用是一個高度依賴經驗的過程，伴隨著大量迭代的過程，需要訓練諸多的模型來找到最合適的那一個。其中的一個難點在於，深度學習沒有在大資料領域發揮最大的效果，我們可以利用一個巨大的資料集來訓練神經網路，

【深度學習筆記】（二）基於MNIST資料集的神經網路實驗

一、介紹 MNIST（Mixed National Institute of Standards and Technology database）是網上著名的公開資料庫之一，是一個入門級的計算機視覺資料集，它包含龐大的手寫數字圖片。無論我們學習哪門程式語言

【深度學習筆記】關於卷積層、池化層、全連線層簡單的比較

卷積層池化層全連線層功能提取特徵壓縮特徵圖，提取主要特徵將學到的“分散式特徵表示”對映到樣本標記空間操作可看這個的動態圖，可惜是二維的。對於三維資料比如RGB影象（3通道），卷積核的深度必須

【python學習筆記】openCV包（1）影象操作

碎碎念 python中影象操作的包有很多，之前看過一個教識別的大佬的視訊用了openCV，所以今天也就選擇openCV進行學習啦。另外，感覺openCV可以在很多語言環境下使用啊，C，C++，PHP啥的。這裡只是openCV包中的檔案操作的一些方法，不要小看這

【C++學習筆記】運算子過載（二）

我們回顧一下運算子過載的特點：運算子過載函式名必須為：operator<運算子>。運算子的過載是通過運算子過載函式來實現的。對於二元運算子過載函式，函式的引數通常為一個即右運算元，運算子的左運算元為呼叫過載函式時的物件。對於一元運算子過載函式，運算子的左運算

【C++學習筆記】運算子過載（一）

在C++中我們定義了自己專屬的類，但是隨著類的增加，以及裡面成員複雜度的提高，以前我們常用的運算子就不能很好的處理新出現的資料型別了，這時，就有一個很“異想天開”的想法了——我們自己定義運算子！運算子的過載運算子過載是使同一個運算子作用於不同型別的資料時具有不同的行為。例如我們宣

【C++學習筆記】虛擬函式（二）

虛擬函式與過載函式的關係我們現在來比較一下規則比較多的虛擬函式和規則比較少的過載函式之間的差別：普通函式過載時，其函式的引數個數或者引數型別必須有所不同，函式的返回型別也可以不同。（這個不同是比較嚴格的不同，是涉及本質的）過載函式：要求函式名、返回型別、引

【C++學習筆記】虛擬函式（一）

12.3 昨天居然斷更了，唉，寫部落格真是很需要毅力呀，更新上今天的學習筆記。上次我們講到多型性的定義以及簡述了實現方式以及靜態編譯和動態編譯的概念。這次，我們來具體講一講虛擬函式。什麼是虛擬函式在某基類中宣告為 virtual 並在一個或多個派生類中被重新定義的成

【學習筆記】統計學入門（4/7）——正態分佈

來源：http://study.163.com/course/courseMain.htm?courseId=1005232026 索引—— 基本概念連續變數的統計描述分類變數的統計描述正態分佈二項分佈引數估計與可信區間假設檢驗四、正

深度學習中的優化演算法（SGD->Adam）

深度學習中優化演算法的總結機器學習界有一群煉丹師，他們每天的日常是：拿來藥材（資料），架起八卦爐（模型），點著六味真火（優化演

機器學習中的優化演算法（附程式碼）

摘要 > 優化演算法指通過改善訓練方式，來最小化(或最大化)損失函式E(x) 區域性最優問題區域性最優與鞍點。在神經網路中，最小化非凸誤差函式的另一個關鍵挑戰是避免陷於多個其他區域性最小值中。實際上，問題並非源於區域性極小值，而是來自鞍點，即一個維度向上傾斜且

【尋優演算法】遺傳演算法（Genetic Algorithm）引數尋優的python實現

【尋優演算法】遺傳演算法（Genetic Algorithm）引數尋優的python實現一、遺傳演算法簡介 1、遺傳演算法由來 2、遺傳演算法名詞概念 3、遺傳演算法中對染色體的操作 3.1、選擇 3.2

【機器學習-斯坦福】因子分析（Factor Analysis）

1 問題之前我們考慮的訓練資料中樣例的個數m都遠遠大於其特徵個數n，這樣不管是進行迴歸、聚類等都沒有太大的問題。然而當訓練樣例個數m太小，甚至m<<n的時候，使用梯度下降法進行迴歸時，如果初值不同，得到的引數結果會有很大偏差（因為方程數小於引數個

DeepLearning.ai作業:(2-2)-- 優化演算法（Optimization algorithms）

不要抄作業！我只是把思路整理了，供個人學習。不要抄作業！本週作業實踐了課上的各種優化演算法： mini-batch momentum Adam 首先是標準的gradient descent： def update_paramet

【深度學習筆記1】如何建立和確定模型正確性？如何優化模型？

近期看了吳恩達的一本書，關於如何建立和確定優化模型？裡面有個人認為需要學習的地方，故做筆記： 1.模型訓練一共有三個資料集：訓練集、開發集（驗證集）、測試集。開發集不能太小，通常在1000-10000，並且測試集屬於同一分佈；2.過擬合：訓練過程中開發集的準確率和測試集測試的準確率差別不大，若開發集比測試集

【ML學習筆記】樸素貝葉斯演算法的demo（機器學習實戰例子）

礙於這學期課程的緊迫，現在需要儘快從課本上掌握一些ML演算法，我本不想經過danger zone，現在看來卻只能儘快進入danger zone，數學理論上的缺陷只能後面找時間彌補了。如果你在讀這篇文章，希望你不要走像我一樣的道路，此舉實在是出於無奈，儘量不要去做一個心

吳恩達【深度學習工程師】學習筆記（二）

吳恩達【深度學習工程師】專項課程包含以下五門課程： 1、神經網路和深度學習； 2、改善深層神經網路：超引數除錯、正則化以及優化； 3、結構化機器學習專案； 4、卷積神經網路； 5、序列模型。今天介紹《神經網路與深度學習》系列第二講：神經網

吳恩達【深度學習工程師】學習筆記（十）

吳恩達【深度學習工程師】專項課程包含以下五門課程： 1、神經網路和深度學習； 2、改善深層神經網路：超引數除錯、正則化以及優化； 3、結構化機器學習專案； 4、卷積神經網路； 5、序列模型。今天介紹《結構化機器學習專案》系列第二講：機器學習策略（2）。主要內容：

吳恩達【深度學習工程師】學習筆記（一）

吳恩達【深度學習工程師】專項課程包含以下五門課程： 1、神經網路和深度學習； 2、改善深層神經網路：超引數除錯、正則化以及優化； 3、結構化機器學習專案； 4、卷積神經網路； 5、序列模型。今天介紹《神經網路與深度學習》系列第一講：深度學習概述。主要內容：

【深度學習筆記】優化演算法（ Optimization Algorithm）

一、優化演算法的目的與挑戰

二、常見的優化演算法

1、基本演算法

2、自適應學習率演算法

三、如何選擇合適的優化演算法

四、優化策略

相關推薦