機器學習中的優化演算法（附程式碼）

阿新 • • 發佈：2018-11-27

摘要

> 優化演算法指通過改善訓練方式，來最小化(或最大化)損失函式E(x)

區域性最優問題

區域性最優與鞍點。在神經網路中，最小化非凸誤差函式的另一個關鍵挑戰是避免陷於多個其他區域性最小值中。實際上，問題並非源於區域性極小值，而是來自鞍點，即一個維度向上傾斜且另一維度向下傾斜的點。這些鞍點通常被相同誤差值的平面所包圍，這使得SGD演算法很難脫離出來，因為梯度在所有維度上接近於零。

batch優化

很難選擇出合適的學習率。太小的學習率會導致網路收斂過於緩慢，而學習率太大可能會影響收斂，並導致損失函式在最小值上波動，甚至出現梯度發散。
2.此外，相同的學習率並不適用於所有的引數更新。如果訓練集資料很稀疏，且特徵頻率非常不同，則不應該將其全部更新到相同的程度，但是對於很少出現的特徵，應使用更大的更新率。

隨機梯度下降

對每個訓練樣本進行引數更新，每次執行都進行一次更新，且執行速度更快。
頻繁的更新使得引數間具有高方差，損失函式會以不同的強度波動。這實際上是一件好事，因為它有助於我們發現新的和可能更優的區域性最小值，而標準梯度下降將只會收斂到某個區域性最優值。
但SGD的問題是，由於頻繁的更新和波動，最終將收斂到最小限度，並會因波動頻繁存在超調量。

批量梯度下降

傳統的批量梯度下降將計算整個資料集梯度，但只會進行一次更新，因此在處理大型資料集時速度很慢且難以控制，甚至導致記憶體溢位。
權重更新的快慢是由學習率η決定的，並且可以在凸面誤差曲面中收斂到全域性最優值，在非凸曲面中可能趨於區域性最優值。
使用標準形式的批量梯度下降還有一個問題，就是在訓練大型資料集時存在冗餘的權重更新。

mini-batch梯度下降

聽說GPU對2的冪次的batch可以發揮更佳的效能，因此設定成16、32、64、128…時往往要比設定為整10、整100的倍數時表現更優
視訊記憶體估算，在每一個epoch計算完所有的樣本後，計算下一代樣本的時候，可以選擇打亂所有樣本順序。

一階優化

使用各引數的梯度值來最小化或最大化損失函式E(x)

學習率優化

全域性調整
調整每一個需要優化的引數的學習率.
- 學習率衰減
每隔幾個epoch減少一次learning rate, 一般是每執行5個epoch左右把learning rate減少一半, 或者是每隔20個epoch減少為原來的1/10.
線性衰減。例如：每過5個epochs學習率減半
指數衰減。例如：每過5個epochs將學習率乘以0.1
指數加權平均

帶修正的指數加權平均

修正公式

動量梯度下降Momentum

給學習率增加了慣性

演算法

NAG(Nesterov Momentum)

Momentum由前面下降方向的一個累積和當前點的梯度方向組合而成.先按照歷史梯度往前走那麼一小步，按照前面一小步位置的“超前梯度”來做梯度合併

- AdaGrad
學習率 η 會隨著每次迭代而根據歷史梯度的變化而變化。
將每一個引數的每一次迭代的梯度取平方累加再開方，用基礎學習率除以這個數，來做學習率的動態更新

其學習率是單調遞減的，訓練後期學習率非常小
其需要手工設定一個全域性的初始學習率
學習率的調整太激進, 因此常常過早結束了學習過程.
為每一個引數保留一個學習率以提升在稀疏梯度（即自然語言和計算機視覺問題）上的效能
- Rprop
- RMSprop
目前並沒有發表, 基於權重梯度最近量級的均值為每一個引數適應性地保留學習率

- Adam

結合momentum和RMSprop

二階優化

使用了二階導數(也叫做Hessian方法)來最小化或最大化損失函式。由於二階導數的計算成本很高，所以這種方法並沒有廣泛使用。
如果估計不好一階導數，那麼對二階導數的估計會有更大的誤差，這對於這些演算法來說是致命的。對於二階優化演算法，減小batch換來的收斂速度提升遠不如引入大量噪聲導致的效能下降。在使用二階優化演算法時，往往要採用大batch

牛頓法

擬牛頓法

牛頓法有個缺點，海森矩陣是非稀疏矩陣，引數太多，其計算量太大。

優化演算法效果對比圖
- AdaDelta

通過設定視窗 w, 只使用部分時間的梯度累積.

優化演算法效果對比圖

- Hessian

其它

共軛梯度法
啟發式優化

模擬退火方法、遺傳演算法、蟻群演算法以及粒子群演算法

程式碼演示

總結

文章則是通過對比給出如下結論：自適應優化演算法通常都會得到比SGD演算法效能更差（經常是差很多）的結果，儘管自適應優化演算法在訓練時會表現的比較好，因此使用者在使用自適應優化演算法時需要慎重考慮！

優化演算法效果對比圖

> 推薦使用Adam方法. Adam 演算法通常會比 RMSProp 演算法效果好. 另外,也可以嘗試 SGD+Nesterov Momentum

參考資料
- 一文看懂各種神經網路優化演算法：從梯度下降到Adam方法
- 神經網路優化演算法綜述
- 談談深度學習中的 Batch_Size
- 深度機器學習中的batch的大小對學習效果有何影響？
- 自適應學習率調整：AdaDelta
- 卷積神經網路中的優化演算法比較
- Deep Learning 之最優化方法
- 卷積神經網路中的優化演算法比較
- 教程 | 聽說你瞭解深度學習最常用的學習演算法：Adam優化演算法？
- [Math] 常見的幾種最優化方法

機器學習中的優化演算法（附程式碼）

摘要 > 優化演算法指通過改善訓練方式，來最小化(或最大化)損失函式E(x) 區域性最優問題區域性最優與鞍點。在神經網路中，最小化非凸誤差函式的另一個關鍵挑戰是避免陷於多個其他區域性最小值中。實際上，問題並非源於區域性極小值，而是來自鞍點，即一個維度向上傾斜且

機器學習-K-Means演算法（附原始碼）

定義俗話說“物以類聚”，其實從廣義上說，聚類就是將資料集中在某些方面相似的資料成員放在一起。一個聚類就是一些資料例項的集合，其中處於相同聚類中的資料元素彼此相似，但是處於不同聚類中的元素彼此不同。由於在聚類中那些表示資料類別的分類或分組資訊是沒有的，即這些資料是沒

小姐姐帶你一起學：如何用Python實現7種機器學習演算法（附程式碼）

編譯 | 林椿眄出品 | AI科技大本營（公眾號ID：rgznai100）【AI科技大本營導讀】

機器學習中優化演算法總結以及Python實現

機器學習演算法最終總是能轉化為最優化問題，習慣上會轉化為最小化問題。個人總結迭代優化演算法關鍵就兩點： (1) 找到下降方向 (2) 確定下降步長最速梯度下降演算法梯度下降演算法是以最優化函式的梯度為下降方向，學習率η\etaη乘以梯度的模即為下降步長。更

大資料探勘領域十大經典演算法之—CART演算法（附程式碼）

簡介 CART與C4.5類似，是決策樹演算法的一種。此外，常見的決策樹演算法還有ID3，這三者的不同之處在於特徵的劃分： ID3：特徵劃分基於資訊增益 C4.5：特徵劃分基於資訊增益比 CART：特徵劃分基於基尼指數基本思想 CART假設決策樹是二叉樹，

最小生成樹 prim演算法（附程式碼）

prim演算法是以一個根節點開始慢慢往下延伸，不斷尋找距生成樹最短的距離的節點，然後將該節點納入生成樹的集合中，然後再將該節點影響的其他未納入生成樹節點的距離更新。（縮小與生成樹的距離），重複操作，直至全部節點納入集合或者沒有節點納入集合為止。 prim演算法的時間複雜度為

最小生成樹之kruskal演算法（附程式碼）

prim演算法是通過找距離最近的節點來擴充最小生成樹的，稠密圖選擇prim演算法效率比較高，但是對於稀疏圖呢，prim演算法就顯的比較雞肋了。對於稀疏圖，有一個叫做kruskal的演算法。此演算法求稀疏圖的效率比較高，時間複雜度為O（ElogE）。 kruskal演算法主要

深度學習中的優化演算法（待更）

優化演算法可以使得神經網路執行的速度大大加快，機器學習的應用是一個高度依賴經驗的過程，伴隨著大量迭代的過程，需要訓練諸多的模型來找到最合適的那一個。其中的一個難點在於，深度學習沒有在大資料領域發揮最大的效果，我們可以利用一個巨大的資料集來訓練神經網路，

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

Apriopri演算法 Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。

（三）機器學習——感知機模型（附完整程式碼）

感知機是這一種二類線性分類模型，其輸入例項的特徵向量，輸出為例項的類別，取+1和-1二值。感知機模型和LR模型（https://blog.csdn.net/u014571489/article/details/83387681 ）一樣都是二分模型，但是目標函式(損失函式)不一樣。感知

吳恩達機器學習課程：完全用Python完成，可以的！（附程式碼）

新智元報道來源：Reddit、GitHub編輯：肖琴【導讀】完全用Python完成吳恩達的

輕鬆看懂機器學習十大常用演算法（附例項）

來源：資料與演算法之美本文共2000字，建議閱讀8分鐘。本文僅用圖解，為你介紹十大常用演算法及其

貝葉斯在機器學習中的應用（一）

需要基礎 under 情況下學生意義 span 公式 ext 貝葉斯在機器學習中的應用（一）一：前提知識具備大學概率論基礎知識熟知概率論相關公式，並知曉其本質含義/或實質意義

先驗概率、後驗概率、似然函數與機器學習中概率模型（如邏輯回歸）的關系理解

集中並且結果概率論但我 evidence logs 硬幣之前看了好多書籍和博客，講先驗後驗、貝葉斯公式、兩大學派、概率模型、或是邏輯回歸，講的一個比一個清楚，但是聯系起來卻理解不能基本概念如下先驗概率：一個事件發生的概率 \[P(y)\] 後驗概

機器學習——K-means演算法（聚類演算法）

聚類在說K-means聚類演算法之前必須要先理解聚類和分類的區別。分類其實是從特定的資料中挖掘模式，作出判斷的過程。比如Gmail郵箱裡有垃圾郵件分類器，一開始的時候可能什麼都不過濾，在日常使用過程中，我人工對於每一封郵件點選“垃圾”或“不是垃圾”，過一段時間，Gmail就體現出

半邊資料結構與網格細分演算法Loop subdivision（附程式碼）

網格細分的原理其實並不難理解，它的難點主要在於如何實現。在看過無數有原理無程式碼的部落格後，終於決定寫一寫我的實現方法，並附上程式碼供大家參考。c++寫的可能比較笨拙，望見諒。 1.半邊資料結構很好理解，就是把網格的每一條邊分成兩個半邊，半邊是有方向的同一條邊的兩個半邊方向相反。並且一條邊

先驗概率、後驗概率、似然函式與機器學習中概率模型（如邏輯迴歸）的關係理解

看了好多書籍和部落格，講先驗後驗、貝葉斯公式、兩大學派、概率模型、或是邏輯迴歸，講的一個比一個清楚，但是聯絡起來卻理解不能基本概念如下先驗概率：一個事件發生的概率 \[P(y)\] 後驗概率：一個事件在另一個事件發生條件下的條件概率 \[P(y|x

機器學習筆記—svm演算法（上）

機器學習筆記—svm演算法（上）一：初識svm 問題：用一條直線把下圖的圓球和五角星分離開來。解答：有N種分法，如下圖：附加題：找出最佳分類？解答：如圖： Exe me?鬼知道哪一條是最佳？？等等這個最佳分類是不是等價於，地主讓管家給兩個兒子

ROI Align 在 R-FCN 中的推廣：PSROI-Align（附程式碼）

ROI Align 在 R-FCN 中的推廣：PSROI-Align（附程式碼） 1. Position Sensitive ROI-Pooling 簡介原文：https://blog.csdn.net/Bruce_0712/article/details/80287355 原始碼解析

如何在python中實現整數的二進位制迴圈移位（附程式碼）

【時間】2018.11.03 【題目】如何在python中實現整數的二進位制迴圈移位（附程式碼）概述在python中，可以通過<<以及>>運算子實現二進位制的左移位以及右移位，然而並沒有實現迴圈移位的運算子，暫時也找不到可以實現迴圈移位的函式，所以在本文中，主

機器學習中的優化演算法（附程式碼）

摘要

> 優化演算法指通過改善訓練方式，來最小化(或最大化)損失函式E(x)

區域性最優問題

batch優化

隨機梯度下降

批量梯度下降

mini-batch梯度下降

一階優化

學習率優化

二階優化

牛頓法

擬牛頓法

其它

總結

> 推薦使用Adam方法. Adam 演算法通常會比 RMSProp 演算法效果好. 另外,也可以嘗試 SGD+Nesterov Momentum

相關推薦