機器學習最優化演算法總結

阿新 • • 發佈：2019-01-21

1. 牛頓法

假設任務是優化一個目標函式f，求函數f的極大極小問題，可以轉化為求解函式f的導數f'=0的問題，這樣求可以把優化問題看成方程求解問題（f'=0）。為了求解f'=0的根，把f（x）的泰勒展開，展開到2階形式：

這個式子是成立的，當且僅當 Δx 無線趨近於0。此時上式等價與：

求解：

得出迭代公式：

一般認為牛頓法可以利用到曲線本身的資訊，比梯度下降法更容易收斂（迭代更少次數），如下圖是一個最小化一個目標方程的例子，紅色曲線是利用牛頓法迭代求解，綠色曲線是利用梯度下降法求解。

在上面討論的是2維情況，高維情況的牛頓迭代公式是：

其中H是Hessian矩陣，定義為：

經典牛頓法雖然具有二次收斂性，但是要求初始點需要儘量靠近極小點，否則有可能不收斂。計算過程中需要計算目標函式的二階偏導數，難度較大。更為複雜的是目標函式的Hesse矩陣無法保持正定，會導致演算法產生的方向不能保證是f在Xk 處的下降方向，從而令牛頓法失效（只有Hesse矩陣正定時，才能保證f在x處下降

）；特別的，如果Hesse矩陣奇異，牛頓方向可能根本是不存在的。

2. 擬牛頓法

牛頓法收斂速度快，但是計算過程中需要計算目標函式的二階偏導數，難度較大；目標函式的Hesse矩陣無法保持正定，從而令牛頓法失效。為了解決這兩個問題，人們提出了擬牛頓法，即“模擬”牛頓法的改進型演算法。基本思想是不用二階偏導數而構造出可以近似Hesse矩陣的逆的正定對稱陣，從而在“擬牛頓”的條件下優化目標函式。Hesse陣的構造方法的不同決定了不同的擬牛頓法。

搜尋方向為：

BGFS演算法

BFGS演算法是Broyden，Fletcher，Goldfarb，Shanno四位優化大家在1970年幾乎同時從不同的優化角度提出的。從發明到現在的40多年時間裡，它仍然被認為是最好的擬牛頓演算法。

BFGS演算法有一個變種，叫作“Limited-memory BFGS”，簡稱“L-BFGS”。使用L-BFGS演算法來編寫程式時，它會比BFGS算法佔用的記憶體小。

問題：牛頓法為什麼比梯度下降法快？

牛頓法是二階收斂，梯度下降是一階收斂，所以牛頓法就更快。如果更通俗地說的話，比如你想找一條最短的路徑走到一個盆地的最底部，梯度下降法每次只從你當前所處位置選一個坡度最大的方向走一步，牛頓法在選擇方向時，不僅會考慮坡度是否夠大，還會考慮你走了一步之後，坡度是否會變得更大。所以，可以說牛頓法比梯度下降法看得更遠一點，能更快地走到最底部。

根據wiki上的解釋，從幾何上說，牛頓法就是用一個二次曲面去擬合你當前所處位置的局部曲面，而梯度下降法是用一個平面去擬合當前的局部曲面，通常情況下，二次曲面的擬合會比平面更好，所以牛頓法選擇的下降路徑會更符合真實的最優下降路徑。

機器學習最優化演算法總結

機器學習最優化演算法總結

機器學習經典演算法總結一.線性迴歸

機器學習整合演算法總結

機器學習基本演算法總結4

資料探勘與機器學習基本演算法總結

機器學習常用演算法總結

機器學習常見演算法總結(二)

機器學習經典演算法總結（3）——特徵選擇

機器學習-組合演算法總結

機器學習常見演算法總結+ 面試題

機器學習常見演算法總結（面試用）

機器學習 —— 各類演算法優缺點總結

KNN演算法優缺點總結，以及機器學習流程的總結

機器學習常用演算法的優缺點總結

機器學習常見演算法及原理總結（乾貨）

機器學習常見演算法優缺點總結

機器學習常用演算法優點及缺點總結

機器學習基本概念總結（轉載）

輕松入門機器學習之概念總結（二）

吳恩達《機器學習》課程總結（7）正則化

機器學習 最優化演算法 總結

相關推薦

機器學習最優化演算法總結