【機器學習詳解】解無約束優化問題：梯度下降、牛頓法、擬牛頓法

無約束優化問題是機器學習中最普遍、最簡單的優化問題。

x∗=minxf(x),x∈Rn

1.梯度下降

梯度下降是最簡單的迭代優化演算法，每一次迭代需求解一次梯度方向。函式的負梯度方向代表使函式值減小最快的方向。它的思想是沿著函式負梯度方向移動逐步逼近函式極小值點。選擇適當的初始值x(0),不斷迭代，沿負梯度方法更新x值，直到收斂。具體的：

x(k+1)=x(k)−α▽xkf(x)

固定學習率

梯度下降虛擬碼（固定學習率）：
1. 取初始值x(0),令k=0，學習率α,容忍度ϵ;
2. 計算梯度gk=▽x(k),若|gk|<ϵ,則停止迭代，返回x∗=x(k);
3. 更新x

(k+1)=x(k)−αgk,若|x(k+1)−x(k)|<ϵ或者|f(x(k+1))−f(x(k))|<ϵ,則停止迭代，返回x∗=x(k+1)
4. k=k+1,轉到步驟2

值得一提的是梯度下降演算法與下面介紹的幾種演算法都不能保證函式能降低到全域性最小值附近，有可能是區域性最小值附近。如果目標函式f(x)是凸函式，區域性最小值即為全域性最小值。

下圖是二維函式f(x)=0.5(x21−x22)+0.5(x1−1)2在固定學習率的情況下，兩種不同的學習率分別迭代20次的結果，起始點(x1,x2)=(0,0),最小值點(x1,x2)=(1,1)
這裡寫圖片描述
上圖中學習率α=0.1時，隨著迭代次數的增加，每次移動的步長越來越小，甚至很難逼近最優值，表明學習率α

太小；當α=0.6時，移動的軌跡在某值附近開始震盪，表明學習率α太大;由此可見，固定學習率的演算法太大或者太小都不好。下面介紹一種可變學習率的演算法，採用線性搜尋的方案，每次迭代前尋找最優的α值，再進行迭代；

線性搜尋
固定學習率中每一迭代更新x(k+1)=x(k)−αgk。線上性搜尋中我們設函式h(α)=f(xk−αgk)，即看成是關於α的函式，解αk=minαh(α)=minαf(x(k)−αgk)，然後迭代更新x(k+1)=x(k)−αkgk;這樣可以保證x向函式下降方法移動,並收斂到區域性最優值。

梯度下降虛擬碼（線性搜尋）：
1. 取初始值x(0),令k=0，學習率α

,容忍度ϵ;
2. 計算梯度gk=▽x(k),若

相關推薦

【機器學習之數學】03 有約束的非線性優化問題——拉格朗日乘子法、KKT條件、投影法

目錄將有約束問題轉化為無約束問題拉格朗日法 KKT條件拉格朗日法更新方程凸優化問題下的拉格朗日法罰函式法對梯度演

【機器學習詳解】解無約束優化問題：梯度下降、牛頓法、擬牛頓法

無約束優化問題是機器學習中最普遍、最簡單的優化問題。 x∗=minxf(x),x∈Rn 1.梯度下降梯度下降是最簡單的迭代優化演算法，每一次迭代需求解一次梯度方向。函式的負梯度方向代表使函式值減小最快的方向。它的思想是沿著函式負梯度方向移動逐步逼

【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

總結 ora 二次判斷天都特性以及解釋意思【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估計（Maximum lik

【機器學習詳解】KNN分類的概念、誤差率及其問題

勿在浮沙築高臺 KNN概念 KNN(K-Nearest Neighbors algorithm)是一種非引數模型演算法。在訓練資料量為N的樣本點中，尋找最近鄰測試資料x的K個樣本，然

【機器學習詳解】SMO演算法剖析

CSDN−勿在浮沙築高臺本文力求簡化SMO的演算法思想，畢竟自己理解有限，無奈還是要拿一堆公式推來推去，但是靜下心看完本篇並隨手推導，你會迎刃而解的。推薦參看SMO原文中的虛擬碼。 1.SMO概念上一篇部落格已經詳細介紹了SVM原理，為了方便求解，把原

【機器學習詳解】線性迴歸、梯度下降、最小二乘的幾何和概率解釋

線性迴歸即線性擬合，給定N個樣本資料（x1,y1）,(x2,y2)....(xN,yN)其中xi為輸入向量，yi表示目標值，即想要預測的值。採用曲線擬合方式，找到最佳的函式曲線來逼近原始資料。通過使得代價函式最小來決定函式引數值。採用斯坦福大學公開課的

吳恩達機器學習課程筆記02——處理房價預測問題（梯度下降演算法詳解）

建議記住的實用符號符號含義 m 樣本數目 x 輸入變數 y 輸出變數/目標變數

【機器學習基石筆記】一、綜述

model 但是目標學習 imp 選擇處理定義條件課程定位：註重基礎、故事性機器學習定義： data - Algo - improve 機器學習使用條件 1、有優化的目標，可量化的。 2、規則不容易寫下來，需要學習。 3、要有數據一個可能的推薦

【機器學習基石筆記】二、感知機

證明機器學習 sign 線性可分缺點學習犯錯 nbsp 錯誤感知機算法： 1、首先找到點，使得sign(wt * xt) != yt，　　那麽如果yt = 1，說明wt和xt呈負角度，wt+1 = wt + xt能令wt偏向正角度。　　如果yt = -1, 說

【機器學習基石筆記】三、不同類型的機器學習

質數一個非監督輸入編號不同象棋按順序 pla 一、不同的output 1、二分類 2、多分類 3、回歸問題 4、structured learn: 從一個句子 -> 句子每個詞的詞性。　　輸出是一個結構化的東西。　　例子：蛋白質數據 ->

【機器學習基石筆記】四、無法學習？

機器學習估計事情永遠 pro app out 天下 oba 天下沒有白吃的午餐，從樣本內到樣本外永遠無法估計。抽樣的話，樣本內頻率和樣本外概率相等PAC （probably approximately correct）一個重要的事情是樣本要在總體分布中取。 E

【機器學習數學基礎】線性代數基礎

目錄線性代數一、基本知識二、向量操作三、矩陣運算線性代數一、基本知識本書中所有的向量都是列向量的形式： \[\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix}x_1\\x_2\

【機器學習演算法實現】主成分分析 PCA ——基於python+numpy

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【機器學習演算法實現】logistic迴歸基於Python和Numpy函式庫

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【機器學習演算法實現】kNN演算法手寫識別——基於Python和NumPy函式庫

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【機器學習筆記35】蟻群演算法

【參考資料】【1】《蟻群演算法原理及其應用》【2】測試資料: https://comopt.ifi.uni-heidelberg.de/software/TSPLIB95/tsp/att48.tsp.gz 演算法原理（以TSP問題為例）（1）引數初始化。令時間t=0和迴圈次數

【機器學習演算法總結】線性迴歸

文章目錄 1 機器學習概念 2 線性迴歸 3 代價函式 4 代價函式求解 4.1 正規方程求解 4.2 梯度下降法 4.2.1 批量梯度下降(BGD) 4.2.2 隨機梯

【機器學習筆記02】最小二乘法（多元線性迴歸模型）

數學基礎 1.轉置矩陣定義：將矩陣A同序數的行換成列成為轉置矩陣ATA^TAT，舉例： A=(1203−11)A=\begin{pmatrix} 1 & 2 & 0 \\ 3 & -1 &

【機器學習筆記01】最小二乘法（一元線性迴歸模型）

【參考資料】【1】《概率論與數理統計》【2】 http://scikit-learn.org /stable/auto_examples/ linear_model/ plot_ols.html # sphx-glr-auto-examples-

【機器學習筆記04】隨機梯度下降

梯度下降梯度下降是一個尋找函式機值的方式，屬於最優化裡的基礎演算法，在低維度的情況下非常容易理解。例如存在函式y=x2y=x^2y=x2存在導數dy=2x，若當前點在x=1點，設dx的步長為0.1。此時我們通過負梯度計算下一個x點xt+1=xt−2∗0.