【機器學習】為什麼負梯度方向是目標函式下降最快的方向

阿新 • • 發佈：2019-01-04

在機器學習中，我們的目標是最小化損失函式: $J(\mathbf {\theta})$ 。為了快速得到最佳的引數 $θ$

\mathbf {\theta}

θ

,我們需要找到損失函式下降最快的方向，即找到一個

\theta

移動的方向

\mathbf{v}

, 使得

J(\theta) - J(\mathbf{\theta + v})

最大。公式描述為：

$\mathbf{v} = argmax_{\mathbf{v}}(J(\theta) - J(\mathbf{\theta + v}))$

對 $J(\mathbf{\theta + v})$ 進行一階泰勒展開：

$J(\mathbf{\theta + v})\approx J(\theta) +\mathbf{v}^T\triangledown_{\theta}J(\theta)$
$J(\theta) -J(\mathbf{\theta + v})\approx-\mathbf{v}^T\triangledown_{\theta}J(\theta)$

則目標變為：

$\mathbf{v} = argmax_{\mathbf{v}}(-\mathbf{v}^T\triangledown_{\theta}J(\theta))$

因為 $\mathbf{v}^T\triangledown_{\theta}J(\theta)$ 可以理解為兩個向量的點積（向量 $\mathbf{v}$ 和向量 $\triangledown_{\theta}J(\theta)$ ），可寫成 $|\mathbf{v}||\triangledown_{\theta}J(\theta)|\cos\alpha$ ,其中 $\alpha$ 為兩個向量的夾角。為了使上述“負點積”最大，則兩個向量應該方向相反（180度），即 $\mathbf{v}$ 和 $\triangledown_{\theta}J(\theta)$ 方向相反，其中 $\triangledown_{\theta}J(\theta)$ 即為目標函式的梯度。因此，應該沿著負梯度的方向更新引數才會使損失函式下降得最快。

【機器學習】為什麼負梯度方向是目標函式下降最快的方向

【機器學習】為什麼負梯度方向是目標函式下降最快的方向

【機器學習】對梯度下降算法的進一步理解

【機器學習】基於梯度下降法的自線性迴歸模型

【機器學習】筆記--梯度提升（Gradient boosting)

【機器學習】GBDT梯度提升演算法調參法總結II

【機器學習】貝葉斯線性迴歸（最大後驗估計+高斯先驗）

機器學習演算法篇：從為什麼梯度方向是函式變化率最快方向詳談梯度下降演算法

為什麼負梯度方向是函式下降最快的方向

【機器學習】1 監督學習應用與梯度下降

【機器學習】梯度下降法詳解

【機器學習】傳統目標檢測演算法之級聯分類器Cascade

【機器學習】【RNN中的梯度消失與梯度爆炸】

【機器學習】梯度下降演算法分析與簡述

【機器學習】梯度下降演算法及梯度優化演算法

【機器學習】【邏輯迴歸】最大似然估計的推導和求解步驟和梯度上升演算法求解

【機器學習】迭代決策樹GBRT（漸進梯度迴歸樹）

【機器學習】【線性迴歸】梯度下降的三種方式(BGD+SGD+MSGD)以及三種調優方法(加快收斂速度)

【機器學習】梯度下降 II

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

【機器學習】主成分分析PCA（Principal components analysis）

【機器學習】為什麼負梯度方向是目標函式下降最快的方向

相關推薦