深度學習——線性單元和梯度下降

阿新 • • 發佈：2018-10-14

每次總結只知道指向預測模型 pre 叠代 $$

機器學習的一些基本概念，模型、目標函數、優化算法等等，這些概念對於機器學習算法來說都是通用的套路。

線性單元

　　當我們面對的數據不是線性可分的時候，感知器規則就無法收斂，為了解決這個問題，我們使用一個可導的線性函數來替代感知器的階躍函數，這種感知器就叫做線性單元。線性單元在面對線性不可分的數據集的時候，會收斂到一個最佳的近似上。

　　線性單元將返回一個實數值而不是0,1分類，因此線性單元用來解決回歸問題而不是分類問題。

線性模型

　　模型：實際上就是根據輸入x預測輸出y的算法。$y=h(x)=w*x_i+b$，$h(x)$函數叫做假設，w和b叫做參數。$x_i$稱為特征。

$y=h(x)=\mathrm{w}^T\mathrm{x}\qquad\qquad(式1)$稱為線性模型，

監督學習和無監督學習

有監督學習：為了訓練一個模型，我們要提供一堆訓練樣本：每個訓練樣本既包括輸入特征x，也包括對應的輸出y（標記），讓模型既看到輸入特征x

梯度下降算法

梯度是一個向量：指向函數上升最快的方向。梯度的反方向就是梯度下降的最快的方向。

梯度下降算法的公式$$\mathrm{x}_{new}=\mathrm{x}_{old}-\eta\nabla{f(x)}$$

其中，$\nabla$是梯度算子

，$\nabla{f(x)}$就是指$f(x)$的梯度。$\eta$是步長，也稱作學習速率。

我們拿線性模型的目標函數來說：$$E(\mathrm{w})=\frac{1}{2}\sum_{i=1}^{n}(\mathrm{y^{(i)}-\bar{y}^{(i)}})^2$$

梯度下降算法可以完成$$\mathrm{w}_{new}=\mathrm{w}_{old}-\eta\nabla{E(\mathrm{w})}$$

如果我們要求目標函數的最大值，我們可以使用梯度上升算法，$$\mathrm{w}_{new}=\mathrm{w}_{old}+\eta\nabla{E(\mathrm{w})}$$

我們通過求$\nabla{E}(\mathrm{w})$帶入上式，就能得到線性單元的參數修改規則。

$\nabla{E}(\mathrm{w})$的推導

關於w的偏導數

$$\begin{align}
\nabla{E(\mathrm{w})}&=\frac{\partial}{\partial\mathrm{w}}E(\mathrm{w})\\
&=\frac{\partial}{\partial\mathrm{w}}\frac{1}{2}\sum_{i=1}^{n}(y^{(i)}-\bar{y}^{(i)})^2\\
&=\frac{1}{2}\sum_{i=1}^{n}\frac{\partial}{\partial\mathrm{w}}(y^{(i)}-\bar{y}^{(i)})^2\\
\end{align}$$

$$\begin{align}
&\frac{\partial}{\partial\mathrm{w}}(y^{(i)}-\bar{y}^{(i)})^2\\
=&\frac{\partial}{\partial\mathrm{w}}(y^{(i)2}-2\bar{y}^{(i)}y^{(i)}+\bar{y}^{(i)2})\\
\end{align}$$

$y$是與$w$無關的參數，而$\bar{y}=\mathrm{w}^T\mathrm{x}$，下面我們用復合函數求導法

$$\frac{\partial{E(\mathrm{w})}}{\partial\mathrm{w}}=\frac{\partial{E(\bar{y})}}{\partial\bar{y}}\frac{\partial{\bar{y}}}{\partial\mathrm{w}}$$

分別計算上式等號右邊的兩個偏導數

$$\begin{align}
\frac{\partial{E(\mathrm{w})}}{\partial\bar{y}}=
&\frac{\partial}{\partial\bar{y}}(y^{(i)2}-2\bar{y}^{(i)}y^{(i)}+\bar{y}^{(i)2})\\
=&-2y^{(i)}+2\bar{y}^{(i)}\\\\
\frac{\partial{\bar{y}}}{\partial\mathrm{w}}=
&\frac{\partial}{\partial\mathrm{w}}\mathrm{w}^T\mathrm{x}\\
=&\mathrm{x}
\end{align}$$

代入，我們求得$\sum$

$$\begin{align}
&\frac{\partial}{\partial\mathrm{w}}(y^{(i)}-\bar{y}^{(i)})^2\\
=&2(-y^{(i)}+\bar{y}^{(i)})\mathrm{x}
\end{align}$$

最後代入$\nabla{E}(\mathrm{w})$，求得

$$\begin{align}
\nabla{E(\mathrm{w})}&=\frac{1}{2}\sum_{i=1}^{n}\frac{\partial}{\partial\mathrm{w}}(y^{(i)}-\bar{y}^{(i)})^2\\
&=\frac{1}{2}\sum_{i=1}^{n}2(-y^{(i)}+\bar{y}^{(i)})\mathrm{x}\\
&=-\sum_{i=1}^{n}(y^{(i)}-\bar{y}^{(i)})\mathrm{x}
\end{align}$$

經過推導，目標函數$E(w)$的梯度是$$\nabla{E(\mathrm{w})}=-\sum_{i=1}^{n}(y^{(i)}-\bar{y}^{(i)})\mathrm{x}^{(i)}$$

所以線性單元的參數修改規則最後是這個樣子

$$\nabla{E(\mathrm{w})}=-\sum_{i=1}^{n}(y^{(i)}-\bar{y}^{(i)})\mathrm{x}^{(i)}$$

有了上面的式子，我們就能寫出訓練線性單元的代碼

$$\begin{bmatrix}
w_0 \\
w_1 \\
w_2 \\
... \\
w_m \\
\end{bmatrix}_{new}=
\begin{bmatrix}
w_0 \\
w_1 \\
w_2 \\
... \\
w_m \\
\end{bmatrix}_{old}+\eta\sum_{i=1}^{n}(y^{(i)}-\bar{y}^{(i)})
\begin{bmatrix}
1 \\
x_1^{(i)} \\
x_2^{(i)} \\
... \\
x_m^{(i)} \\
\end{bmatrix}$$

隨機梯度下降算法（Stochastic Gradient Descent,SGD）

如果我們每次更新w的叠代，要遍歷訓練數據中所有的樣本進行計算，我們稱這種算法叫做批梯度下降(Batch Gradient Descent)，如果我們數據樣本非常大達到了上百萬億，就需要用SGD算法，在SGD算法中，每次更新w的叠代，只計算一個樣本，這樣對於一個具有數百萬樣本的訓練數據，完成一次遍歷就會對由於樣本的噪音和隨機性，每次更新$w$

$\mathrm{w}_{new}=\mathrm{w}_{old}+\eta\sum_{i=1}^{n}(y^{(i)}-\bar{y}^{(i)})\mathrm{x}^{(i)}\qquad\qquad(式3)$

深度學習——線性單元和梯度下降

每次總結只知道指向預測模型 pre 叠代 $$ 機器學習的一些基本概念，模型、目標函數、優化算法等等，這些概念對於機器學習算法來說都是通用的套路。線性單元　　當我們面對的數據不是線性可分的時候，感知器規則就無法收斂，為了解決這個問題，我們使用一個可導的線性

深度學習——線性單元和梯度下降

線性單元

線性模型

監督學習和無監督學習

梯度下降算法

$\nabla{E}(\mathrm{w})$的推導

隨機梯度下降算法（Stochastic Gradient Descent,SGD）

深度學習——線性單元和梯度下降

深度學習筆記——線性單元和梯度下降

（轉載）深度學習（2）——線性單元和梯度下降

深度學習筆記（基礎篇）——（二）線性單元和梯度下降

線性迴歸和梯度下降講解與程式碼

深度學習必備：隨機梯度下降（SGD）優化演算法及視覺化

深度學習反向傳播---隨機梯度下降法

Pytorch_第七篇_深度學習 (DeepLearning) 基礎 [3]---梯度下降

深度學習基礎--BP和訓練--常用的梯度下降

機器學習----線性迴歸原理---最下二乘法和梯度下降怎麼來的-----專案預測大學生是否被錄取程式碼案例

斯坦福大學機器學習筆記——單變數的線性迴歸以及損失函式和梯度下降法（包含程式碼）

【機器學習詳解】線性迴歸、梯度下降、最小二乘的幾何和概率解釋

機器學習--線性單元迴歸--單變數梯度下降的實現

機器學習筆記 1 LMS和梯度下降（批梯度下降） 20170617

【吳恩達機器學習】學習筆記——2.7第一個學習算法=線性回歸+梯度下降

機器學習 LR中的參數叠代公式推導——極大似然和梯度下降

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

機器學習筆記（一）：最小二乘法和梯度下降

機器學習入門線性迴歸及梯度下降

機器學習3 邏輯斯提回歸和梯度下降演算法

深度學習——線性單元和梯度下降

線性單元

線性模型

監督學習和無監督學習

梯度下降算法

$\nabla{E}(\mathrm{w})$的推導

隨機梯度下降算法（Stochastic Gradient Descent,SGD）

相關推薦