機器學習-神經網路（二）

上一篇：機器學習-神經網路（一）

神經網路的代價函式

符號	意義
$L$	神經網路結構總層數
$S_l$	第 $l$ 層的單元數量 (不包括偏差單元)
$K = S_L$	輸出層的單元數量

在這裡插入圖片描述

(日了個仙人闆闆，手寫一直渲染錯誤只能貼圖了，: ) 浪費好久時間 )

代價函式中 $θ$

0 \theta_0

θ_{0}

總是被忽略的，因為我們並不想把

\theta_0

加入到正則化裡，也不想使它為 0，即不把偏差項正則化。

反向傳播

為什麼使用反向傳播

在神經網路中，我們的 $\theta$ 數量居多，如果一個一個計算代價函式的偏導項再進行梯度下降計算，計算量實在是太大了，在使用梯度下降演算法進行訓練時速度會特別慢。因此，為了計算代價函式的偏導項，我們選擇使用反向傳播計算每一個神經節點激勵值與期望神經節點激勵值的誤差，然後通過誤差與神經元的激勵值再次計算得出偏導項的計算結果。

思想

我們能夠明白，如果輸出層的輸出與期望得到的輸出存在誤差，那麼當下的每個神經元的激勵值必定與得到期望輸出時的每個神經元的激勵值也存在誤差，我們將使用 $\delta_j^{(l)}$ 代表第 $l$ 層的第 $j$ 個神經元當下激勵值與期望神經元的激勵值之間存在的誤差。

而反向傳播演算法從直觀上說，就是從輸出層開始到輸入層為止，反向推匯出每一個神經節點的激勵值的誤差 $\delta$ 。

方法

使用反向傳播前，也就是求代價函式的導數前，首先需要使用前向傳播將每一個神經節點的激勵值算出，然後從後向前計算每一個神經節點的 $\delta$ 。我們還要明白的就是：我們此時只知道輸出層神經節點的期望激勵值，因此我們只能夠從輸出層開始計算。

那麼，假設我們有一層輸入層，一層輸出層，兩層隱藏層，一共四層，我們能夠以 $\delta_2^{(4)}$ 表示輸出層的第二個神經節點的激勵值誤差， 並且它的值能夠通過計算得出： $\delta_2^{(4)} = a_2^{(4)} - y_2$ ，通常我們會以向量化的形式表示整個一層的誤差值 即 $\delta^{(4)}$ = $a^{(4)} - y$ 。

而我們會使用這樣一個公式，反向計算上一層的誤差值：
$\delta^{(l-1)} = (\Theta^{(l-1)})^T\delta^{(l)} .* g'(z^{(l-1)})$

如第 3 層：

$\delta^{(3)} = (\Theta^{(3)})^T\delta^{(4)} .* g'(z^{(3)})$

$.*$ 代表兩個向量(矩陣)對應值兩兩相乘。

$g$ 代表激勵函式，通過計算能夠得出 $g'(z^{(l)}) = a^{(l)} .*(1 - a^{(l)})$

同樣的，我們能夠計算出第 2 層 $\delta^{(2)}$ ，但是我們並不需要計算 $\delta^{(1)}$ ，因為輸入層是明確的已知值。

如何計算代價函式的導數項

不使用求導的方法，我們能夠通過以下公式得到導數項的最終結果（忽略正則化）：
$\frac{\partial}{\partial(\Theta_{ij}^{(l)})}J(\Theta) = a_j^{(l)} \delta_i^{(l+1)}$

也就是代價函式 $J(\theta)$ 對第 $l$ 層第 $i$ 行 $j$ 列的 $\theta$ 求偏導 $=$ 第 $l$ 層第 $j$ 個神經節點的激勵值 $a$ × 第 $l+1$ 層第 $i$ 個神經節點的誤差值 $\delta$

由此，我們能夠很快求出所有引數 $\theta$ 的偏導數。

但是

由於每條訓練集資料都不相同，因此針對與每條資料，得到的輸出層結果與期望結果也總是不同的，那麼雖然每層的引數矩陣 $\Theta$ 一直不變，但由於每條資料的每層的誤差 $\delta$ 各不相同，那麼每條資料的代價函式求導自然得出的值也不相同。

所以我們需要計算出針對於每層 $\Theta$ 的每條資料的代價偏導 $\frac{\partial}{\partial(\Theta_{ij}^{(l)})}J(\Theta)$ ，然後進行相加，最終得出針對 $m$ 條資料算出的第 $l$ 層的總體代價函式偏導值： $\Delta_{ij}^{(l)}$

機器學習-神經網路（二）

神經網路的代價函式

反向傳播

為什麼使用反向傳播

思想

方法

如何計算代價函式的導數項

但是

機器學習-神經網路（二）

機器學習----神經網路（一）Jacobian矩陣和Hessian矩陣

機器學習與神經網路（二）：感知器的介紹和Python程式碼實現

機器學習簡要筆記（二）——常見學習任務及算法

吳恩達老師機器學習筆記SVM（二）

機器學習之旅（二）

機器學習基礎知識（二）

系統學習機器學習之總結（二）--機器學習演算法比較

搭建簡單圖片分類的卷積神經網路（二）-- CNN模型與訓練

機器學習速成筆記（二）：訓練與損失

機器學習——整合演算法（二）

林軒田機器學習基石入門（二）

神經網路（二）：Softmax函式與多元邏輯迴歸

機器學習基本知識（二）：邏輯迴歸

系統學習機器學習之總結（二）--離散型特徵編碼方式：one-hot與啞變數*

人工神經網路（二）單層感知器

機器學習演算法總結（二）調參技巧

Machine Learning第六講[應用機器學習的建議] --（二）診斷偏差和方差

卷積神經網路（二）：應用簡單卷積網路實現MNIST數字識別

spark機器學習筆記：（二）用Spark Python進行資料處理和特徵提取

機器學習-神經網路（二）

神經網路的代價函式

反向傳播

為什麼使用反向傳播

思想

方法

如何計算代價函式的導數項

但是

相關推薦