神經網路的反向傳播公式的推導

前言：

早該開始入坑CNN,RNN的博主總覺得要先能用python加numpy手擼一個神經網路，才能更好理解其他神經網路的原理（強迫症）。於是…這一拖就是快兩月（懶），最近填坑的時候才發現以為自己很通透的反向傳播過程，寫起程式碼推起來就…。
光看西瓜書覺得反向傳播就是損失函式反向對每一層引數求偏導的過程。但西瓜書推導僅在三層網路上，各層引數符號定義也不統一（博主太笨）。於是又結合吳恩達《machine learning》課程才算推匯出能夠寫成程式碼迭代形式的公式。同時發現吳恩達老師視訊有關鍵步驟是簡略帶過，讓基礎較差初學者推導起來也很生硬。於是，博主在他網路課基礎上再推導一遍記成筆記。水平有限，有疏漏錯誤歡迎指正。

正文

神經網路的前向傳播和符號

在《machine learning》裡神經網路的前向傳播部分的公式被定義如下：
輸入層是x，中間有兩層隱藏層，輸出層是$ a^{(4)} $。
$a^{(1)}$

= x z ( 2 ) =

Θ ( 1 ) a ( 1 ) a ( 2 ) = g ( z ( 2 ) ) z ( 3 ) = Θ ( 2 ) a ( 2 ) a ( 3 ) = g ( z ( 3 ) ) z ( 4 ) = Θ ( 3 ) a ( 3 ) a ( 4 ) = h Θ ( x ) = g ( z ( 4 ) ) a^{(1)} = x \newline z^{(2)} = \Theta^{(1)}a^{(1)} \newline a^{(2)} = g(z^{(2)}) \newline z^{(3)} = \Theta^{(2)}a^{(2)} \newline a^{(3)} = g(z^{(3)}) \newline z^{(4)} = \Theta^{(3)}a^{(3)} \newline a^{(4)} = h_\Theta(x) = g(z^{(4)})

a^{(1)} = x z^{(2)} = Θ^{(1)} a^{(1)} a^{(2)} = g (z^{(2)}) z^{(3)} = Θ^{(2)} a^{(2)} a^{(3)} = g (z^{(3)}) z^{(4)} = Θ^{(3)} a^{(3)} a^{(4)} = h_{Θ} (x) = g (z^{(4)})

在這個神經網路裡面的g(x)是每個神經元的啟用函式，採用sigmoid模型：

g(x) = \frac{1}{1+e^{(-x)}}

而sigmoid函式有一個在推導過程使用到性質，對它求導有：

g&#x27;(x) = g(x)*(1-g(x))

吳老師講解神經網路給的損失函式模型是交叉熵：
$J(\Theta) = - \frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K \left[y^{(i)}_k \log ((h_\Theta (x^{(i)}))_k) + (1 - y^{(i)}_k)\log (1 - (h_\Theta(x^{(i)}))_k)\right] + \frac{\lambda}{2m}\sum_{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} ( \Theta_{j,i}^{(l)})^2$
化成矩陣的同時方便下面推導形式有：
$J(\Theta) = - \frac{1}{m}\sum(y * log(a^{(4)})) + (1-y)*log(1-a^{(4)}))$

而在周志華老師西瓜書的推導裡，給出神經網路的損失函式是均方誤差模型：
$Ek=\frac{1}{2}\sum(h_\Theta(x)- y)^2$
這裡y是標記的正確輸出結果。

但其無論該神經網路損失函式是什麼，他們反向傳播的原理都是一致的。（埋伏筆，下面有解釋）

我們先和吳恩達視訊裡一樣先定義$ \delta^{(i)} $來表示神經網路裡第i層的誤差。（先不要糾結為什麼這麼定義，繼續看下去）。

同時在吳恩達視訊裡最難理解一步就是誤差 $\delta^{(4)}$ 只給出較為抽象的解釋。
實際上他這裡定義的誤差 $\delta^{(i)}$ 有公式：

$\delta^{(i)} = \frac{\partial J}{\partial z^{(i)}}$

神經網路的反向傳播公式的推導

神經網路的反向傳播公式的推導

前言：

正文

神經網路的前向傳播和符號

BP神經網路反向傳播演算法一步一步例項推導（Backpropagation Example）

神經網路反向傳播梯度計算數學原理

神經網路反向傳播，通俗理解

【手撕】神經網路反向傳播

超詳細的長短時記憶LSTM和門控迴圈單元GRU的反向傳播公式推導！

神經網路反向傳播（BP）演算法原理

神經網路二之神經網路反向傳播原理與python程式設計實現

神經網路反向傳播時的梯度到底怎麼求？

人工神經網路——反向傳播演算法(BP)以及Python實現

卷積神經網路——反向傳播演算法

CNN卷積神經網路--反向傳播（2，前向傳播）

神經網路-反向傳播

感知器和神經網路訓練（公式推導及C++實現）

卷積神經網路反向傳播演算法

用張量廣播機制實現神經網路反向傳播

神經網路的反向傳播公式的推導

深層神經網路和卷積神經網路的反向傳播過程推導

神經網路和反向傳播演算法推導

卷積神經網路反向BP演算法公式推導

神經網絡正向傳播與反向傳播公式

神經網路的反向傳播公式的推導

神經網路的反向傳播公式的推導

前言：

正文

神經網路的前向傳播和符號

相關推薦