多層前饋神經網路的後向傳播演算法推導

神經網路模型定義

本文研究的多層前饋神經網路（Multi-layer Feedforward Neural Networks），包含多層神經元，每層神經元與下一層神經元完全連線，神經元之間不存在同層連線，也不存在跨層連線.

設神經網路的層數為 N, 其中包括輸入層、輸出層和隱含層。我們用 n 來表示模型的第 n 層（i∈[1,N]）.

設神經網路第 n 層的神經元數目為 Kn，我們用 (n,k) 來表示模型的第 n 層的第 k 個神經元（k∈[1,Kn]）.

對於網路的第 n 層，其每一個神經元的輸入都是上一層所有神經元的輸出。將第 n 層的神經元的輸入記為 x(n)，將第 n 層第 k

個神經元的輸出記為 y(n)k，則有

x(n)=[y(n−1)1,y(n−1)2,⋯,y(n−1)Kn−1]

設神經元 (n,k) 與上一層各神經元之間的連線權重為 w(n)k，其維度為 Kn−1，即上一層的神經元數目. 神經元 (n,k) 的啟用閾值為 b(n)k. 因此，神經元 (n,k) 接收到的輸入為：

z(n)k=w(n)k⋅x(n)−b(n)k=∑i=1Kn−1w(n)k,i⋅x(n)i−b(n)k

我們使用Sigmoid函式 σ(x) 作為神經元的啟用函式：

σ(x)=11−e−x
那麼神經元 (n,k) 的輸出可以表示為：
y(n)k=σ(z(n)k)=11−e−(

w(n)k⋅x(n)−b(n)k)

給定訓練資料集 D=(X,Y)，其中 X 為資料特徵集， Y 為資料標籤集。根據該資料集構建神經網路，網路第一層神經元作為輸入層，神經元數目 K1 為資料特徵的維數，網路最後一層（即第 N 層）的神經元作為輸出層，神經元數目 KN 為資料標籤的維數。

模型推斷的目的是求解最佳的網路引數 {w},{b}，使得神經網路可以儘可能好地擬合給定訓練資料集。該問題可以表述為一個最優化問題，目標函式（也即損失函式）為每組資料的模型輸出值與真實輸出值之間的均方誤差，即：

L=12∑k=1K