前向神經網路和 BP 演算法詳解

一、神經網路的概念詳解

首先我們需要明確一點就是，針對於擁有核函式的 SVM 或者多隱層 + 啟用函式的多層神經網路，或者其他可以處理非線性可分的模型來說，感知機我們常稱為神經元，但也可以看成是兩層的神經網路( 即只有輸入層和輸出層，沒有隱層 )，雖然它只能處理線性可分問題，但它依然是我們學習神經網路和深度學習的基石。
圖中對應的符號含義如下：
- 輸入（x1 ，…，xn）
- 偏移b 和突觸權重（w1 ，…，wn），注意，我們下面推到是使用 $θ_{i}$ 代替 wi 進行公式推導。
- 組合函式c（·）
- 啟用函式a（·）
- 輸出y
用數學的語言來說，如果我們有m個樣本，每個樣本對應於n維特徵和一個二元類別輸出，如下：
$(x_{1}^{(0)}, x_{2}^{(0)}, . . . x_{n}^{(0)}, y_{0}), (x_{1}^{(1)}, x_{2}^{(1)}, . . . x_{n}^{(1)}, y_{1}), . . . (x_{1}^{(m)}, x_{2}^{(m)}, . . . x_{n}^{(m)}, y_{m})$
我們的目的便是找一個超平面，即： $θ_{0} + θ_{1} x_{1} + . . . + θ_{n} x_{n} = 0$ 讓把每個類別的樣本特徵帶入該方程時，要麼大於 0 ，要麼小於 0,從而使得樣本分居在超平面兩側，從而到達線性可分。一般如果樣本線性可分，則這樣的超平面會有多個解，不唯一。

為了簡化模型，我們增加一個 x0 = 1，使得超平面方程簡寫為 $\sum_{i = 0}^{n} θ_{i} x_{i} = 0$ 進一步可寫向量形式為 $θ ∙ x = 0$ 其中 $θ$ 和 X 均為 n * 1 的向量， $∙$ 為內積，下面我們都用它表示超平面。
故感知機的模型可以定義為 $y = s i g n (θ ∙ x)$ ,其中sign 為啟用函式，它是符號函式，也稱為階躍函式。
$s i g n (x) = {\begin{cases} - 1 & x < 0 \\ 1 & x \geq 0 \end{cases}$
在多層神經網路中，我們可能用到其他的啟用函式,如下：

這裡寫圖片描述