人工智慧（四）：人工神經網路

阿新 • • 發佈：2018-12-16

在這裡我們只做總結梳理，具體的證明我們並不涉及，只要掌握原理，併為我們所用即可。

一、感知器——單個神經元

在說明神經網路之前，先介紹一下神經網路的基礎計算單元——神經元，也是一直沿用至今的“M-P神經元模型”。在這個模型中，神經元接收到來自n個其他神經元傳遞過來的輸入訊號，這些輸入訊號通過帶權重的連線進行傳遞，神經元接收到的總輸入值將與神經元的閾值進行比較，然後通過“啟用函式”處理以產生神經元的輸出，兩層神經元組成感知器。

上圖就是一個簡單的感知器，藍色是輸入的樣本，g(z)是啟用函式，z=x1*w1+…,a=g(z)

這個東西可以用來幹什麼呢？我們可以令b=-30,w1=20,w2=20，此時限制輸入的x1和x2為0或者1，啟用函式為sigmoid函式：

上圖為sigmoid函式影象，可以看出當x很大時，此函式趨於1，當x很小時，此函式趨於0，寫出真值表，可以發現這個感知器完成了一個邏輯與的操作。

將引數修改為b=-10,w1=20,w2=20，此時感知器又完成了一個邏輯或的操作,真值表就不寫了，也就是說改變這些圓圈圈之間的傳遞引數，可以使這個感知器完成邏輯或和邏輯與的操作。當然對一個輸入取非也不會有問題(b=10,w1=-20)。因此，我們可以改變連線引數，從而使感知器完成與、或、非的操作。

感知器的學習規則可以表示如下：

其中成為學習率。若感知器對訓練樣例預測正確，則感知器不會發生變化，否則將根據錯誤的程度進行權重調整。因此，我們可以改變連線引數，從而使感知器完成與、或、非的操作。

二、多層感知器——人工神經網路

在單層感知器的輸入部分和輸出層之間加入一層或多層處理單元，就構成了二層或多層感知器。在感知器模型中，只允許某一層的連線權值可調，這是因為無法知道網路隱層的神經元的理想輸出，因而難以給出一個有效的多層感知器學習演算法。多層感知器克服了單層感知器的許多缺點，原來一些單層感知器無法解決的問題，在多層感知器中就可以解決。例如，應用二層感知器就可以解決異或邏輯運算問題。常見的神經網路是形如下圖所示的層級結構，每層神經元與下層神經元全互連，神經元之間不存在同層連線，也不存在跨層連線，這樣的神經網路結構通常稱為“多層前饋神經網路”，其中輸入層神經元神經元接受外界輸入，隱層與輸出層對訊號進行加工，最後結果由輸出層神經元輸出。

這就是一個典型的神經網路，我們設為j層到j+1層的傳遞矩陣，從輸入層(藍色)到中間的第二層，就有：

同理，第二層到輸出層：

注意這個神經網路的輸出只有一個值而神經網路的輸出可以有任意個，這裡僅以此為例不再展開寫，上邊就是當已知每一層之間的係數矩陣時，神經網路求解的過程。

舉個最簡單的非線性問題之一：異或。

利用兩層感知機可以實現異或的計算，但是如何求異或中間的權重w，是一個非常關鍵的問題，求得引數，既可以得到該問題的解。這裡引申出BP演算法來求解人工神經網路。

三、BP演算法

BP演算法基本分為這兩個過程：

正向傳播FP(求損失)，在這個過程中，我們根據輸入的樣本，給定的初始化權重值W和偏置項的值b，計算最終輸出值以及輸出值與實際值之間的損失值，如果損失值不在給定的範圍內則進行反向傳播的過程；否則停止W,b的更新。

反向傳播BP(回傳誤差)，將輸出以某種形式通過隱層向輸入層逐層反傳，並將誤差分攤給各層的所有單元，從而獲得各層單元的誤差訊號，此誤差訊號即作為修正各單元權值的依據。

先簡單說一下什麼是梯度下降(SGD)。我們假設有一個凸函式如圖所示，如何從隨機的一點逐漸收斂到這個函式的最小值呢？

下邊的虛擬碼就是梯度下降。當迴圈次數達到一定數量時，此時的x就非常接近f(x)的最小值了。

a是一個更新率，當a很小時梯度收斂的很慢，當a較大時梯度收斂的較快，當a過大時可能無法收斂，比如x減去一個很小的負值，函式值比原來距離正確的最小值點更遠了。可見對於這樣一個平滑的凸函式，迭代的步子會隨著次數增加越邁越小，原因就是導數越來越小了。這樣就會使得x逐漸逼近最小值點。

對於神經網路的損失函式，它不僅僅有一個引數，我們便需要求出損失函式對每個引數的偏導數，在最後統一進行引數更新後進行下一輪迭代。

神經網路系統使用正向傳播求當前引數的損失，然後反向傳播回傳誤差，根據誤差訊號迭代修正每層的權重。SGD演算法(stochastic gradient descent)的第一步是隨機初始化每一個引數。Stochastic的意思正是隨機。通過這組隨機的引數計算得到每一個神經元的輸入輸出值和損失函式後，就可以求損失函式對各個引數的偏導數了，梯度更新的那個delta就等於alpha*偏導數。

而BP演算法則是用來求那一堆偏導數的，BP的意思是反向傳播。就是把最後一層的誤差反向傳遞迴別的神經元，得到每一層的誤差函式，從而解出偏導數。

輸出層的誤差求取規則如下：