1. 程式人生 > >1.3.1 【Deep Learning翻譯系列】Neural Network Overview神經網路概覽

1.3.1 【Deep Learning翻譯系列】Neural Network Overview神經網路概覽

在這裡插入圖片描述
上圖是一個神經網路。神經網路中每個的節點對應於的兩個步驟:
首先計算 z = w T x + b

z=w^Tx+b ,然後計算 a = σ ( z ) a=\sigma(z)
,如下圖所示。
在這裡插入圖片描述
它的計算圖如下所示:
在這裡插入圖片描述
首先輸入 x , W [ 1 ] ,
b [ 1 ] x,W^{[1]},b^{[1]}
,來計算 z [ 1 ] z^{[1]} ,然後與對數機率迴歸類似,使其通過 σ \sigma 函式得到 a [ 1 ] a^{[1]} 。然後使用另一個線性函式計算 z [ 2 ] z^{[2]} ,然後再用相似的方式計算 a [ 2 ] a^{[2]} 。在神經網路中,也使用類似的反向計算方式得到各個引數的梯度。

下圖是一個單隱層神經網路的照片。
x 1 , x 2 , x 3 x_1,x_2,x_3 堆疊並輸入的層被稱為是神經網路的輸入層。
中間一層包括很多圓形圈圈的層,被稱為神經網路的隱藏層。
最後一層只有一個節點,被稱為輸出層,負責生成預測值 y ^ \hat y
在這裡插入圖片描述
在神經網路中,監督式學習的練集包含輸入 x x 的值以及所述目標調整輸出 y y
所以隱含層這個術語指的是,在訓練集中這些因素的真值沒有被觀察到,而只看到了輸入輸出。
使用向量 X X 來表示輸入的特徵和,並令 a [ 0 ] = X a^{[0]}=X

a a 代表著啟用的意思,它指的是神經網路的不同的層中會被傳遞到隨後的層的值。
所以輸入層傳遞值 X X 到隱藏層,所以這裡被稱為第0個隱藏層。
下一層,隱層又會產生啟用,寫為 a [ 1 ] a^{[1]} ,在這個圖中它是一個四維向量,
之後是輸出層的 a [ 2 ] a^{[2]} ,它會是一個實數,並且 y ^ \hat y 採用這個數值 a [ 2 ] a^{[2]}

關於神經網路符號約定一個有趣的事情是:這個網路被稱為兩層神經網路。
其原因是,當我們在計算神經網路層, 我們不計算輸入層。
所以圖中隱層是第一層,輸出層是第二層。
常規的用法中,一般將這個神經網路認為是兩層的神經網路,因為不希望輸入層作為正式層。

最後,隱藏層和輸出層將具有與它們相關聯的引數。 所以隱層將有與它相關的引數 W [ 1 ] W^{[1]} b [ 1 ] b^{[1]}
W [ 1 ] W^{[1]} 是一個4×3矩陣, b [ 1 ] b^{[1]} 是4×1向量。因為這個隱藏層有四個節點,並有三個輸入。
輸出層也有某些引數與之相關聯,也 W [ 2 ] W^{[2]} b [ 2 ] b^{[2]} 。它們的尺寸是是由 1×4 和 1×1 。
因為隱藏層具有四個隱藏單元, 輸出層只有一個單元。