深度學習實踐（二）——多層神經網路

#一、準備
為了更深入的理解神經網路，筆者基本採用純C++的手寫方式實現，其中矩陣方面的運算則呼叫opencv，資料集則來自公開資料集a1a。
實驗環境：

本文緊跟上篇文章深度學習實踐（一）——logistic regression。
#二、神經網路基礎
標準的神經網路結構如下圖所示，其實就是上文logistic regression的增強版（即多加了幾個隱層），基本思路還未變化。關於更詳細的原理介紹，這裡還是推薦吳恩達的深度學習系列課程。
這裡寫圖片描述

下面以三層神經網路（即上圖）並結合a1a資料集，介紹構建的一般步驟：

初始化引數w1、w2、w3和b1、b2、b3，因為a1a資料集的維度是有123個特徵，所以上圖中input_layer維度為（123，m），m為樣本數量，如訓練集則為1065；而我們所構建的三層神經網路中間隱層神經元個數分別為（64,16,1），所以初始化引數矩陣w1（123,64）、w2（64,16）、w3（16,1）和偏置實數b1、b2、b3。
將W和X相乘（矩陣相乘，X為上層的輸出，一開始即為樣本的輸入），再加上偏置b（為實數），則得到Z。
將Z進行啟用，在隱層選擇啟用函式relu（可以更好的防止梯度爆炸，且結果很好），輸出層選擇sigmoid限制輸出，它們的影象如下：
將上面的正向傳播完成後，定義損失函式，這裡使用交叉熵代價函式。
反向傳播，並更新引數。

正向傳播基本公式：
這裡上標L代表第幾層，上標i表示第幾個樣本（對應到a1a資料集即第幾行），如 $A^{[0]}$

A^{[0]}

A^{[0]}

表示0層的輸入（即樣本輸入）。

$Z^{[1]} = W^{[1]}A^{[0]} +b^{[1]}\tag{1}$
$A^{[1]} = Relu(Z^{[1]})\tag{2}$
$Z^{[2]} = W^{[2]}A^{[1]} +b^{[2]}\tag{3}$
$A^{[2]} = Relu(Z^{[2]})\tag{4}$
$Z^{[3]} = W^{[3]}A^{[2]} +b^{[3]}\tag{5}$
$A^{[3]} = Sigmoid(Z^{[3]})\tag{6}$
$\mathcal{L}(A^{[3]}, \hat Y) = - A^{[3]}\log(A^{[3]}) - (1-\hat Y ) \log(1-A^{[3]})\tag{7}$

The cost is then computed by summing over all training examples:
$J = \frac{1}{m} \sum_{i=1}^m \mathcal{L}(A^{(i)[3]}, Y^{(i)})\tag{8}$

反向傳播基本公式：
$dA^{[3]}= \frac{\partial \mathcal{L}}{\partial A^{[3]}}= \frac{1-\hat Y}{1-A^{[3]}}-\frac{\hat Y}{A^{[3]}}\tag{1}$
$dZ^{[3]}=\frac{\partial \mathcal{L}}{\partial A^{[3]}}*\frac{\partial A^{[3]} }{\partial Z^{[3]}}=dA[3]*A^{[3]}*(1-A^{[3]})\tag{2}$

深度學習實踐（二）——多層神經網路

深度學習實踐（二）——多層神經網路

（轉載）深度學習基礎（7）——遞迴神經網路

TensorFlow 訓練 MNIST （2）—— 多層神經網路

吳恩達深度學習筆記（2）-什麼是神經網路（Neural Network）

深度學習基礎（二）—— 從多層感知機（MLP）到卷積神經網路（CNN）

機器學習實踐（二）—sklearn之資料集

深度學習實踐（一）—tensorflow之概述

MySQL高效程式設計學習筆記（二）--多個表的連線

Tensorflow深度學習筆記（二）--BPNN手寫數字識別視覺化

深度學習入門（二）——TensorFlow介紹

Devops學習實踐（二） Jenkins安裝、配置、任務構建

深度學習實踐（一）——logistic regression

揭開知識庫問答KB-QA的面紗7·深度學習下篇（二）

pytorch實戰（二）-多層感知機識別MNIST數字

機器學習筆記（二）——多變數最小二乘法

mybatis學習筆記（二）多pojo，複雜對映

Torch7深度學習教程（二）

TensorFlow筆記（二）---多層感知機識別手寫數字

java學習筆記（二）多執行緒

TensorFlow 深度學習框架（9）-- 經典卷積網路模型 : LeNet-5 模型 & Inception-v3 模型

深度學習實踐（二）——多層神經網路

相關推薦