2017CS231n李飛飛深度視覺識別筆記（四）——神經網路

阿新 • • 發佈：2019-01-02

第四講神經網路

課時1 反向傳播

目前，我們已經講了怎麼定義一個分類器、怎麼定義一個損失函式以及它的正則化，也討論了用梯度下降的方法找到最小化的損失函式。

接下來，將討論如何計算任意複雜函式的解析梯度，用到一個叫計算圖的框架。大體上說，計算圖就是用這類圖來表示任意函式，其中圖的節點表示要執行的每一步計算，比如下圖中的例子：

這個線性分類器輸入x和W，輸出得分向量，另外一個計算節點表示hinge loss，計算資料損失項Li，同時有一個正則化項，最後輸入的總的損失函式L就是正則化項與資料項的和；利用這樣的計算圖的好處就是能夠用反向傳播技術，遞迴地用鏈式法則來計算每個變數的梯度。

那麼反向傳播是如何工作的呢？

簡單的例子：（1）假設有一個函式，要找到函式輸出對應任意變數的梯度，第一步是利用計算圖來表示整個函式，例如：

現在要做的是這個網路的前向傳播，這裡給定了每個變數對應的值，寫入計算圖中，最後得到的值為-12；計算對應的梯度如下：

而反向傳播是鏈式法則的遞迴呼叫，從後往前計算出所有的梯度。

最後一個變數f的梯度為，接下來變數z的梯度為，變數q

的梯度為，變數y的梯度為，變數x的梯度為

。

這裡使用的鏈式法則是為了在有更復雜的計算的時候，用這種方式可以更方便的計算梯度，而在本例中比較簡單的時候也可以直接計算不需要鏈式相乘。

主要的操作是在每個結點上計算需要的本地梯度，然後跟蹤這個梯度，在反向傳播過程中，接收從上游傳回來的這個梯度值，直接用這個值乘以本地梯度就能得到想要傳回連線點的值。

複雜的例子：（2）假設有函式，同樣的把它轉換成

一個計算圖：

圖中標出就是前向傳播的對應的梯度值，而現在要對它們進行反向傳播，看一下它的反向計算過程：

接著把剩餘的梯度也給填充上去：

所以如果利用這樣的計算圖，然後應用反向傳播和鏈式法則，就能很快的計算出所需要的梯度。

問題：對於這max運算，它的梯度值是多少？

答：z的梯度是2，w的梯度是0。其中的一個變數將會得到剛傳遞回來的梯度完整值，並且再傳遞給那個變數，然後另一個變數的梯度會取0。

另一個需要說明的情況是上圖所示，當有一個節點連線到多個節點時，梯度會在這個節點累加。在這些分支上，根據多元鏈式法則，只會獲取每個節點的返回的上游梯度值，然後將它們加起來獲得這個節點總的上游梯度。

可以這樣思考，如果要改變這個節點一點點，當通過這個圖進行前向傳遞時，它會影響在前向傳遞中影響到所有連線這個節點的節點，然後當進行反向傳播時，所有傳回的梯度都會影響到這個節點，這就是為什麼將這些加起來得到迴流到這個點的總上游梯度值。

接下來，討論變數是高維的情況：

例如有一個向量作為輸入，其中有4096個元素，在卷積神經網路中，這種資料尺寸是比較常見的，中間的運算節點是對每個元素求最大值的運算，最後的輸出也是一個包含4096個元素的向量。

問題：這個例子中的雅克比矩陣是尺寸是幾乘幾的？（雅克比矩陣的每一行都是偏導數，矩陣的每個元素是輸出向量的每個元素，是對輸入向量每個元素分別求導的結果）

答：矩陣的尺寸是4096*4096。實際中還會遇到更大的矩陣，所以實際運算時，多數情況下並不會計算如此大的矩陣。

問題：這個雅克比矩陣的特點？

答：對角矩陣。

一個向量的例子如下圖：

同樣的，用相同的方法計算出。記住一個重要的事情：檢查變數梯度的向量大小，應該和變數向量大小一致。

所以，我們可以將上述的前向傳播和後向傳播的方法模組化成一個API，如下所示：

總結：

（1）神經網路都將會是非常龐大和複雜，所以將所有引數的梯度公式寫下來是不現實的；

（2）為了得到這些梯度，應該使用反向傳播——神經網路中的一個核心技術就是使用反向傳播來計算梯度，我們利用計算圖和鏈式法則，從後開始計算出所有中間變數的梯度；

（3）正向：希望得到計算結果，並存儲所有將會在後面的梯度計算中用到的中間值；

（4）反向：使用鏈式法則、上游梯度將它與本地梯度相乘，計算在輸出節點方向上的梯度，然後將它傳遞給下一個連線的節點。

課時2 神經網路

在此前我們已經使用了很多這種計分函式：；

現在使用一個2層的神經網路：；

或者使用一個3層的神經網路：；

一般來說，神經網路就是由簡單函式構成的一組函式，使用一種層次化的方式將它們堆疊起來，形成一個更復雜的非線性函式；這也正是深度神經網路的由來，可以堆積很多層形成深度網路。

有很多人在談論神經網路如何從生物學中獲得靈感；說起神經元，每個神經元有很多樹突用來接收脈衝訊號，然後通過細胞體處理這些訊號，接著通過軸突將處理後的訊號輸出；所以和神經元很類似，神經網路的結構和流程也是這樣。

計算圖裡的節點相互連線，我們需要輸入“訊號x”，所有x的輸入量比如x0、x1、x2等，採用比如賦予權重W的方法，疊加匯合到一起，將結果整合起來後得到一個啟用函式，將啟用函式應用在神經元的端部，得到的值作為輸出。

注意：在進行這種類比時要特別小心，因為生物學上的神經元實際上比我們描述的要複雜的多，它們的樹突會比表現出異常複雜的非線性，而並非像我們描述的那樣只有簡單的權重。

另外，提到啟用函式，我們已經討論過了多種不同的啟用函式，之後我們會對所有的啟用函式進行更加詳細的討論。

並且，接下來我們也將討論神經元的不同架構形式，比如剛剛提到的2層和3層神經網路結構：

總結：

（1）本節中討論瞭如何將神經元組織起來進行運算；

（2）神經元抽象的好處使我們可以採用非常高效的向量化程式碼進行運算；

我們已經大致瞭解了神經網路的一個工作的流程，類似於神經元的訊號傳遞過程，下一章中我們將繼續討論卷積神經網路的相關內容。

2017CS231n李飛飛深度視覺識別筆記（四）——神經網路

第四講神經網路課時1 反向傳播目前，我們已經講了怎麼定義一個分類器、怎麼定義一個損失函式以及它的正則化，也討論了用梯度下降的方法找到最小化的損失函式。接下來，將討論如何計算任意複雜函式

2017CS231n李飛飛深度視覺識別筆記（五）——卷積神經網路

第五講卷積神經網路課時1 歷史在上一章中，我們討論了神經網路的有關知識以及線性評分函式的執行例項，通過堆疊線性層來實現完整的神經網路。接下來，我們將討論卷積神經網路，以下是1998年L

2017CS231n李飛飛深度視覺識別筆記（九）——CNN架構

第九講 CNN架構上一章中討論了不同的深度學習框架，包括有TensorFlow、PyTorch、Caffe，這一章中將會討論CNN架構方面的內容。在這裡會深入探討那些ImageNe

2017CS231n李飛飛深度視覺識別筆記（二）——影象分類

第二章影象分類課時1 資料驅動方法在上一章的內容，我們提到了關於影象分類的任務，這是一個計算機視覺中真正核心的任務，同時也是本課程中關注的重點。當做影象分類時，分類系統接收一些輸入影象

2017CS231n李飛飛深度視覺識別筆記（十）——迴圈神經網路

第十講迴圈神經網路課時1 RNN,LSTM,GRU 上一章中討論了CNN的架構有關內容，這一節中將討論有關RNN的內容。在之前的學習中，提到了一種稱為vanilla的前饋網路

2017CS231n李飛飛深度視覺識別筆記（一）——計算機視覺概述和歷史背景

第一章計算機視覺概述和歷史背景課時1 計算機視覺概述計算機視覺：針對視覺資料的研究。關鍵是如何用演算法來開發可以利用和理解的資料，視覺資料存在的問題是它們很難理解，有時把視覺資料稱為“

2017CS231n李飛飛深度視覺識別筆記（十二）——視覺化和理解卷積神經網路

第十二講視覺化和理解卷積神經網路課時1 特徵視覺化、倒置、對抗樣本上一章中計算機視覺中一些內容，包括影象分割、檢測以及識別；這一章中將討論卷積神經網路的內部真正的工作原理是什麼。

深度學習筆記（四）——神經網路和深度學習（淺層神經網路）

1.神經網路概覽神經網路的結構與邏輯迴歸類似，只是神經網路的層數比邏輯迴歸多一層，多出來的中間那層稱為隱藏層或中間層。從計算上來說，神經網路的正向傳播和反向傳播過程只是比邏輯迴歸多了一次重複的計算。正向傳播過程分成兩層，第一層是輸入層到隱藏層，用上標[1]來表示；第二層是隱藏層到輸出層，用上標

機器學習（西瓜書）學習筆記（四）---------神經網路

1. 神經元模型神經網路/人工神經網路：由具有適應性的簡單單元組成的廣泛並行互連的網路。神經網路學習：機器學習和神經網路兩個學科交叉的部分。 Neural Networks中的基本單元：神經元。從電腦科學的角度，NN就是一個包含了大量引數的數學模型，該模型由若干個函式相互代入而

吳恩達深度學習筆記（3）-神經網路如何實現監督學習？

神經網路的監督學習(Supervised Learning with Neural Networks) 關於神經網路也有很多的種類，考慮到它們的使用效果，有些使用起來恰到好處，但事實表明，到目前幾乎所有由神經網路創造的經濟價值，本質上都離不開一種叫做監督學習的機器學習類別，讓我們舉例看看。

Coursera吳恩達《神經網路與深度學習》課程筆記（2）-- 神經網路基礎之邏輯迴歸

上節課我們主要對深度學習（Deep Learning）的概念做了簡要的概述。我們先從房價預測的例子出發，建立了標準的神經網路（Neural Network）模型結構。然後從監督式學習入手，介紹了Standard NN，CNN和RNN三種不同的神經網路模型。接

TensorFlow深度學習入門筆記（四）一些基本函數

.com com pre http 今天重用模型 use max 關註公眾號“從機器學習到深度學習那些事”獲取更多最新資料寫在前面學習建議：以下學習過程中有不理解可以簡單查找下資料，但不必糾結（比如非得深究某一個函數等），盡量快速的學一遍，不求甚解無妨。多實操代碼，

機器學習筆記（六）神經網路引入及多分類問題實踐

一、神經網路引入我們將從計算機視覺直觀的問題入手，提出引入非線性分類器的必要性。首先，我們希望計算機能夠識別圖片中的車。顯然，這個問題對於計算機來說是很困難的，因為它只能看到畫素點的數值。應用機器學習，我們需要做的就是提供大量帶標籤的圖片作為訓練集，有的圖片是一輛車，有的圖片不是一輛車，最終我們

吳恩達機器學習筆記（5）—— 神經網路

本教程將教大家如何快速簡單的搭起一個自己的部落格，並不會系統的教會你如何建站，但是可以讓掌握建站的基礎對以後web學習有一定的幫助。購買一個域名域名就相當於地址，我們就是通過域名來訪問我們的網站，現在萬網和騰訊雲都有廉價域名賣，首年大概1-5元一年吧。

cs231n斯坦福基於卷積神經網路的CV學習筆記（二）神經網路訓練細節

五，神經網路注意點part1 例項：邏輯迴歸二層神經網路訓練函式使用權重w和偏差值biase計算出第一個隱含層h，然後計算損失，評分，進行反向傳播回去多種常用啟用函式（一般預設max（0，x）），如sigmoid函式具有飽和區梯度0，非零點中心，計算x複

tensorflow課堂筆記（六）神經網路搭建的八股

""" 神經網路搭建的八股：前向傳播就是搭建網路，設計網路結構（forward.py） def forward(x, regularizer): w= b= y= return y def get_weight(shape, regular

機器學習筆記（七）神經網路

神經網路神經網路神經元模型感知機與多層網路多層前饋神經網路（multi-layer feedforward neural networks）誤差逆傳播（error BackPropagation

斯坦福cs231n學習筆記（11）------神經網路訓練細節（梯度下降演算法大總結/SGD/Momentum/AdaGrad/RMSProp/Adam/牛頓法）

神經網路訓練細節系列筆記：通過學習，我們知道，因為訓練神經網路有個過程: <1>Sample 獲得一批資料； <2>Forward 通過計算圖前向傳播，獲得loss； <3>Backprop 反向傳播計算梯度，這

人工智慧實踐：TensorFlow筆記學習（四）—— 神經網路優化

神經網路優化大綱4.1 損失函式4.2 學習率4.3 滑動平均4.4 正則化4.5 神經網路搭建八股目標掌握神經網路優化方法4.1 損失函式神經元模型：用數學公式表示為：，f為啟用函式。神經網路是以神經元為基本單元構成的。啟用函式：引入非線性啟用因素，提高模型的表達力。常用

Docker操作筆記（四）使用網路

使用網路 Docker 允許通過外部訪問容器或容器互聯的方式來提供網路服務。一、外部訪問容器容器中可以執行一些網路應用，要讓外部也可以訪問這些應用，可以通過 -P 或 -p 引數來指定埠對映。當使用 -P 標記時，Docker 會隨機對