圖文+程式碼分析：caffe中全連線層、Pooling層、Relu層的反向傳播原理和實現

阿新 • • 發佈：2019-02-14

1.全連線層反向傳播

設 $C$ 為loss
全連線層輸入：(bottom_data) $a$
全連線層輸出：(top_data) $z$
假設 $a$ 維度K_， $z$ 維度N_，則權值矩陣維度為N_行*K_列，batchsize=M_
全連線層每個輸出 $z_{i} = b + \sum_{j} w_{i j} a_{j}$

1.1bottom_diff計算：

對bottom_data求導： $\frac{\partial C}{\partial a_{j}} = \sum_{i} \frac{\partial C}{\partial z_{i}} \cdot \frac{\partial z_{i}}{a_{j}} = \sum_{i} {z_{i}}^{'} w_{i j}$ （batchsize=1時）
當batchsize不為1時，需要分別獲得各個樣本下的結果，組成矩陣：
bottom_diff計算矩陣實現示意圖
caffe實現：

1.2weight_diff計算：

對weight求導： $\frac{\partial C}{\partial w_{i j}} = \frac{\partial C}{\partial z_{i}} \cdot \frac{\partial z_{i}}{w_{i j}} = {z_{i}}^{'} a_{j}$
當batchsize不為1時，需要將各個樣本下的結果進行求和：
weight_diff計算矩陣實現示意圖
caffe實現：

1.3bias_diff計算：

對bias進行求導： $\frac{\partial C}{\partial b} = \sum_{i} \frac{\partial C}{\partial z_{i}} \cdot \frac{\partial z_{i}}{b} = \sum_{i} {z_{i}}^{'}$ （batchsize=1時）
當batchsize不為1時，需要分別獲得各個樣本下的結果，組成向量：
bias_diff計算矩陣實現示意圖
caffe實現：

2.Pooling層反向傳播

2.1 Max Pooling:

MaxPooling前向傳播示意圖
首先，在前向傳播時，在輸出新的feature map的同時，還要記錄每個輸出點對應於前一層feature map中的位置，放入mask或者top_mask中（top_mask是指，該mask存放在top_data裡當作輸出的一部分）
max pooling 前向傳播caffe實現：

在反向傳播時：將top_diff按照記錄下來的index返回到輸入層中，即只對前向傳播時選中的一些位置進行誤差傳播，如下圖：
MaxPooling反向傳播示意圖
max pooling 反向傳播caffe實現：

2.2 Average Pooling

前向傳播較簡單，block內數值的平均值作為輸出，每個輸出值對應固定的輸入block，如圖：
AveragePooling前向傳播示意圖

反向傳播，將輸出層各個位置的梯度，平均分配到其對應的輸入block中，如圖：
AveragePooling反向傳播示意圖

average pooling 反向傳播caffe實現：

3.Relu層反向傳播

由Relu定義可得其導數：

f (x) = {\begin{matrix} x & x > 0 \\ α x & x ⩽ 0 \end{matrix}, f^{'} (x) = {\begin{matrix} 1 & x > 0 \\ α & x ⩽ 0 \end{matrix}

其中

α

預設為0
則Relu反向傳播只需判斷原始輸入資料是否大於0，若大於0則將top_diff直接傳到前層，否則將top_diff乘上

α

傳到前層，如圖：

Relu層反向傳播caffe實現：

圖文+程式碼分析：caffe中全連線層、Pooling層、Relu層的反向傳播原理和實現

1.全連線層反向傳播

1.1bottom_diff計算：

1.2weight_diff計算：

1.3bias_diff計算：

2.Pooling層反向傳播

2.1 Max Pooling:

2.2 Average Pooling

3.Relu層反向傳播

圖文+程式碼分析：caffe中全連線層、Pooling層、Relu層的反向傳播原理和實現

深度學習中常用的層：Full Connect全連線層

QEMU 程式碼分析：BIOS 的載入過程

機器學習8：深度學習——全連線

Spring原始碼分析：Spring中的後置處理器BeanPostProcessor

從零開始學caffe（十）：caffe中snashop的使用

CNN中全連線層是什麼樣的？

解釋一下全連線層&CNN中全連線層是什麼樣的

pytorch中全連線神經網路搭建兩種模式

原創分析：iOS 中使用 Mobile Installation 安裝 IPA（使用iTunes/AppStore一樣的安裝API）

對於卷積神經網路中全連線層的理解

程式碼優化：Hibernate中的動態更新 dynamic-update

Qt分析：Qt中的兩種定時器

Caffe解惑：Caffe中是如何控制loss的

FFMPeg程式碼分析：AVCodecContext結構體

caffe實戰記：caffe中python的介面函式

卷積神經網路(CNN)中全連線層(FC layer)的作用

深度學習筆記2：池化全連線啟用函式 softmax

FFMPeg程式碼分析：av_read_frame()函式的內部構造

Python錯誤程式碼分析：莫名的［TypeError: 'int' object is not iterable］

圖文+程式碼分析：caffe中全連線層、Pooling層、Relu層的反向傳播原理和實現

1.全連線層反向傳播

1.1bottom_diff計算：

1.2weight_diff計算：

1.3bias_diff計算：

2.Pooling層反向傳播

2.1 Max Pooling:

2.2 Average Pooling

3.Relu層反向傳播

相關推薦