YOLO原始碼詳解（四）- 反向傳播（back propagation）

阿新 • • 發佈：2019-01-08

反向傳播是CNN中非常重要的一個環節，對於理論部分，這裡不做介紹，如果對反向傳播理論部分不熟悉，可以檢視以下網站。
非常詳細：零基礎入門深度學習(3) - 神經網路和反向傳播演算法
非常詳細：零基礎入門深度學習(4) - 卷積神經網路
非常生動：如何直觀的解釋back propagation演算法？
通過以上理論部分的學習，如果你還是感覺一臉蒙逼，那就看YOLO的程式碼吧，看完原始碼你就會豁然開朗。讓我們來一睹“back propagation”芳容

一、主函式backward_network(network net, network_state state)

//network.c 

void backward_network(network net, network_state state)
{
    int i;
    float *original_input = state.input;
    float *original_delta = state.delta;
    state.workspace = net.workspace;
    for(i = net.n-1; i >= 0; --i){
        state.index = i;
        if(i == 0){
            state.input = original_input;
            state.delta = original_delta;
        }else 
{          
            layer prev = net.layers[i-1];
            state.input = prev.output;
            //這裡注意，因為delta是指標變數，對state.delta做修改，就相當與對prev層的delta做了修改
            state.delta = prev.delta;
        }
        layer l = net.layers[i];
        l.backward(l, state);
    }
}
//這函式沒什麼好說的，一層一層看吧，順序如下： 

//[detection]
//[connected]
//[dropout]
//[local]
//[convolutional]
//[maxpool]

1、反向傳播-detection層

//detection_layer.c
void backward_detection_layer(const detection_layer l, network_state state)
{
    //給state.delta賦值，l.delta存放的是預測值與真實值的差
    axpy_cpu(l.batch*l.inputs, 1, l.delta, 1, state.delta, 1);
}
//blas.c
//axpy函式:y += a * x
void axpy_cpu(int N, float ALPHA, float *X, int INCX, float *Y, int INCY)
{
    int i;
    for(i = 0; i < N; ++i) Y[i*INCY] += ALPHA*X[i*INCX];
}

2、反向傳播-connected層

//connected_layer.c
void backward_connected_layer(connected_layer l, network_state state)
{
    int i;
    //計算啟用層的梯度值
    gradient_array(l.output, l.outputs*l.batch, l.activation, l.delta);
    //把batch size每個樣本對應的值加起來，放入bias_updates指向的記憶體
    for(i = 0; i < l.batch; ++i){
        axpy_cpu(l.outputs, 1, l.delta + i*l.outputs, 1, l.bias_updates, 1);
    }
    //全連結層沒用到batch_normalize，這裡不做介紹
    if(l.batch_normalize){
        backward_scale_cpu(l.x_norm, l.delta, l.batch, l.outputs, 1, l.scale_updates);

        scale_bias(l.delta, l.scales, l.batch, l.outputs, 1);

        mean_delta_cpu(l.delta, l.variance, l.batch, l.outputs, 1, l.mean_delta);
        variance_delta_cpu(l.x, l.delta, l.mean, l.variance, l.batch, l.outputs, 1, l.variance_delta);
        normalize_delta_cpu(l.x, l.mean, l.variance, l.mean_delta, l.variance_delta, l.batch, l.outputs, 1, l.delta);
    }

    int m = l.outputs;
    int k = l.batch;
    int n = l.inputs;
    float *a = l.delta;
    float *b = state.input;
    float *c = l.weight_updates;
    //更新這一層的權重值
    gemm(1,0,m,n,k,1,a,m,b,n,1,c,n);

    m = l.batch;
    k = l.outputs;
    n = l.inputs;

    a = l.delta;
    b = l.weights;
    c = state.delta;
    //更新前一（prev）層的誤差項
    if(c) gemm(0,0,m,n,k,1,a,k,b,n,1,c,n);
}

3、反向傳播-dropout層

//dropout_layer.c
void backward_dropout_layer(dropout_layer l, network_state state)
{
    int i;
    if(!state.delta) return;
    for(i = 0; i < l.batch * l.inputs; ++i){
        //l.rand[i]就是0～1之間的隨機數，這在前向傳播的時候有講
        float r = l.rand[i];
        //同樣將前一層的delta賦值為0
        if(r < l.probability) state.delta[i] = 0;
        else state.delta[i] *= l.scale;
    }
}

4、反向傳播-local層

//local_layer.c
void backward_local_layer(local_layer l, network_state state)
{
    int i, j;
    int locations = l.out_w*l.out_h;
    //計算啟用層梯度
    gradient_array(l.output, l.outputs*l.batch, l.activation, l.delta);
    //跟新bias_updates
    for(i = 0; i < l.batch; ++i){
        axpy_cpu(l.outputs, 1, l.delta + i*l.outputs, 1, l.bias_updates, 1);
    }

    for(i = 0; i < l.batch; ++i){
        float *input = state.input + i*l.w*l.h*l.c;
        im2col_cpu(input, l.c, l.h, l.w, 
                l.size, l.stride, l.pad, l.col_image);

        for(j = 0; j < locations; ++j){
            float *a = l.delta + i*l.outputs + j;
            float *b = l.col_image + j;
            float *c = l.weight_updates + j*l.size*l.size*l.c*l.n;
            int m = l.n;
            int n = l.size*l.size*l.c;
            int k = 1;
            //更新權重
            gemm(0,1,m,n,k,1,a,locations,b,locations,1,c,n);
        }

        if(state.delta){
            for(j = 0; j < locations; ++j){ 
                float *a = l.weights + j*l.size*l.size*l.c*l.n;
                float *b = l.delta + i*l.outputs + j;
                float *c = l.col_image + j;

                int m = l.size*l.size*l.c;
                int n = 1;
                int k = l.n;
                //更新下一層誤差項
                gemm(1,0,m,n,k,1,a,m,b,locations,0,c,locations);
            }

            col2im_cpu(l.col_image, l.c,  l.h,  l.w,  l.size,  l.stride, l.pad, state.delta+i*l.c*l.h*l.w);
        }
    }
}

5、反向傳播-convolutional層

//convolutional_layer.c
//跟local層一樣～
void backward_convolutional_layer(convolutional_layer l, network_state state)
{
    int i;
    int m = l.n;
    int n = l.size*l.size*l.c;
    int k = convolutional_out_height(l)*
        convolutional_out_width(l);

    gradient_array(l.output, m*k*l.batch, l.activation, l.delta);
    backward_bias(l.bias_updates, l.delta, l.batch, l.n, k);

    for(i = 0; i < l.batch; ++i){
        float *a = l.delta + i*m*k;
        float *b = state.workspace;
        float *c = l.weight_updates;

        float *im = state.input+i*l.c*l.h*l.w;

        im2col_cpu(im, l.c, l.h, l.w, 
                l.size, l.stride, l.pad, b);
        gemm(0,1,m,n,k,1,a,k,b,k,1,c,n);

        if(state.delta){
            a = l.weights;
            b = l.delta + i*m*k;
            c = state.workspace;

            gemm(1,0,n,k,m,1,a,n,b,k,0,c,k);

            col2im_cpu(state.workspace, l.c,  l.h,  l.w,  l.size,  l.stride, l.pad, state.delta+i*l.c*l.h*l.w);
        }
    }
}

6、反向傳播-maxpool層

//maxpool_layer.c
void backward_maxpool_layer(const maxpool_layer l, network_state state)
{
    int i;
    int h = l.out_h;
    int w = l.out_w;
    int c = l.c;
    for(i = 0; i < h*w*c*l.batch; ++i){
        //l.indexes儲存的是前一層最大值的座標
        int index = l.indexes[i];
        state.delta[index] += l.delta[i];
    }
}

YOLO原始碼詳解（四）- 反向傳播（back propagation）

反向傳播是CNN中非常重要的一個環節，對於理論部分，這裡不做介紹，如果對反向傳播理論部分不熟悉，可以檢視以下網站。非常詳細：零基礎入門深度學習(3) - 神經網路和反向傳播演算法非常詳細：零基礎入門深度學習(4) - 卷積神經網路非常生動：如

YOLO原始碼詳解（五）- YOLO中的7*7個grid和RPN中的9個anchors

一直不知道7×7的網格到底是幹什麼的，不就是結果預測7×7×2個框嗎，這跟把原圖分成7×7有什麼關係？不分成7×7就不能預測7×7×2個框嗎？之前跟一個朋友討論，他說7×7的網格是作為迴歸框的初始位置，我後來的很長一段時間一直這麼認為，後來想想不對啊

YOLO原始碼詳解（二）- 函式剖析

1、網路引數解析函式：parse_network_cfg network parse_network_cfg(char *filename) { //read_cfg這個函式將所有的引數讀到一個圖中，如下所示，希望能幫助理解下程式碼

YOLO原始碼詳解（一）-訓練

本系列文章會持續更新，主要會分以下幾個部分：１、darknet下的yolo原始碼解讀２、將yolo移植到mxnet下３、模型壓縮與加速白天需要工作，只有晚上時間寫，所以可能更新速度有點慢，還有就是該系列博文不一定會嚴格按照以上三點的順序來

MQTT---HiveMQ原始碼詳解(十四)Persistence-LocalPersistence

MQTT交流群:221405150 簡介 HiveMQ的Persistence提供配置包括File和Memory，以解決不同場景的不同需求，使用者可以自行配置六種資訊的Pers

Mybatis原始碼詳解系列(四)--你不知道的Mybatis用法和細節

# 簡介這是 [Mybatis](https://www.cnblogs.com/ZhangZiSheng001/p/12603885.html) 系列部落格的第四篇，我本來打算詳細講解 mybatis 的配置、對映器、動態 sql 等，但[Mybatis官方中文文件](https://Mybatis.o

[2] TensorFlow 向前傳播演算法(forward-propagation)與反向傳播演算法(back-propagation)

TensorFlow Playground http://playground.tensorflow.org 幫助更好的理解,遊樂場Playground可以實現視覺化訓練過程的工具 TensorFlow Playground的左側提供了不同的資料集來測試神經網路。預設的資料為左上角被框出來的那個。被

OSI七層詳解之四傳輸層（Transport）

http 計算機地址包括分組 tcp aik 全部滿足一、簡介　　第四層的數據單元也稱作數據包（packets）。但是，當你談論TCP等具體的協議時又有特殊的叫法，TCP的數據單元稱為段（segments）而UDP協議的數據單元稱為“數據報（datagrams）

Extreme Drift賽車遊戲C#原始碼詳解（1）

Extreme Drift賽車遊戲C#原始碼詳解（1） C#我只是一個萌新，由於搞過Java，還是可以看懂C#的偶然間得到賽車遊戲Extreme Drift的原始碼接下來我會花一段時間來解讀，這是一個我學習的過程，記錄在部落格等到我完全解讀之後，我也許會考慮再加入聯機功能等

06.RTSP原始碼詳解（一）

6.7.rtsp傳輸原始碼分析1 6.8.rtsp傳輸原始碼分析2 6.9.rtsp傳輸原始碼分析3 6.10.rtsp傳輸原始碼分析4 6.11.rtsp傳輸實戰分析 6.12.直接傳送與環狀buffer傳送 6.13.rtsp分包傳送h264的原始碼分析 rtp_timestamp：http

java集合類原始碼詳解-LinkedList（4）-基於JDK8

LinkedList 裡面還有個具有新增功能的函式，上回學漏了，這回補上。它就是linkBefore（）------在一個非空節點前，插入資料這裡打上個斷點點選下一步。先把size除二，去比較。具體的這個node（）方法，我們之前學過，這裡跳過。這個方法，其實就

spring事務詳解（二）原始碼詳解

系列目錄 spring事務詳解（三）使用樣例 spring事務詳解（四）測試驗證 spring事務詳解（五）總結提高一、引子在Spring中，事務有兩種實現方式：程式設計式事務管理：程式設計式事務管理使用TransactionTemplate可實現更細粒度的事務控制。申明

mybatis資料來源（JNDI、POOLED、UNPOOLED）原始碼詳解

一、概述二、建立 mybatis資料來源的建立過程稍微有些曲折。 1. 資料來源的建立過程； 2. mybatis支援哪些資料來源，也

java集合類原始碼詳解-ArrayList（2）

上次關於ArrayList的結構沒有做總結。這次還是補充在自己部落格裡面吧。 ArrayList繼承自一個抽象類。實現了四個介面。 AbstractList繼承自AbstractCollection。AbstractCollection繼承自Object。 ArrayL

Redis詳解之-叢集方案：高效能（使用原生Redis Cluster）（四）

對以前的內容進行一下總結和複習。瞭解Redis的基本引數配置和使用。瞭解事件訂閱和持久化儲存方式（RDB和AOF）。 Redis叢集方案：高可用（使用Redis Sentinel），官網Rdeis3.x推薦三主三從的方式，參考（https://www.cnblogs

各種音視訊編解碼學習詳解之編解碼學習筆記（四）：Mpeg系列——Mpeg 4

最近在研究音視訊編解碼這一塊兒，看到@bitbit大神寫的【各種音視訊編解碼學習詳解】這篇文章，非常感謝，佩服的五體投地。奈何大神這邊文章太長，在這裡我把它分解成很多小的篇幅，方便閱讀。大神部落格傳送門：https://www.cnblogs.com/skyofbitbit

OpenLayers官方示例詳解十四之可重用地圖源（Reusable Source）

目錄一、示例簡介二、程式碼詳解一、示例簡介這個示例展示如何更新地圖中的瓦片。可以呼叫source.setUrl()來更新瓦片地圖源的URL，請注意，當更改瓦片地圖源的URL時，在載入完新的瓦片之前，將不會替換現

EventBus原始碼詳解（二）：進階使用

寫在前面 EventBus是一個Android平臺上基於事件釋出和訂閱的輕量級框架，可以對釋出者和訂閱者解耦，並簡化Android的事件傳遞。本文是關於EventBus系列文章的第二篇，相關文章有：如果你對EventBus不瞭解，我建議先閱讀該系列

spring的BeanFactory和ApplicationContext原始碼詳解（一）

轉自http://www.sandzhang.com/blog/2011/04/10/Spring-BeanFactory-ApplicationContext-Detail-1/ 版本：spring-framework-3.0.5.RELEASE Spring的最核心的部分就是BeanFactory了，

struck（結構化SVM用於視覺跟蹤）--原始碼詳解--sampler.cpp

struck中，作者的的取樣方式都很簡單，採用的都是均勻取樣；在進行預測評估eval的時候，使用的是基於畫素的取樣，也就是每個畫素點變化，都取樣一次；在進行更新update的時候，採用的是radial和regular的取樣，就是根據半徑和角度的變化確定取樣框，其中有5種

YOLO原始碼詳解（四）- 反向傳播（back propagation）

一、主函式backward_network(network net, network_state state)

相關推薦