【caffe】caffe結構解析（二）

阿新 • • 發佈：2019-01-04

這次來寫寫caffe是如何來solve的
在成員函式Solve()內部，

template <typename Dtype>
void Solver<Dtype>::Solve(const char* resume_file) {
  ......
  // For a network that is trained by the solver, no bottom or top vecs
  // should be given, and we will just provide dummy vecs.
  int start_iter = iter_;
  //開始迭代 

  Step(param_.max_iter() - iter_);
  ......
}

下面我們看一下Solver::Step()函式內部實現情況，

template <typename Dtype>  
void Solver<Dtype>::Step(int iters)  
{  
    // 起始迭代步數  
    const int start_iter = iter_;  
    // 終止迭代步數  
    const int stop_iter = iter_ + iters;  

    // 判斷是否已經完成設定步數  
    while 
 (iter_ < stop_iter)  
    {  
        // 將net_中的Bolb梯度引數置為零  
        net_->ClearParamDiffs();  

        ...  

        // accumulate the loss and gradient  
        Dtype loss = 0;  
        for (int i = 0; i < param_.iter_size(); ++i)  
        {  
            // 正向傳導和反向傳導，並計算loss  
            loss += net_->ForwardBackward();  
        }  
        loss /= param_.iter_size();  

        // 為了輸出結果平滑，將臨近的average_loss個loss數值進行平均，儲存在成員變數smoothed_loss_中   

        UpdateSmoothedLoss(loss, start_iter, average_loss);  

        // BP演算法更新權重  
        ApplyUpdate();  

        // Increment the internal iter_ counter -- its value should always indicate  
        // the number of times the weights have been updated.  
        ++iter_;  
    }  
}

while迴圈中先呼叫了網路類Net::ForwardBackward()成員函式進行正向傳導和反向傳導，並計算loss

  Dtype ForwardBackward() {
    Dtype loss;
    //正向傳導
    Forward(&loss);
    //反向傳導
    Backward();
    return loss;
  }

而Fordward函式中呼叫了ForwardFromTo

template <typename Dtype>
const vector<Blob<Dtype>*>& Net<Dtype>::Forward(Dtype* loss) {
  if (loss != NULL) {
    *loss = ForwardFromTo(0, layers_.size() - 1);
  } else {
    ForwardFromTo(0, layers_.size() - 1);
  }
  return net_output_blobs_;
}

而FordwardFromTo又呼叫了每個layer的Fordward

template <typename Dtype>
Dtype Net<Dtype>::ForwardFromTo(int start, int end) {
  CHECK_GE(start, 0);
  CHECK_LT(end, layers_.size());
  Dtype loss = 0;
  for (int i = start; i <= end; ++i) {
    // LOG(ERROR) << "Forwarding " << layer_names_[i];
    //每個layer的前向傳導
    Dtype layer_loss = layers_[i]->Forward(bottom_vecs_[i], top_vecs_[i]);
    loss += layer_loss;
    if (debug_info_) { ForwardDebugInfo(i); }
  }
  return loss;
}

雖然layer這個基類的Forward函式不是虛擬函式，但是在其內部包裝了虛擬函式Forward_cpu()和Forward_gpu()，分別對應CPU版本和GPU版本。其中Forward_cpu()為父類Layer的純虛擬函式，必須被子類過載。而Forward_gpu()在父類Layer中的實現為直接呼叫Forward_cpu()，於是該虛擬函式的實現為可選。總的來說，正因為這兩個虛擬函式，所以不同層有不同的正向傳導計算方法。

// Forward and backward wrappers. You should implement the cpu and
// gpu specific implementations instead, and should not change these
// functions.
template <typename Dtype>
inline Dtype Layer<Dtype>::Forward(const vector<Blob<Dtype>*>& bottom,
    const vector<Blob<Dtype>*>& top) {
  // Lock during forward to ensure sequential forward
  Lock();
  Dtype loss = 0;
  Reshape(bottom, top);
  switch (Caffe::mode()) {
  case Caffe::CPU:
    //呼叫每個layer的子類的Forward_cpu
    Forward_cpu(bottom, top);
    for (int top_id = 0; top_id < top.size(); ++top_id) {
      if (!this->loss(top_id)) { continue; }
      const int count = top[top_id]->count();
      const Dtype* data = top[top_id]->cpu_data();
      const Dtype* loss_weights = top[top_id]->cpu_diff();
      loss += caffe_cpu_dot(count, data, loss_weights);
    }
    break;
  case Caffe::GPU:
    Forward_gpu(bottom, top);
#ifndef CPU_ONLY
    for (int top_id = 0; top_id < top.size(); ++top_id) {
      if (!this->loss(top_id)) { continue; }
      const int count = top[top_id]->count();
      const Dtype* data = top[top_id]->gpu_data();
      const Dtype* loss_weights = top[top_id]->gpu_diff();
      Dtype blob_loss = 0;
      caffe_gpu_dot(count, data, loss_weights, &blob_loss);
      loss += blob_loss;
    }
#endif
    break;
  default:
    LOG(FATAL) << "Unknown caffe mode.";
  }
  Unlock();
  return loss;
}

反向傳導函式Backward()呼叫了BackwardFromTo(int start, int end)函式

template <typename Dtype>  
void Net<Dtype>::Backward()  
{  
    BackwardFromTo(layers_.size() - 1, 0);  
}

template <typename Dtype>  
void Net<Dtype>::BackwardFromTo(int start, int end)  
{  
  CHECK_GE(end, 0);  
  CHECK_LT(start, layers_.size());  
  // 倒過來逐層傳導  
  for (int i = start; i >= end; --i)  
  {  
    if (layer_need_backward_[i])  
    {  
      // 與正向傳導函式類似，雖然Backward()不是虛擬函式，但是包裝了虛擬函式Backward_cpu()和Backward_gpu()，因此不同層有不同的計算方法  
      // 注意反向傳導比正向傳導多了一個引數bottom_need_backward_。在實現反向傳導時，首先判斷當前層是否需要反向傳導的層，不需要則直接返回  
      layers_[i]->Backward(top_vecs_[i], bottom_need_backward_[i], bottom_vecs_[i]);  
      if (debug_info_)  
      {  
        BackwardDebugInfo(i);  
      }  
    }  
  }  
}

正向傳導和反向傳導結束後，再呼叫SGDSolver::ApplyUpdate()成員函式進行權重更新。

template <typename Dtype>  
void SGDSolver<Dtype>::ApplyUpdate()  
{  
    // 獲取當前學習速率  
    Dtype rate = GetLearningRate();  
    if (this->param_.display() && this->iter_ % this->param_.display() == 0)  
    {  
        LOG(INFO) << "Iteration " << this->iter_ << ", lr = " << rate;  
    }  

    // 在計算當前梯度的時候，如果該值超過了閾值clip_gradients，則將梯度直接設定為該閾值  
    // 此處閾值設為-1，即不起作用  
    ClipGradients();  

    // 逐層更新網路中的可學習層  
    for (int param_id = 0; param_id < this->net_->learnable_params().size();  
       ++param_id)  
    {  
        // 歸一化  
        Normalize(param_id);  
        // L2範數正則化新增衰減權重  
        Regularize(param_id);  
        // 隨機梯度下降法計算更新值  
        ComputeUpdateValue(param_id, rate);  
    }  
    // 更新權重  
    this->net_->Update();  
}

最後將迭代次數++iter_，繼續while迴圈，直到迭代次數完成。
這就是整個網路的訓練過程。
感謝部落格Rolin的專欄

【caffe】caffe結構解析（二）

這次來寫寫caffe是如何來solve的在成員函式Solve()內部， template <typename Dtype> void Solver<Dtype>::Solve(const char* resume_file) {

if選擇結構解析（二）

否則 switch scan 輸入嵌套 int 簡單移動沒有 1.switch選擇結構: 語法： switch (key) { case value: break; case valu

【原創】快速開發MQTT（二）初識MQTT

文章首發於同名微信公眾號：DigCore 歡迎關注同名微信公眾號：DigCore，及時獲取最新技術博文。基本介紹在上篇文章《【原創】快速開發MQTT（一）電子工程師眼中的MQTT》中，對比了串列埠連線和TCP連線，我們知道實現了連線和資料收發之後，接下來就

【翻譯】CodeMix使用教程（二）：重構

在CodeMix中重構通過重構程式碼而不修改執行時行為，使用原始碼重構來提高專案的質量和可維護性。 CodeMix中的重構由語言服務提供。 CodeMix通過TypeScript語言服務內建了對TypeScript和JavaScript重構的支援。通過提供語言服務的Code OSS擴充套件提供對

【iOS】圖表實現-Charts（二）

上一篇講了Charts的基本使用方法。這一篇講講我在開發中遇到的問題，以及網上一些朋友遇到的問題。 1.在開發中遇到最右邊的座標或者最上面的座標被遮蓋一半顯示不全。就像我說的這樣，我在開發中，x軸顯示6個座標，最右面的左邊顯示時間（類似19/01）,結果只顯示了19/右面的顯示不全。這樣的問

【Swift】iOS開發筆記（二）

前言　　這個系列主要是一些開發中遇到的坑記錄分享，有助於初學者跨過這些坑，攢夠 7 條發一篇。宣告　　歡迎轉載，但請保留文章原始出處:) 　　部落格園：http://www.cnblogs.com　　農民伯伯： http://over140.cnblogs.com 正文　　1、用

【網路爬蟲】【java】微博爬蟲（二）：如何抓取HTML頁面及HttpClient使用

一、寫在前面上篇文章以網易微博爬蟲為例，給出了一個很簡單的微博爬蟲的爬取過程，大概說明了網路爬蟲其實也就這麼回事，或許初次看到這個例子覺得有些複雜，不過沒有關係，上篇文章給的例子只是讓大家對爬蟲過程有所瞭解。接下來的系列裡，將一步一步地剖析每個過程。現

【ES6】陣列的擴充套件（二）之Array.from()和Array.of()

Array.from()Array.from方法用於將兩類物件轉為真正的陣列：類似陣列的物件和可遍歷（iterator）的物件（包括Map和Set）let arrayLike = { '0': 'a', '1': 'b', '2': 'c',

【原創】迴圈體並行優化（二） ——多維迴圈迭代空間的仿射變換及迴圈上下界不等式的矩陣表示法

上回書說到（忘了我不是說書的了，習慣性口語，見諒！），我們可以通過一個簡單的仿射變換將一維的“不連續”迴圈下標空間變換到一個“連續”的下標空間中。這次，我們則繼續來看看如何將一個高維的“不連續”迴圈下標變換到“連續”的迴圈下標空間中。如果非要為這種變換加上一個理由的話，我認為那就是不要在我們的整數向量

【C++】類和物件（二）

一、this指標關於this指標的一個精典回答: 當你進入一個房子後，你可以看見桌子、椅子、地板等，但是房子你是看不到全貌了。對於一個類的例項來說，你可以看到它的成員函式、成員變數，但是例

【Unity】Mesh網格程式設計（二）流體

通過Mesh網格隨Sin函式實時變化模擬液體的流動，從而達到動態水的效果。原文： by 涅凡塵對，你沒有看錯。這是本部落格的一個系列，但同時也是一篇轉載。原文已經做得很棒了！不做重複工作，直接轉入本系列中。也歡迎大家支援這位技術部落格新人和數學奇才，多粉多瀏

【原創】Linux中斷子系統（二）-通用框架處理

# 背景 - `Read the fucking source code!` --By 魯迅 - `A picture is worth a thousand words.` --By 高爾基說明： 1. Kernel版本：4.14 2. ARM64處理器，Contex-A53，雙核 3. 使用工具：S

【python】爬蟲篇：python對於html頁面的解析（二）

我，菜雞，有什麼錯誤，還望大家批評指出！！前言：根據自己寫的上一篇文章，我繼續更第二部分的內容，詳情請點選如下連結【python】爬蟲篇：python連線postgresql（一）：https://blog.csdn.net/lsr40/article/details/833118

【Android自助餐】Handler訊息機制完全解析（二）MessageQueue的佇列管理

Android自助餐Handler訊息機制完全解析（二）MessageQueue的佇列管理 Android自助餐Handler訊息機制完全解析二MessageQueue的佇列管理新增到訊息佇列enqueueMessage 從佇

【資料結構】資料結構探索（三） —— 二叉搜尋樹(Binary Search Tree)

二叉搜尋樹是一種有順序的二叉樹，它具有以下特徵： 1.每個元素有一個關鍵字，並且任意兩個元素的關鍵字都不同；因此所有的關鍵字都是唯一的。 2.在根節點的左子樹中，元素的關鍵字（如果有的話）都小於根節點的關鍵字。 3.在根節點的右子樹中，元素的關鍵字（如果有的話）都大

【Servicemesh系列】【Envoy原始碼解析（二）】一個Http請求到響應的全鏈路（一）

目錄 1. http連線建立當有新連線過來的時候，會呼叫上一章節所提及的被註冊到libevent裡面的回撥函式。我們回顧一下，上一章節提及了，會有多個worker註冊所有的listener，當有一個連線過來的時候，系統核心會排程一個執行緒出來交付

【數據結構】最小生成樹（二）——kruskal算法

適用於相同 inf prim 什麽一段大樹集合 n-1 　　上一期說完了什麽是最小生成樹，這一期咱們來介紹求最小生成樹的算法：kruskal算法，適用於稀疏圖，也就是同樣個數的節點，邊越少就越快，到了數據結構與算法這個階段了，做題靠的就是速度快，時間復雜度小。　　

【安全牛學習筆記】手動漏洞挖掘（二）

security+ 漏洞信息安全手動漏洞挖掘身份認證常用弱口令/基於字典的密碼破爆破鎖定賬號信息收集手機號密碼錯誤提示信息密碼嗅探手動漏洞挖掘會話sessionID Xss / cookie importer Sess

【筆記篇】斜率優化dp（二） SDOI2016征途

不能最小化征途這樣的 string cpp mar logs -s =======傳=送=門======= 搜題目名會搜出很多奇怪的東西... 這個題目似乎有點毒? 比如在bzoj和loj上可以1A的代碼上會在luogu TLE 2個點, 在cogs TLE 10個

【小說連載】網絡紅顏（二）：美女網絡工程師第一天上班就被燙傷了腳……

網絡職場美女入職簡介：這是一段描寫網絡工程師生活的故事。故事中沒有英雄，沒有勵誌，也沒有所謂的雞湯文化和狼性文化。有的，或許是一種對技術的執著，對愛情的渴望或者是對名利的一種追求，但又能追求到什麽呢？聲明：本故事所出現的人名，公司名均為虛構，如有雷同恰屬巧合小說將在本站博客和本人微信公

【caffe】caffe結構解析（二）

相關推薦