caffe1原始碼解析從入門到放棄1）：記憶體管理syncedmem.hpp / syncedmem.cpp

阿新 • • 發佈：2019-02-01

/*這些程式碼都是本人在linux-nsight-eclipse環境下純手打。
  文章結尾都會丟擲一些本人尚未解決的問題，歡迎各路大神拍磚。
  文章屬於學習交流性質，隨著本人學力的提升，此blog將會長期修正更新。
 * syncedmem.hpp
 *  Created on: Jun 4, 2017
 *      Author: pan
 */
#ifndef SYNCEDMEM_HPP_
#define SYNCEDMEM_HPP_
#include <cstdlib>
#include "caffe/common.hpp"
/*定義了caffe名稱空間，內部封裝了caffe所有的類和方法，
 * eg:using namespace caffe / using namespace std*/ 

namespace caffe
{
  // If CUDA is available and in GPU mode, host memory will be allocated pinned,
  // using cudaMallocHost. It avoids dynamic pinning for transfers (DMA).
  // The improvement in performance seems negligible in the single GPU case,
  // but might be more significant for parallel training. Most importantly, 

  // it improved stability for large models on many GPUs.
  /*如果主機支援CUDA並且工作在GPU模式下，主機記憶體將會 allocated（分配） pinned, 使用cudaMallocHost().
   * 它避免了dynamic pinning for transfers (DMA).在單GPU情況下使用cudaMallocHost()，這個操作在效能
   * 上的提高看起來幾乎可以忽視。但是在多GPU並行訓練的情況下，cudaMallocHost()可能會顯的更重要。最重要的是，
   * cudaMallocHost()的使用提高了在多GPU環境下大模型的穩定性。
   * caffe工作在GPU模式下使用cudaMallocHost()在主機上分配記憶體將會比使用malloc()方法有效能和穩定性的提高。
   */ 

  /*在主機上分配記憶體，CaffeMallocHost(&cpu_ptr_, size_, &cpu_malloc_use_cuda_);方法使用二級指標
  cpu_ptr_分配記憶體*/
  inline void CaffeMallocHost(void** ptr, size_t size, bool* use_cuda)
  {
  #ifndef CPU_ONLY
    if(Caffe::mode() == Caffe::GPU)
    {
    CUDA_CHECK(cudaMallocHost(ptr, size));//*****************
        *use_cuda = true;
        return ;//在void型別的函式中，return用於返回空，不是返回 0 值
    }
  #endif
    /*這裡分配了size個位元組的記憶體，由於使用的是void*最後要強制型別轉換成特定型別的
     * 指標eg: static_cast<int*> cpu_ptr_ 。這點在Blob中會詳細陳述*/
    *ptr = malloc(size);
    *use_cuda = false;
    CHECK(*ptr)<<"host allocation of size "<< size <<" failed";//**********************
  }
  /*記憶體釋放方法，由於在cuda環境下有兩種主機分配記憶體的方法，所以在這裡做了一個巨集定義處理，分別是
  cudaFreeHost（）和 free()*/
  inline void CaffeFreeHost(void* ptr, bool use_cuda)
  {
  #ifndef CPU_ONLY
    if(use_cuda)
    {
    CUDA_CHECK(cudaFreeHost(ptr));//***************
    return ;
    }
  #endif
    free(ptr);
  }
  /**
   * @brief Manages memory allocation and synchronization between the host (CPU)
   *        and device (GPU).
   *
   * TODO(dox): more thorough description.
   */
  /*
   *SyncedMemory類 @簡單的用於在主機（CPU）和 裝置（GPU）之間進行記憶體分配和同步工作，也就是說在CPU和GPU
   *之間管理記憶體。
   *TODO(dox): more thorough description.
   * */
  class SyncedMemory
  {
  public:
    /*建構函式將初始化各種指標*/
    SyncedMemory()
         : cpu_ptr_(NULL), gpu_ptr_(NULL), size_(0), head_(UNINITIALIZED),
           own_cpu_data_(false), cpu_malloc_use_cuda_(false),own_gpu_data_(false),
           gpu_device_(-1){}
    /*建構函式將初始化各種指標
     * explicit 表示建構函式不接受隱式轉換 eg:  ********************/
    explicit SyncedMemory(size_t size) : cpu_ptr_(NULL), gpu_ptr_(NULL), size_(size),
    head_(UNINITIALIZED), own_cpu_data_(false), cpu_malloc_use_cuda_(false),
    own_gpu_data_(false), gpu_device_(-1){}
    /*解構函式中定義了釋放堆區記憶體的操作，在caffe的資料容器Blob中，定義了shared_ptr<syncedmemory> data_
     * 定義了shared_ptr<syncedmemory> diff_ 的智慧指標，通過reset方法控制記憶體的釋放。由於nvcc編譯器
     * 對C++11支援的不好，暫且不能夠使用unique_ptr智慧指標，目前只能呼叫boost庫的shared_ptr*/
   ~SyncedMemory(){};

  public:
   /*cpu_data()和gpu_data()返回值為const void* 表示cpu_ptr_和gpu_ptr_所指向的記憶體空間不允許被修改
    * 與此相反void* mutable_cpu_data() 和 void* mutable_gpu_data(); 返回的是void* 的指標，也即記憶體返回的
    * 記憶體空間是允許修改的*/
   const void* cpu_data();
   void set_cpu_data(void* data);
   const void* gpu_data();
   void set_gpu_data(void* data);
   void* mutable_cpu_data();
   void* mutable_gpu_data();
   /*此處定義了一個列舉型別SyncedHead主要作用是標誌頭指標狀態,其中SYNCED表示記憶體已經同步*/
   enum SyncedHead {UNINITIALIZED, HEAD_AT_CPU, HEAD_AT_GPU, SYNCED};

   SyncedHead head()  {return head_;}
   //size_t是標準C庫中定義的，應為unsigned int，在64位系統中為 long unsigned int
   size_t size()  {return size_;}

  #ifndef CPU_ONLY
    void async_gpu_push(const cudaStream_t& stream);//*****************
  #endif

  private:
   SyncedHead head_;//頭指標位置
   /*控制記憶體同步的方法，如果head在cpu上執行to_cpu（）表示記憶體已經同步，否則要呼叫caffe_gpu_memcpy（）方法
    * 實質上呼叫的是cudaMemcpy(Y, X, N, cudaMemcpyDefault)，caffe_gpu_memcpy（）做了一層封裝而已。
    * 同理to_gpu（）*/
   void to_cpu();
   void to_gpu();


   void* cpu_ptr_;
   void* gpu_ptr_;
   size_t size_;

   bool own_cpu_data_;
   bool cpu_malloc_use_cuda_;
   bool own_gpu_data_;
   int gpu_device_;
   DISABLE_COPY_AND_ASSIGN(SyncedMemory);//***************
  };// class SyncedMemory

};//namespace caffe

#endif /* SYNCEDMEM_HPP_ */
---------------------------------------------
---------------------------------------------
---------------------------------------------
/*
 * syncedmem.cpp
 *
 *  Created on: Jun 4, 2017
 *      Author: pan
 */
#include "common.hpp"
#include "syncedmem.hpp"
#include "util/math_functions.hpp"

namespace caffe
{
  SyncedMemory::~SyncedMemory()
  {
    /*cpu_ptr_不為NULL，不能釋放NULL指標， own_cpu_data_標誌位不為 0這個標誌位不知道如何理解 ？？？？？？？？？？？？？？？？？？*/
    if(cpu_ptr_ && own_cpu_data_)
    {
    CaffeFreeHost(cpu_ptr_, cpu_malloc_use_cuda_);
    }
  #ifndef CPU_ONLY
    if(gpu_ptr_ && own_gpu_data_)
    {
      int initial_device;
      cudaGetDevice(&initial_device);
      if (gpu_device_ != -1)
      {
        CUDA_CHECK(cudaSetDevice(gpu_device_));//????????????????
      }
      CUDA_CHECK(cudaFree(gpu_ptr_));
      cudaSetDevice(initial_device);
    }
  #endif

  }
  //同步記憶體到CPU 即設定cpu_ptr_
  inline void SyncedMemory::to_cpu()
  {
    switch (head_)
    {
      case UNINITIALIZED:
    CaffeMallocHost(&cpu_ptr_, size_, &cpu_malloc_use_cuda_);
    caffe_memset(size_, 0, cpu_ptr_);
    head_ = HEAD_AT_CPU;
    own_cpu_data_ = true;
    break;

      case HEAD_AT_GPU:
      #ifndef CPU_ONLY//Makefile.config中定義
    if (cpu_ptr_ == NULL)
    {
        CaffeMallocHost(&cpu_ptr_, size_, &cpu_malloc_use_cuda_);
        own_cpu_data_ = true;
    }
    caffe_gpu_memcpy(size_, gpu_ptr_, cpu_ptr_);
    head_ = SYNCED;
      #else
    NO_GPU;//Makefile.config中定義
      #endif
    break;

      case HEAD_AT_CPU://頭指標指向CPU記憶體已經同步
      case SYNCED:
        break;
    }
  }//to_cpu()
  //同步記憶體到CPU 即設定gpu_ptr_
  inline void SyncedMemory::to_gpu()
  {
  #ifndef CPU_ONLY
    switch (head_)
    {
      case UNINITIALIZED://???????????????????/
        head_ = HEAD_AT_GPU;
        own_gpu_data_ = true;
        break;

      case HEAD_AT_CPU:
    if(gpu_ptr_ == NULL)
    {
          CUDA_CHECK(cudaGetDevice(&gpu_device_));
          CUDA_CHECK(cudaMalloc(&gpu_ptr_, size_));
          own_gpu_data_ = true;
    }
        caffe_gpu_memcpy(size_, cpu_ptr_, gpu_ptr_);
    head_ = SYNCED;
        break;
      case HEAD_AT_GPU:
      case SYNCED:
        break;
    }
  #else
    NO_GPU
  #endif
  }//to_gpu()
  //獲取cpu 堆區記憶體頭指標
  const void* SyncedMemory::cpu_data()
  {
    to_cpu();
    return (const void*)cpu_ptr_;
  }

  void SyncedMemory::set_cpu_data(void* data)
  {
    CHECK(data);//???????????????????????
                //????if(data == NULL) return -1;?????????????????
    if(own_cpu_data_)
    {
    CaffeFreeHost(cpu_ptr_, cpu_malloc_use_cuda_);
    }
    cpu_ptr_ = data;
    head_ = HEAD_AT_CPU;
    own_cpu_data_ = false;
  }

  const void* SyncedMemory::gpu_data()
  {
  #ifndef CPU_ONLY
    to_gpu();
    return (const void*)gpu_ptr_;
  #else
    NO_GPU;
    return NULL;
  #endif
  }

  void SyncedMemory::set_gpu_data(void* data)
  {
  #ifndef CPU_ONLY
    CHECK(data);
    if (own_gpu_data_)
    {
      int initial_device;
      cudaGetDevice(&initial_device);
      if (gpu_device_ != -1)
      {
        CUDA_CHECK(cudaSetDevice(gpu_device_));
      }
      CUDA_CHECK(cudaFree(gpu_ptr_));
      cudaSetDevice(initial_device);
    }
    gpu_ptr_ = data;
    head_ = HEAD_AT_GPU;
    own_gpu_data_ = false;
  #else
    NO_GPU;
  #endif
  }

  void* SyncedMemory::mutable_cpu_data()
  {
    to_cpu();
    head_ = HEAD_AT_CPU;
    return cpu_ptr_;
  }

  void* SyncedMemory::mutable_gpu_data()
  {
  #ifndef CPU_ONLY
    to_gpu();
    head_ = HEAD_AT_GPU;
    return gpu_ptr_;
  #else
    NO_GPU;
    return NULL;
  #endif
  }

#ifndef CPU_ONLY
  void SyncedMemory::async_gpu_push(const cudaStream_t& stream)
  {
    CHECK(head_ == HEAD_AT_CPU);
    if (gpu_ptr_ == NULL)
    {
      CUDA_CHECK(cudaGetDevice(&gpu_device_));
      CUDA_CHECK(cudaMalloc(&gpu_ptr_, size_));
      own_gpu_data_ = true;
    }
    const cudaMemcpyKind put = cudaMemcpyHostToDevice;
    CUDA_CHECK(cudaMemcpyAsync(gpu_ptr_, cpu_ptr_, size_, put, stream));
    // Assume caller will synchronize on the stream before use
    head_ = SYNCED;
  }
#endif
};//namespace caffe

自己寫的測試程式碼分析建構函式和解構函式的行為
/*
 * caffe.cpp
 *
 *  Created on: Jun 5, 2017
 *      Author: pan
 */
#include <iostream>
#include <climits>
#include <cstdlib>
#include <boost/shared_ptr.hpp>
using namespace std;
using boost::shared_ptr;
// inline void CaffeMallocHost(void** ptr, size_t size, bool* use_cuda)

inline void CaffeMallocoHost(void** ptr, size_t size)
{
// #ifndef CPU_ONLY
//    cudaMallocHost(ptr, size);
//      void* ptr = (void*)(new char[size]);
    *ptr = malloc(size);
    if(ptr == NULL)
    {
    cout<<"malloc error in fuction CaffeMallocoHost !"<<endl;
    }
}

inline void CaffeFreeHost(void* ptr)
{
  cout<<">>>>>>>>>>>>>CaffeFreeHost";
  if(ptr != NULL)
  {
      free(ptr);
      cout<<">>>>>>>>>>>now free cpu_ptr_ "<<endl;
  }
}

class synced
{
public:
  synced(size_t size, int num) : cpu_ptr_(NULL),
        gpu_ptr_(NULL), own_cpu_data_(false),own_gpu_data_(false),
        size_(size), cpu_malloc_use_cuda_(0),num_(num){cout<<"constructor "<< num_<<" called !\n";}

  ~synced()
  {

    CaffeFreeHost(cpu_ptr_);

    cout<<"destructor "<<num_<<" called!\n";

  }

  void to_cpu()
  {
    CaffeMallocoHost(&cpu_ptr_, size_);
  }
  void* cpu_data()
  {
    to_cpu();
    return cpu_ptr_;
  }
private:
  void* cpu_ptr_;
  bool own_cpu_data_;
  void* gpu_ptr_;
  bool own_gpu_data_;
  bool cpu_malloc_use_cuda_;
  size_t size_;

  int num_;
};


int main()
{
  shared_ptr<synced> data;
  data.reset(new synced(10 * sizeof(int), 1));
  int* ptr = static_cast<int*>(data->cpu_data());
  ptr[9] = 10;
 // cout<< INT_MAX <<endl;

  return 0;
}

丟擲問題： caffe記憶體管理如何使用new delete 形式重寫CaffeFreeHost（） ; CaffeMallocHost()。 主要困難是c++
如何分配一個void* 並delete 一個void* 。

caffe1原始碼解析從入門到放棄1）：記憶體管理syncedmem.hpp / syncedmem.cpp

/*這些程式碼都是本人在linux-nsight-eclipse環境下純手打。文章結尾都會丟擲一些本人尚未解決的問題，歡迎各路大神拍磚。文章屬於學習交流性質，隨著本人學力的提升，此blog將會長期修正更新。 * syncedmem.hpp *

Python深度探索（1）：記憶體管理機制

任何程式語言都會有一個記憶體模型，以便管理為變數分配的記憶體空間。不同的程式語言，如C、C++、Java、C#，Python，它們的記憶體模型都是不相同的，本文將以現在最流行的Python語言為例，來說明動態型別語言的記憶體管理方式。 1. 重複使用記憶體空間賦值語句是P

myBatis原始碼解析-日誌篇（1）

上半年在進行知識儲備，下半年爭取寫一點好的部落格來記錄自己原始碼之路。在學習原始碼的路上也掌握了一些設計模式，可所謂一舉兩得。本次打算寫Mybatis的原始碼解讀。準備工作 1. 下載mybatis原始碼下載地址：https://github.com/mybatis/mybatis-3 2.

Canvas入門（1）：繪制矩形、圓、直線、曲線等基本圖形

dsm etc win cti b2c 創建例如 .com courier 來源：http://www.ido321.com/968.html 一、Canvas的基礎知識 Canvas是HTML 5中新增的元素，專門用於繪制圖形。canvas元素就相當於一塊“畫布

微信小程式入門（1）：簡單介面的實現

原始碼我已經放在GitHub上了https://github.com/A666AHL/pupil 1.安裝微信web開發者工具不多BB，直接從安裝IDE開始首先，你得進入微信公眾平臺官網(https://mp.weixin.qq.com) 點選底部的小程式並檢視詳情

Canvas入門（1）：繪製矩形、圓、直線、曲線等基本圖形

一、Canvas的基礎知識 Canvas是HTML 5中新增的元素，專門用於繪製圖形。canvas元素就相當於一塊“畫布”，一塊無色的透明區域，需要利用JavaScript編寫在其中進行繪畫的指令

Python爬蟲入門（1）：綜述

大家好哈，最近博主在學習Python，學習期間也遇到一些問題，獲得了一些經驗，在此將自己的學習系統地整理下來，如果大家有興趣學習爬蟲的話，可以將這些文章作為參考，也歡迎大家一共分享學習經驗。 Python版本:2.7，Python 3請另尋其他博文。首先爬蟲是什麼？

Dubbo原始碼解析之SPI（一）：擴充套件類的載入過程

Dubbo是一款開源的、高效能且輕量級的Java RPC框架，它提供了三大核心能力：面向介面的遠端方法呼叫、智慧容錯和負載均衡，以及服務自動註冊和發現。 Dubbo最早是阿里公司內部的RPC框架，於 2011 年開源，之後迅速成為國內該類開源專案的佼佼者，2018年2月，通過投票正式成為 Apache基金會孵

Golang Web入門（1）：自頂向下理解Http伺服器

摘要由於Golang優秀的併發處理，很多公司使用Golang編寫微服務。對於Golang來說，只需要短短几行程式碼就可以實現一個簡單的Http伺服器。加上Golang的協程，這個伺服器可以擁有極高的效能。然而，正是因為程式碼過於簡單，我們才應該去研究他的底層實現，做到會用，也知道為什麼這麼用。在本文中，會

Kafka入門（1）：概述

## 摘要在本文中，我將從為什麼需要訊息佇列開始講起，舉兩個小例子，跟你聊聊目前訊息佇列的一些使用場景。比如訊息佇列在複雜系統中的解耦，又比如訊息佇列在高併發下的場景如果讓流量變得更平緩。隨後我會跟你介紹一下Kafka中的一些重要的名詞，比如主題、Broker、分割槽等。注意，Kafka不僅僅

gRPC-go 入門（1）：Hello World

## 摘要在這篇文章中，主要是跟你介紹一下`gRPC`這個東西。然後，我會建立一個簡單的練習專案，作為`gRPC`的Hello World專案。在這個專案中，只有很簡單的一個RPC函式，用於說明`gRPC`的工作方式。此外，我也會跟你分享一下我初次接觸`gRPC`所遇到的一些坑，主要是在`pr

gRPC-go原始碼（1）：連線管理

## 1 寫在前面在這個系列的文章中，我們將會從原始碼的層面學習和理解`gRPC`。整個系列的文章的計劃大概是這樣的：我們會先從客戶端開始，沿著呼叫路徑逐步分析到服務端，以模組為粒度進行學習，考慮這個模組是為了解決什麼問題，然後思考`gRPC`應該怎麼去解決這個問題。在分析完這部分的架構設計後，我們會

xv6原始碼分析（四）：記憶體管理

xv6通過頁表機制實現了對記憶體空間的控制。頁表使得 xv6 能夠讓不同程序各自的地址空間對映到相同的實體記憶體上，還能夠為不同程序的記憶體提供保護。除此之外，我們還能夠通過使用頁表來間接地實現一些特殊功能。xv6 主要利用頁表來區分多個地址空間，保護記憶體。

我是如何學習寫一個作業系統（八）：記憶體管理和段頁機制

前言多程序和記憶體管理是緊密相連的兩個模組，因為執行程序也就是從記憶體中取指執行，建立程序首先要將程式和資料裝入記憶體。將使用者原程式變成可在記憶體中執行的程式，而這就涉及到了記憶體管理。記憶體的裝入絕對裝入。在編譯時，如果知道程式將駐留在記憶體的某個位置，編譯程式將產生絕對地址的目的碼。絕對裝入程

Yii框架學習入門（1）--YII的MVC概念及邏輯解析

YII的MVC概念及邏輯解析1、這裏是win10安裝的是Yii2.0，中文社區：http://www.yiichina.com/ 。2、先了解安裝方法：服務器用的是wamp，將Yii2.0高級版解壓文件放入www目錄，將php加入全局命令(右擊【計算機】－【屬性】－【高級系統設置】然後在系統屬性裏選擇【高級】

Java 集合原始碼解析（1）：Iterator

Java 提供的集合類都在 Java.utils 包下，其中包含了很多 List, Set, Map, Queue… 它們的關係如下面這張類圖所示：可以看到，Java 集合主要分為兩類：Collection 和 Map. 而 Collection 又繼承了 Iter

python 自學筆記（1）字串（python程式設計從入門到實踐）

使用方法改寫字串大小寫 name=”Ada lovelace” print(name.upper()) print(name.lower()) 結果： ADA LOVELACE ada lovelace 合併（拼接）字串方法1：直接通過

Redis（1）：原始碼編譯安裝及入門

CentOS 6.9redis-3.0.7.tar.gz1.解壓 tar -zxvf redis-3.0.7.tar.gz 2.安裝 cd redis-3.0.7 make 編譯後在Redis原始碼目錄的src資料夾中可以找到若干個可執行程式make

jdk1.8原始碼解析（1）：HashMap原始碼解析

jdk1.8 HashMap資料結構　　　　　　　　　　　　　　圖1-HashMap類圖　　　　　　　　　　　　　　　　　　　　圖2-TreeNode類圖　　　　由圖1-HashMap類圖可知HashMap底層資料結構是由一個Node<K,V>的陣列構成。具體Node<

詞向量原始碼解析：（6.7）fasttext原始碼解析之詞向量1

下面我們看一下怎麼用fasttext生成詞向量。我們執行word-vector-example.sh檔案可以得到考慮了subword的詞向量。首先看一下這個指令碼。首先是下載語料和測試集，下載語料的以後解壓並且用wikifil.pl對語料進行預處理，得到純文字 if [ !

caffe1原始碼解析從入門到放棄1）：記憶體管理syncedmem.hpp / syncedmem.cpp

相關推薦