1. 程式人生 > >caffe原始碼簡單解析——Blob(1)

caffe原始碼簡單解析——Blob(1)

使用caffe也有一段時間了,但更多是使用Python的介面,使用現有的ImageNet訓練好的模型進行圖片分類。為了更好的瞭解caffe這個框架,也為了提高自己的水平,在對卷積神經網路有了一些研究之後,終於開始研讀caffe的原始碼了,今天看了Blob類的一些內容,做個總結。

看過caffe官方文件的話,應該會知道,它可以分為三層:Blob、Layer、Net。Blob是一個四維的陣列,用於儲存資料,包括輸入資料、輸出資料、權值等等;Layer層則是神經網路中具體的各層結構,主要是計算的作用,在根據配置檔案初始化結構後,前向計算結果,反向更新引數,都是它要做的,而它的輸入和輸出都是Blob資料;Net的話,就是多個Layer組合而成的有向無環圖結構,也就是具體的網路了。Layer和Net的程式碼有待深入,尤其是Layer的程式碼,caffe實現了差不多40種不同的Layer層,裡面有不同的啟用函式,這個要好好研究下。

Blob原始碼解析

#include "caffe/common.hpp"
#include "caffe/proto/caffe.pb.h"
#include "caffe/syncedmem.hpp"
#include "caffe/util/math_functions.hpp"

blob.hpp包含的四個標頭檔案入手,其中caffe.pb.h是google protocol buffer根據caffe.proto自動生成的,可以到src/caffe/proto/caffe.proto裡看下caffe裡面用到的各個資料的定義,比如BlobProtoDatumNetParameter等。使用這個protocol buffer看起來確實方便,一方面可以用文字檔案定義結構化的資料型別,另一方面可以生成查詢效率更高、佔空間更小的二進位制檔案,具體的教程可以看看

這裡

caffe/common.hpp,主要singleton化Caffe類,並封裝了boost和CUDA隨機數生成的函式,提供了統一的介面。而在caffe/syncedmem.hpp中,定義了以下的介面:

inline void CaffeMallocHost(void** ptr, size_t size)
inline void CaffeFreeHost(void* ptr)

主要是分配記憶體和釋放記憶體的。而class SyncedMemory定義了記憶體分配管理和CPU與GPU之間同步的函式,也沒啥特別的。

比較重要的是caffe/util/math_functions.hpp,這裡面封裝了很多cblas矩陣運算,真是密密麻麻,看的我眼花繚亂、如痴如醉。比如:

void caffe_cpu_gemm<float>(const CBLAS_TRANSPOSE TransA, const CBLAS_TRANSPOSE TransB, const int M, const int N, const int K, const float alpha, const float* A, const float* B, const float beta, float* C)

封裝了cblas_sgemm(CblasRowMajor, TransA, TransB, M, N, K, alpha, A, lda, B, ldb, beta, C, N),這個計算得到的結果為C=alphaAB+beta*C,也即是A和B兩個矩陣的乘積。這裡有詳細的解釋。

void caffe_cpu_gemv<float>(const CBLAS_TRANSPOSE TransA, const int M,  const int N, const float alpha, const float* A, const float* x, const float beta, float* y)

是對cblas_sgemv的封裝,實現的矩陣與向量的乘積,結果為y=alphaAx+beta*y。

void caffe_axpy<float>(const int N, const float alpha, const float* X, float* Y)

封裝了cblas_saxpy,實現的是Y=alpha*X+Y

裡面都是諸如此類的函式,基本是些矩陣和向量的一些處理函式。

回到blob類,裡面定義了data_(),diff_()指標,用於存放資料,而num_, channel_, height_, width_則主要用來做定位offsetreshape處理。對於輸入(n, c, h, w)位置的資料位置為((n*channels_+c)*height_+h)*width_+w,可以依據位置取data_()diff_()中的資料。

對blob的理解還要結合caffe.proto裡面BlobProto的定義:

message BlobProto {
   optional int32 num = 1 [default = 0];
   optional int32 channels = 2 [default = 0];
   optional int32 height = 3 [default = 0];
   optional int32 width = 4 [default = 0];
   repeated float data = 5 [packed = true];
   repeated float diff = 6 [packed = true];
}

對於BlobProto,可以看到定義了四個optionalint32型別的名字(name)numchannelsheightwidthoptional意味著Blob可以有一個或者沒有這個引數,每個名字(name)後面都有一個數字,這個數字是其名字的一個標籤。這個數字就是用來在生成的二進位制檔案中搜索查詢的標籤(怪不得會快呢^_^)。關於這個數字,1到15會花費1byte的編碼空間,16到2047花費2byte。所以一般建議把那些頻繁使用的名字的標籤設為1到15之間的值~而後面的repeated意味著float型別的datadiff可以重複任意次,而加上[packed = true]是為了更高效的編碼。

到這裡基本上Blob就很清楚了,主要資料有兩個datadiff,用numchannelsheightwidth這四個維度來確定資料的具體位置,做一些資料查詢和Blobreshape的操作。

關於Blob就這麼多內容,畢竟就是一個統一的資料存取介面,後續會重點讀一下Layer的原始碼,畢竟各層的輸入輸出和計算更新過程都在裡面,還需要補充一些相關的知識~~

目前的感受,是學到了一些封裝的手法,可以看看封裝cblas函式的那個檔案,以及CPU和GPU一些介面的封裝上;另一方面是對於Protocol Buffer有了一些瞭解,目前看起來確實方便,以後如果遇到類似的場景可以試著用一下~~