FasterRCNN之整體框架詳解

阿新 • • 發佈：2019-02-08

歡迎訪問我的個人主頁
剛接觸物體檢測領域,學習了Faster RCNN的論文及Tensorflow版本的原始碼,不得不說,讀原始碼真的過癮…不過確實能夠幫助理解框架,下面按照Faster RCNN的預測過程介紹其整體流程

整體框架

Faster RCNN整體框架包括4部分:
一. 使用VGG16或者其他成熟的圖片分類模型提取圖片特徵(feature map)
二. 將圖片特徵喂入RPN(Region Proposal Network)網路得到proposals (包含第一次迴歸)
三. 將上兩步的結果:圖片特徵和 proposals 喂入RoI Pooling層得到綜合的proposals特徵

四. 根據poposals特徵預測物體的bounding box和物體的類別 (包含第二次迴歸)

對應下圖: 圖中conv(3,3,512,1,1)對應conv(filter_height,filter_width,output_channels,stride_height,stride_width)
在這裡插入圖片描述

接下來分別介紹這四部分對應的網路結構,以預測過程為例(訓練過程涉及ground truth的構建,會在之後的部落格中具體介紹)

一.獲取圖片特徵

在這裡插入圖片描述
使用預訓練好的VGG16提取圖片特徵,如下圖所示,喂入的圖片(也就是’data’)並沒有經過VGG16所有的流程,而是在得到’conv5_3’這個結果後就停下了,'conv5_3’就是Faster RCNN需要的圖片特徵(feature map)
注意:'conv5_3’的h,w是輸入圖片’data’的1/16
VGG16

二.RPN網路輸出proposals

這是Faster RCNN中最複雜的一部分. 將通過VGG16得到的圖片特徵喂入RPN(Region Proposal Network)網路得到proposals
RPN網路結構如下圖所示
在這裡插入圖片描述
(1) 首先將圖片特徵’conv5_3’餵給卷積層conv(3,3,512,1,1),輸出的圖片特徵 ‘rpn_conv/3x3’ 尺寸和通道數均保持不變.
根據卷積的運算公式,猜測這一層的作用為:該層 每個filter 分別將’conv5_3’的所有通道聯絡起來,也就是說經過卷積後, 'rpn_conv/3x3’的每個通道 都整合了’conv5_3’所有通道的資訊.(這地方說起來比較繞,如果明白卷積的計算過程就容易理解了)
(2.1) 將 ‘rpn_conv/3x3’

餵給conv(1,1,36,1,1)得到 ‘rpn_box_pred’ ,36個通道表示:每個點有9組proposals的迴歸值,每組proposals的迴歸值對應論文中的tx,ty,tw,th.(這裡是第一次迴歸)
這裡要重點注意一下,'rpn_conv/3x3’的尺寸是h,w,也就是’rpn_conv/3x3’有h*w個畫素(不要考慮通道數,舉個例子:平時我們看到的彩色圖是3通道的,假設解析度是1920*1080,這表示有1920*1080個畫素點,而不是3*1920*1080個).針對這h*w個畫素,以每個畫素為中心為每個畫素生成9組proposals的迴歸值,每組迴歸值包含4個資訊.所以每個畫素點需要36個維度去儲存9*4個資訊,這就是輸出通道36的來源!
(2.2.1) 將 ‘rpn_conv/3x3’ 餵給conv(1,1,18,1,1)得到 ‘rpn_cls_score’ ,剛才說了,要為 ‘rpn_conv/3x3’ 的每個畫素生成9個proposals,而每個proposal是有類別的,要麼是foreground proposal(框出物體)，要麼是backgroud proposal(框出背景).所以每個proposal需要2個維度來儲存類別得分,因此 ‘rpn_conv/3x3’ 的每個畫素需要9*2=18個維度,這就是輸出通道18的來源.
(2.2.2)接著將 ‘rpn_cls_score’ 依次喂入reshape_layer,softmax,reshape_layer,最終得到 ‘rpn_cls_prob_reshape’ ,這一過程將每個類別得分轉換為概率.
為什麼要經過兩個reshape_layer呢? 這裡引用白裳大神的解釋:

那麼為何要在softmax前後都接一個reshape layer？其實只是為了便於softmax分類，至於具體原因這就要從caffe的實現形式說起了。
在caffe基本資料結構blob中以如下形式儲存資料：blob=[batch_size, channel，height，width]
對應至上面的儲存bg/fg anchors的矩陣，其在caffe blob中的儲存形式為[1, 2x9, H, W]。
而在softmax分類時需要進行fg/bg二分類，所以reshape layer會將其變為[1, 2, 9xH, W]大小，
即單獨“騰空”出來一個維度以便softmax分類，之後再reshape回覆原狀。
貼一段caffe softmax_loss_layer.cpp的reshape函式的解釋，非常精闢：
"Number of labels must match number of predictions; "
"e.g., if softmax axis == 1 and prediction shape is (N, C, H, W), "
"label count (number of labels) must be N*H*W, "
"with integer values in {0, 1, ..., C-1}.";
綜上所述，RPN網路中利用anchors和softmax初步提取出foreground anchors作為候選區域。

(3) 將 ‘rpn_box_pred’ 和 ‘rpn_cls_prob_reshape’ 以及 im_info 餵給proposal_layer 得到 ‘rois’ ,也就是RPN網路最終輸出的proposals. 這些proposals都是從foreground anchors裡面挑選的, 用到了nms. 接下來還需要對RPN輸出的proposals進行第二次迴歸

三. 通過RoI Pooling層得到綜合的proposals特徵

在這裡插入圖片描述
(1) 將 ‘rois’ 和 ‘conv5_3’ 餵給roi_pool 得到 ‘pool_5’ , 關於roi_pool的輸入,尺寸是任意大小的,但輸出的特徵都是長度固定的. 具體可參考3分鐘理解ROI Pooling層

四.根據poposals特徵進行框迴歸和物體分類

在這裡插入圖片描述
(1) 將 ‘pool_5’ 連續經過兩個全連線層得到 'fc_7’
(2.1)將 ‘fc_7’ 經過全連線層得到 ‘bbox_pred’ ,這裡是二次迴歸,表示tx,ty,tw,th.用來和 ‘rois’ 相加,從而得到Faster RCNN最終的proposals!
(2.2.1) 將 ‘fc’ 經過全連線層得到 'cls_score’
(2.2.2) 將 ‘cls_score’ 經過softmax層得到 ‘cls_prob’ ,也就是proposal屬於各個物體的概率

以上便是Faster RCNN的4部分,關於模組的實現細節,我過幾天再寫

訓練時迭代了50000次,pascal2007測試結果MAP=0.65,其中,chair的ap最低0.46,horse的ap最高0.81
執行環境:CUDA8,cuDNN7,1070Ti,TensorFlow1.4.0,python2.7
訓練集:voc_2007_trainval 訓練時間148分鐘
測試集:voc_2007_testt 測試時間10分鐘(5000圖)

參考:
白裳

FasterRCNN之整體框架詳解

歡迎訪問我的個人主頁剛接觸物體檢測領域,學習了Faster RCNN的論文及Tensorflow版本的原始碼,不得不說,讀原始碼真的過癮…不過確實能夠幫助理解框架,下面按照Faster RCNN的預測過程介紹其整體流程整體框架 Faster RCNN整體框架

皇冠體育二代信用盤帶手機版網絡爬蟲之scrapy框架詳解

ML gin spi 通過 file 解決問題有時 ide bee 網絡爬蟲之scrapy框架詳解twisted介紹皇冠體育二代信用盤帶手機版 QQ2952777280Twisted是用Python實現的基於事件驅動的網絡引擎框架，scrapy正是依賴於twisted，

iOS開發之AddressBookUI框架詳解

iOS開發之AddressBookUI框架詳解一、關於AddressBookUI框架 AddressbookUI是iOS開發框架中提供的一套通訊錄介面元件。其中封裝好了一套選擇聯絡人，檢視聯絡人的介面，在需要時開發者可以直接呼叫。當然對於聯絡人介面，

iOS開發之AddressBook框架詳解

iOS開發之AddressBook框架詳解一、寫在前面首先，AddressBook框架是一個已經過時的框架，iOS9之後官方提供了Contacts框架來進行使用者通訊錄相關操作。儘管如此，AddressBook框架依然是一個非常優雅並且使用方便的通

iOS開發之Accounts框架詳解

iOS開發之Accounts框架詳解 Accounts框架是iOS原生提供的一套賬戶管理框架，其支援Facebook，新浪微博，騰訊微博，Twitter和領英賬戶管理的功能。需要注意，在iOS 11及以上系統中，將此功能已經刪除，因此Accounts.frame

JavaScript 教程之jQuery教程之jQuery框架詳解(四)(jQuery 遍歷)(遍歷+祖先+後代+同胞+過濾)

一.jQuery 遍歷 1.什麼是遍歷 jQuery 遍歷，意為“移動”，用於根據其相對於其他元素的關係來“查詢”（或選取）HTML 元素。以某項選擇開始，並沿著這個選擇移動，直到抵達您期望的元

並發系列（4）之 Future 框架詳解

{} run exec dead throw 很多 atom 取值 top 本文將主要講解 J.U.C 中的 Future 框架，並分析結合源碼分析其內部結構邏輯；一、Future 框架概述 JDK 中的 Future 框架實際就是 Future 模式的實現，通常情況下我

Struts2框架之struts.xml詳解

Struts2框架之struts.xml詳解文章目錄 Struts2框架之struts.xml詳解一個struts.xml的配置示例 package標籤的配置 action標籤的配置 result標

php 擴充套件開發講解網址菜鳥學php擴充套件之 hello world(一) 菜鳥學php擴充套件之自動生成的擴充套件框架詳解(二) 菜鳥學php擴充套件之詳解擴充套件函式的傳參(如何獲取引數)(三) 菜鳥學php擴充套件之詳解php擴充套件的變數(四) 菜鳥學php擴充套件之

菜鳥學php擴充套件之 hello world(一) https://blog.csdn.net/u011957758/article/details/72234075 菜鳥學php擴充套件之自動生成的擴充套件框架詳解(二) https://blog.csdn.net/u

FasterRCNN之整體框架詳解

整體框架

一.獲取圖片特徵

二.RPN網路輸出proposals

三. 通過RoI Pooling層得到綜合的proposals特徵

四.根據poposals特徵進行框迴歸和物體分類

FasterRCNN之整體框架詳解

皇冠體育二代信用盤帶手機版網絡爬蟲之scrapy框架詳解

iOS開發之AddressBookUI框架詳解

iOS開發之AddressBook框架詳解

iOS開發之Accounts框架詳解

JavaScript 教程之jQuery教程之jQuery框架詳解(四)(jQuery 遍歷)(遍歷+祖先+後代+同胞+過濾)

並發系列（4）之 Future 框架詳解

Struts2框架之struts.xml詳解

梳理Python 框架之中介軟體詳解（用途和機制）

linux驅動由淺入深系列：ALSA框架詳解音訊子系統之二

JAVAORM框架之Mybatis (Ibatis) 詳解

Struts2框架學習之二 action詳解

集合框架之collection類詳解

Android 網路框架之Retrofit2使用詳解及從原始碼中解析原理

Java多執行緒之fork/join框架詳解

Android資料庫三：xutils3框架之資料庫使用詳解！

最新的三大框架整合之配置檔案詳解

Java集合框架詳解之繼承map介面

Java自動化測試框架-12 - TestNG之xml檔案詳解篇（詳細教程）

FasterRCNN之整體框架詳解

整體框架

一.獲取圖片特徵

二.RPN網路輸出proposals

三. 通過RoI Pooling層得到綜合的proposals特徵

四.根據poposals特徵進行框迴歸和物體分類

相關推薦