論文筆記 | R-FCN: Object Detection via Region-based Fully Convolutional Networks

阿新 • • 發佈：2019-01-16

Jifeng Dai，Yi Li，Kaiming He，Jian Sun
這裡寫圖片描述
代季峰
程式碼裡還有百度雲盤的連線，為國人考慮的真周到~
（更新，作者又給出了end2end版本，現有三版code 包括mxnet版： https://github.com/daijifeng001/R-FCN ）

Abstract

本文提供了region-based，fully convolutional networks，用於快速精確的目標檢測。Fast或者Faster在per-region的時候都需要subnetwork很多次，比如region通過fc層，本文希望可以將幾乎所有的計算都可以共享。提出了position-sensitive score maps來處理影象分類時的translation-invariance和目標識別時的translation-variance。R-FCN可以將ResNet等全卷積圖片分類器轉換為目標識別用。可以達到比faster rcnn快2.5-20倍。

1 Introduction

現有的目標檢測網路大多數分為兩部分：全卷積網路+RoIl之後的不再進行計算共享的網路。但是現在的state of the art 圖片分類的網路ResNet,googlenet都是全卷積網路（googLeNet在訓練時不是）。我們想在目標檢測方面也利用全卷積網路，但是之前的嘗試都是精度比較差，在ResNet的文章裡http://blog.csdn.net/bea_tree/article/details/51735788，插入了RoI pooling layer 提高了精度，可是卻降低了速度，因為在計算每一個RoI時計算不共享（下圖是fast的，faster多了RPN）。
這裡寫圖片描述

我們需要設定RoIl-wise subnetwork的原因是影象分類時的translation-invariance和目標識別時的translation-variance的矛盾：
1. 影象分類，希望圖片中的物體無論怎麼變化都可以被識別，深度卷積網路在這方面做的很好；
2. 在object detection中，物體的定位是需要translation-variance，比如目標變動的時候需要產生與candidate box的相應的合理關係。

Locally adaptive learning for translation-variant MRF image priors

而我們推測越深的卷積網路對於translation越不敏感。

本文提出了一種Region-based Fully Convolutional Network (R-FCN)，其結構是FCN中的一種，為了將translation variance 包含進FCN，我們用FCN的輸出設計了一組 position sensitive score maps，它包含物體的位置資訊，其頂端設有RoI Poolinglayer 來處理位置資訊，之後再沒有權重層

2 our approach

這裡寫圖片描述

骨架：ResNet101去掉global average和分類用的fc層，新增一個1024d的1x1conv layer來降低維度，然後加了k2(C+1)通道的conv layers 來產生 score maps。
Position sensitive score maps and RoI pooling:最後的卷積層對每一個類別都產生k^2個score maps，對於第（i,j）個pool bin裡數值資訊都只對應著第（i,j）個score map：
這裡寫圖片描述
之後計算平均分：之後計算softmax得分，用於計算cross-entropy loss及RoIs rank。
在之後的Bounding box regression也是類似，對每一個RoI產生一個4k2的向量，類似的最後使用平均voting產生一個4d向量，分別代表左上角座標及長和寬。
靈感來源：

J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. arXiv:1603.08678,
2016.

Training 和fast rcnn類似，loss 分為兩部分：
這裡寫圖片描述
正例需要是與ground truth iou大於0.5的。
本文這種方法還可以比較容易的運用於online hard example mining。

A. Shrivastava, A. Gupta, and R. Girshick. Training region-based object detectors with online hard example
mining. In CVPR, 2016.

weight decay 0.0005
momentum 0.9
image:600 p
each GPU:1 image and selects B=128 ROIS for backprop
微調：0.001 lr for 20k mini-batches 0.0001 for 10k mini-batches
RPN：4 step alternating
Inference 如Faster rcnn，我們估計了300個rois每張圖片，最後使用non-maximum suppression來postprocessed（0.3 IoU）
À trous and stride：由ResNet101的32 p的stride變為16 pixels，增加了score map的解析度，前四個階段的stride不變，第五階段由stride=2變為1，其filter使用hole algorithm修改，其map可提高2.6個百分點：
這裡寫圖片描述

S. Mallat. A wavelet tour of signal processing. Academic press, 1999
L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with
deep convolutional nets and fully connected crfs. In ICLR, 2015.

為了便於與faster rcnn比較其RPN由第4階段的輸出conv來計算。
visualization
這裡寫圖片描述

4 試驗對比

這裡寫圖片描述
VS Faster Rcnn

深度的影響

region proposals的影響

論文筆記 | R-FCN: Object Detection via Region-based Fully Convolutional Networks

Abstract

1 Introduction

2 our approach

4 試驗對比

5 conclusion

論文筆記 R-FCN: Object Detection via Region-based Fully Convolutional Networks

論文筆記 | R-FCN: Object Detection via Region-based Fully Convolutional Networks

【深度學習：目標檢測】 RCNN學習筆記(11):R-FCN: Object Detection via Region-based Fully Convolutional Networks

【R-FCN】《R-FCN: Object Detection via Region-based Fully Convolutional Networks》

R-FCN:Object Detection via Region-based Fully convolutional Networks && light-head RCNN

R-FCN: Object Detection via Region-based Fully Convolutional Networks

目標檢測--R-FCN: Object Detection via Region-based Fully Convolutional Networks

翻譯《R-FCN: Object Detection via Region-based Fully Convolutional Network》

論文筆記之《Event Extraction via Dynamic Multi-Pooling Convolutional Neural Network》

論文閱讀筆記（六）Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

論文閱讀筆記二十六：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks（CVPR 2016）

【論文筆記】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

【筆記】Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

[論文學習]《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 》

深度學習論文翻譯解析（十三）：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

【Faster RCNN】《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

【翻譯】Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

顯著性檢測：'Saliency Detection via Graph-Based Manifold Ranking'論文總結

論文筆記：Deep Attentive Tracking via Reciprocative Learning

論文筆記 | R-FCN: Object Detection via Region-based Fully Convolutional Networks

Abstract

1 Introduction

2 our approach

4 試驗對比

5 conclusion

相關推薦