1. 程式人生 > >論文理解 R-FCN:基於區域的全卷積網路來檢測物體

論文理解 R-FCN:基於區域的全卷積網路來檢測物體

本文轉載自:

http://blog.csdn.net/shadow_guo/article/details/51767036

原文標題為“R-FCN: Object Detection via Region-based Fully Convolutional Networks ”,作者代季峰 1,14年畢業的清華博士到微軟亞洲研究院的視覺計算組,CVPR 16 兩篇一作的會議主持人~ ╰(°▽°)╯ 同時公佈了原始碼~ 2

後面主要內容為原文隨便的翻譯或概括。必有不緊貼原文原意之處,曲解請指出,否則求放過~

1. 簡介

物體檢測的深度網路按感興趣區域 (RoI) 池化層分為兩大主流:共享計算的全卷積子網路 (每個子網路與 RoI 無關) 和 不共享計算的作用於各自 RoI 的子網路。工程分類結構 (如 Alexnet 和 VGG Nets) 造成這樣的分流。而工程上的影象分類結構被設計為兩個子網路——1個字尾1個空間池化層的卷積子網路和多個全連線層。因此,影象分類網路中最後的空間池化層自然變成了物體檢測網路中的 RoI 池化層。

近年來,諸如殘差網路和 GoogLeNets 等先進的影象分類網路為全卷積網路。類似地,自然會想到用在物體檢測中用全卷積網路 (隱藏層不包含作用於 RoI 的子網路)。然而,物體檢測工作中的經驗表明,這樣天真的解決方案的檢測效果遠差於該網路的分類效果。 為彌補尷尬,更快 R-CNN 檢測器不自然地在兩卷積層間插入RoI 池化層,這樣更深的作用於各 RoI 的子網路雖精度更高,但各個 RoI 計算不共享所以速度慢。

尷尬在於:物體分類要求平移不變性越大越好 (影象中物體的移動不用區分),而物體檢測要求有平移變化。所以,ImageNet 分類領先的結果證明儘可能有平移不變性的全卷積結構更受親睞。另一方面,物體檢測任務需要一些平移變化的定位表示。比如,物體的平移應該使網路產生響應,這些響應對描述候選框覆蓋真實物體的好壞是有意義的。我們假設影象分類網路的卷積層越深,則該網路對平移越不敏感。

我曾看到的尷尬包括:

a) Kaggle 中的白鯨身份識別。剛開始很多人嘗試從影象到座標的直接回歸,到後面有幾位心善的大哥分享了自己手動標定後白鯨的影象座標,後來顯著的進展大多是因為把白鯨的位置檢測和身份識別問題簡化為白鯨的身份識別問題。 
b) Caffe 用於物體檢測時的均值收斂問題。

消除尷尬,在網路的卷積層間插入 RoI 池化層。這種具體到區域的操作在不同區域間跑時不再有平移不變性。然而,該設計因引入相當數目的按區域操作層 (region-wise layers) 而犧牲了訓練和測試效率。

本文,我們為物體檢測推出了基於區域的全卷積網路 (R-FCN),採用全卷積網路結構作為 FCN,為給 FCN 引入平移變化,用專門的卷積層構建位置敏感分數地圖 (position-sensitive score maps)。每個空間敏感地圖編碼感興趣區域的相對空間位置資訊。

 在FCN上面增加1個位置敏感 RoI 池化層來監管這些分數地圖。

2. 方法

(1) 簡介

效仿 R-CNN,採用流行的物體檢測策略,包括區域建議和區域分類兩步。不依賴區域建議的方法確實存在 (SSD 和 Yolo 弟兄),基於區域的系統在不同 benchmarks 上依然精度領先。用更快 R-CNN 中的區域建議網路 (RPN) 提取候選區域,該 RPN 為全卷積網路。效仿更快 R-CNN,共享 RPN 和 R-FCN 的特徵。

這裡寫圖片描述

RPN 給出感興趣區域,R-FCN 對該感興趣區域分類。R-FCN 在與 RPN 共享的卷積層後多加1個卷積層。所以,R-FCN 與 RPN 一樣,輸入為整幅影象。但 R-FCN 最後1個卷積層的輸出從整幅影象的卷積響應影象中分割出感興趣區域的卷積響應影象。

這裡寫圖片描述

R-FCN 最後1個卷積層在整幅影象上為每類生成k2個位置敏感分數圖,有C類物體外加1個背景,因此有k2(C+1)個通道的輸出層。k2個分數圖對應描述位置的空間網格。比如,k×k=3×3,則9個分數圖編碼單個物體類的 {topleft,topcenter,topright,...,bottomright}。

R-FCN 最後用位置敏感 RoI 池化層,給每個 RoI 1個分數。選擇性池化圖解:看上圖的橙色響應影象 (topleft),摳出橙色方塊 RoI,池化橙色方塊 RoI 得到橙色小方塊 (分數);其它顏色的響應影象同理。對所有顏色的小方塊投票 (或池化) 得到1類的響應結果。

選擇性池化是跨通道的,投票部分的池化為所有通道的池化。而一般池化都在通道內。

R-FCN 最後1個卷積層的輸出為什麼會具有相對空間位置這樣的物理意義 (top-left,top-center,…,bottom-right)?

原文為“With end-to-end training, this RoI layer shepherds the last convolutional layer to learn specialized position-sensitive score maps.”。所以,假設端到端訓練後每層真有相對位置的意義,那麼投票前的輸入一定位置敏感。投票後面的內容用作分類。

端到端訓練先自行腦補: 
假設已知原影象與真實物體的邊界框中心座標和寬高,把1個物體的邊界框中心座標分成k2個網格的中心座標,寬高縮放為物體寬高的1k倍,得到每個網格的掩碼。用原影象和每類物體的網格在整幅影象中的掩碼端到端訓練全卷積網路。挺像影象分割~

(2) 基礎結構

ResNet-101 網路有100個卷積層,1個全域性平均池化層和1個1000類的全連線層。僅用ImageNet預訓練的該網路的卷積層計算特徵圖。

(3) 位置敏感分數圖

對 R-FCN 的卷積響應影象按 RPN 的結果分割出來感興趣區域,對單通道的感興趣區域分成k×k個網格,每個網格平均池化,然後所有通道再平均池化。 
其實不是這樣的~ 因為 RoI 覆蓋的所有面積的橙色方片都是左上位置的響應。

“To explicitly encode position information into each RoI, we divide each RoI rectangle into k×k bins by a regular grid.” 這句話應對應下圖 (對應後面效果圖的黃色虛線部分):

這裡寫圖片描述

對1個大小為w×h的 RoI,1個桶 (bin) 的大小為wk×hk,最後1個卷積層為每類產生k2個分數圖。對第(i,j)個桶 (0i,jk1),定義1個位置敏感 RoI 池化操作: 

rc(i,j|Θ)=1n(x,y)bin(i,j)zi,j,c(x+x0,y

相關推薦

論文理解 R-FCN基於區域網路檢測物體

本文轉載自: http://blog.csdn.net/shadow_guo/article/details/51767036 原文標題為“R-FCN: Object Detection via Region-based Fully Convoluti

R-FCN基於區域網路檢測物體

原文標題為“R-FCN: Object Detection via Region-based Fully Convolutional Networks ”,作者代季峰 1,14年畢業的清華博士到微軟亞洲研究院的視覺計算組,CVPR 16 兩篇一作的會議主持人~

R-FCN基於區域網絡檢測物體

速度慢 obj ogl ott 不用 插入 編碼 邊框 sco http://blog.csdn.net/shadow_guo/article/details/51767036 原文標題為“R-FCN: Object Detection via Region-based F

網路從影象級理解到畫素級理解-FCN影象分割邊緣檢測

作者:果果是枚開心果 連結:https://zhuanlan.zhihu.com/p/20872103 來源:知乎 著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。卷積神經網路(CNN):影象級語義理解的利器 自2012年AlexNet提出並重新整理了當年ImageNet物體分類競賽的世

網路FCN)與影象分割

學習收藏。 從影象分類到影象分割 卷積神經網路(CNN)自2012年以來,在影象分類和影象檢測等方面取得了巨大的成就和廣泛的應用。 CNN的強大之處在於它的多層結構能自動學習特徵,並且可以學習到多個層次的特徵:較淺的卷積層感知域較小,學習到一些區域性區域的特徵;較深

[深度學習]從網路到大型深度學習的語義分割指南

語義分割一直是計算機視覺中十分重要的領域,隨著深度學習的流行,語義分割任務也得到了大量的進步。本文首先闡釋何為語義分割,然後再從論文出發概述多種解決方案。本文由淺層模型到深度模型,簡要介紹了語義分割各種技術,雖然本文並沒有深入講解語義分割的具體實現,但本文簡要地概述了每一篇重要

吳恩達深度學習基於Matlab完成神經網路第四課第一週程式設計任務

          這兩三個月通過吳恩達老師的課程學習了深度學習,從零開始學理論,做程式設計任務。感覺學了很多知識。現在學到卷積神經網路,想把第一週的程式設計任務、其中的要點上傳和編寫,方便自己以後鞏固。(注:吳恩達老師課程的程式設計任務是用Python來完成的,而我是用ma

網路FCN詳解

背景 CNN能夠對圖片進行分類,可是怎麼樣才能識別圖片中特定部分的物體,在2015年之前還是一個世界難題。神經網路大神Jonathan Long發表了《Fully Convolutional Networks for Semantic Segmentation》在

[深度學習] FCN 網路 語義分割

FCN 全卷積網路 Fully Convolutional Networks for Semantic Segmentation 今天實驗室停電,無聊把原來的一個分享PPT發上來 語義分割 語義分割是計算機視覺中的基本任務,也是計算機視覺的熱點,在語義分割中我們

基於 keras的網路u-net端到端醫學影象多型別影象分割(一)

有醫院的朋友,需要幫忙完成一個影象分割的任務,提供了一些資料,看了下資料,灰度圖,覺得設計特徵再做分割太麻煩。直接整神經網路吧。不用費神設計特徵,省事,畢竟只是幫個忙而已。 1. 查詢方案 顯然,這個任務,早有前人做過無數次了,這麼熱點的領域,簡直一搜一大把。搜尋結

(譯)從網路到大型深度學習的語義分割指南

機器之心:By路雪 2017年7月14日  什麼是語義分割?   語義分割指畫素級地識別影象,即標註出影象中每個畫素所屬的物件類別。如下圖:      左:輸入影象,右:該影象的語義分割   除了識別車和騎車的人,我們還需要描繪出每個物體的邊界。因此,與影象分類

網路FCN

全卷積網路FCN fcn是深度學習用於影象分割的鼻祖.後續的很多網路結構都是在此基礎上演進而來. 影象分割即畫素級別的分類. 語義分割的基本框架: 前端fcn(以及在此基礎上的segnet,deconvnet,deeplab等) + 後端crf/mrf FCN是分割網路的鼻祖,後面的很多網路都是在此基礎上提出

論文解讀|【Densenet】密集連線的網路(附Pytorch程式碼講解)

@[t oc] 1 簡單介紹 論文題目:Densely Connected Convolutional Networks 發表機構:康奈爾大學,清華大學,Facebook AI 發表時間:2018年1月 論文程式碼:https://github.com/Wang

基於更深網路的大規模影象識別——閱讀筆記

這篇文章是根據之前有一篇翻譯的文獻而來,翻譯見前面的部落格: https://blog.csdn.net/D_____S/article/details/82825322 第一次讀外文文獻,理解起來非常困難,參考了網上的不少資料。 之後會學習如何復現此網路,復現過程將在接下來的部落

caffe 網路

論文:Long_Fully_Convolutional_Networks 簡介 全卷積網路相對於之前的cnn,是對影象中的每個畫素點進行分類 常用於影象的語義分割中 參考 測試

Faster R-CNN利用區域提案網路實現實時目標檢測 論文翻譯

Faster R-CNN論文地址:Faster R-CNN Faster R-CNN專案地址:https://github.com/ShaoqingRen/faster_rcnn 摘要 目前最先進的目標檢測網路需要先用區域提案演算法推測目標位置,像SPPnet1和Fast R-CNN2

SiamFC基於孿生網路的目標跟蹤演算法

Abstract 本論文提出一種新的全卷積孿生網路作為基本的跟蹤演算法,這個網路在ILSVRC15的目標跟蹤視訊資料集上進行端到端的訓練。我們的跟蹤器在幀率上超過了實時性要求,儘管它非常簡單,但在多個benchmark上達到最優的效能。 1. Introduction

Faster R-CNN區域提案網路實現實時目標檢測

摘要 最先進的目標檢測網路依賴於區域建議演算法來假設物體的位置.像sppnet[1]和快速r-cnn[2]這樣的進步減少了這些檢測網路的執行時間,將區域提案計算暴露為瓶頸。在本文中,我們引入了一個區域提案網路(RPN),它與檢測網路共享全影象卷積特徵,從而實現了幾乎免費的區域提案。RPN是一個完

理解隨機森林基於Python的實現和解釋

隨機森林是一種強大的機器學習模型,得益於各種強大的庫,現在人們可以很輕鬆地呼叫它,但並不是每一個會使用該模型的人都理解它的工作方式。資料科學家 William Koehrsen 用 Python 實現並解釋了決策樹和隨機森林的工作過程。 引言 感謝 Scikit-Learn 這樣的庫,讓我們現在

論文筆記 R-FCN: Object Detection via Region-based Fully Convolutional Networks

插一句,我又回來啦~ 這篇論文主要採用“位置敏感度圖”的方法,將FCN 網路引入到目標檢測中來,將影象分類和目標檢測很好地結合。因此這種方法可以和很多FCN中的影象分類框架結合,比如ResNets等,