1. 程式人生 > >【論文翻譯】Faster R-CNN

【論文翻譯】Faster R-CNN

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun

摘要

目前最先進的目標檢測網路需要先用區域提案演算法推測目標位置,像SPPnet1和Fast R-CNN2這些網路已經減少了檢測網路的執行時間,這時計算區域提案就成了瓶頸問題。本文中,我們介紹一種區域提案網路(Region Proposal Network, RPN),它和檢測網路共享全圖的卷積特徵,使得區域提案几乎不花時間。RPN是一個全卷積網路,在每個位置同時預測目標邊界和objectness得分。RPN是端到端訓練的,生成高質量區域提案框,用於Fast R-CNN來檢測。我們通過共享其卷積特徵進一步將RPN和Fast R-CNN合併到一個網路中。使用最近流行的神經網路術語“注意力”機制,RPN模組告訴統一網路需要看哪裡。對於非常深的VGG-16模型

3,我們的檢測系統在GPU上的幀率為5fps(包含所有步驟),在PASCAL VOC 2007、PASCAL VOC 2012和MS COCO資料集上實現了最先進的目標檢測準確率,每個影象用了300個提案框。在ILSVRC和COCO 2015比賽中,Faster R-CNN和RPN是幾個比賽的第一名方法的基礎。程式碼已公開。

1.引言

最近在目標檢測中取得的進步都是由區域提案方法(例如4)和基於區域的卷積神經網路(R-CNN)5取得的成功來推動的。基於區域的CNN在5中剛提出時在計算上消耗很大,幸好後來這個消耗通過提案框之間共享卷積1 2大大降低了。最近的Fast R-CNN2用非常深的網路3實現了近實時檢測的速率,注意它忽略了生成區域提案框的時間。現在,提案框是最先進的檢測系統中的計算瓶頸

區域提案方法典型地依賴於消耗小的特徵和經濟的獲取方案。選擇性搜尋(Selective Search, SS)4是最流行的方法之一,它基於設計好的低階特徵貪心地融合超級畫素。與高效檢測網路2相比,SS要慢一個數量級,CPU應用中大約每個影象2s。EdgeBoxes6在提案框質量和速度之間做出了目前最好的權衡,大約每個影象0.2s。但無論如何,區域提案步驟花費了和檢測網路差不多的時間。 Fast R-CNN利用了GPU,而區域提案方法是在CPU上實現的,這個執行時間的比較是不公平的。一種明顯提速生成提案框的方法是在GPU上實現它,這是一種工程上很有效的解決方案,但這個方法忽略了其後的檢測網路,因而也錯失了共享計算的重要機會。

本文中,我們改變了演算法——用深度網路計算提案框——這是一種簡潔有效的解決方案,提案框計算幾乎不會給檢測網路的計算帶來消耗。為了這個目的,我們介紹新穎的區域提案網路(Region Proposal Networks, RPN),它與最先進的目標檢測網路1 2共享卷積層。在測試時,通過共享卷積,計算提案框的邊際成本是很小的(例如每個影象10ms)。

我們觀察發現,基於區域的檢測器例如Fast R-CNN使用的卷積(conv)特徵對映,同樣可以用於生成區域提案。我們緊接著這些卷積特徵增加一些額外的卷積層來構造RPN:這些層在每個卷積對映網格上同時預測objectness得分和迴歸邊界。 我們的RPN是一種全卷積網路(fully-convolutional network, FCN)7,可以針對生成檢測提案框的任務端到端地訓練。

Figure 1

圖1. 用於解決多種尺度和尺寸的不同方案。(a)構建了金字塔的影象和特徵圖,分類器在所有尺度上執行。 (b)在特徵圖上執行具有多個刻度/尺寸的卷積的金字塔。 (c)我們在迴歸函式中使用參考框的金字塔。

RPN旨在有效地預測具有廣泛尺度和縱橫比的區域分佈。與使用影象的金字塔(圖1,a)或卷積的金字塔(圖1,b)的流行方法8 9 1 2相比,我們引入了新的“錨點”作為多尺度和縱橫比的參考。我們的方案可以被認為是一個迴歸參考金字塔(圖1,c),它避免了列舉多個尺度或縱橫比的影象或卷積。當使用單尺度影象進行訓練和測試時,該模型表現良好,從而有利於執行速度。

為了統一RPN和Fast R-CNN2目標檢測網路,我們提出一種簡單的訓練方案,即保持提案框固定,微調區域提案和微調目標檢測之間交替進行。這個方案收斂很快,最後形成可讓兩個任務共享卷積特徵的標準網路。

我們在PASCAL VOC檢測標準集10上評估我們的方法, Fast R-CNN結合RPN的檢測準確率超過了作為強大基準的Fast R-CNN結合SS的方法。同時,我們的方法沒有了SS測試時的計算負擔,對於生成提案框的有效執行時間只有10毫秒。利用3中網路非常深的深度模型,我們的檢測方法在GPU上依然有5fps的幀率(包括所有步驟),因此就速度和準確率而言,這是一個實用的目標檢測系統。我們還評估了MS COCO資料集11的結果,並使用COCO資料對PASCAL VOC的改進進行了評估。MATLAB版本Python版本的程式碼已經公開提供。

以前,這份手稿的初步版本已經公佈12。從那時起,RPN和Faster R-CNN的框架已被採用並通用於其他方法,如3D目標檢測13,基於部分的檢測14,目標分割15和影象字幕16。我們的快速有效的物體檢測系統也已經在諸如Pinterest17等商業系統中使用,有了使用者的參與與改進。

在ILSVRC和COCO 2015比賽中,Faster R-CNN和RPN是ImageNet檢測,ImageNet定位,COCO檢測和COCO分割的第一名所採用的方法的基礎。 RPN完全從資料中學習提出區域,從而可以從更深層次和更具表現力的特徵(如18中採用的101層殘差網路)中輕鬆獲益。Faster R-CNN和RPN也被這些比賽的其他幾個主要參賽作品使用(http://image-net.org/challenges/LSVRC/2015/results)。這些結果表明,我們的方法不僅實用,而且是提高目標檢測精度的有效方法。

2.相關工作

目標提案。有關於目標提案方法的大量文獻。目標提案方法的綜合調查和比較可以在192021中找到。廣泛使用的目標提案方法包括基於分組超畫素(例如,選擇性搜尋4,CPMC22,MCG23)和基於滑動視窗的目標提案方法(例如,視窗中的目標24,EdgeBoxes6)。目標提案方法被採用為獨立於檢測器的外部模組(例如,選擇性搜尋[4]目標檢測器,R-CNN5和Fast R-CNN2)。

**深度網路目標檢測。**R-CNN方法5使用CNN端到端地將提案區域分類為目標類別或背景。 R-CNN主要作為分類器,它不預測目標邊界(除了通過邊界框迴歸進行細化)。其準確性取決於區域提案模組的效能(參見20中的比較)。幾篇論文提出了使用深層網路預測檢測框的方法25 9 26 27。在OverFeat方法9中,訓練全連線層以預測假定單目標定位任務的框座標。全連線層然後被變成用於檢測多種類別目標的卷積層。MultiBox方法26 27的網路從最後一個全連線層同時預測多個類別無關框,是對OverFeat的但目標模式的推廣。這些類別無關框被用作R-CNN的提案5。與我們的全卷積方案相比,MultiBox提案網路應用於單個影象塊或多個大影象塊(例如,224×224224×224)。 MultiBox不共享提案和檢測網路之間的特徵。我們在後文中講我們的方法時會更深層次地討論OverFeat和MultiBox。與我們的工作同時進行的DeepMask方法28被用於學習分割提案。

卷積的共享計算9 1 29 7 2高效、精確,已經在視覺識別方面吸引了越來越多的注意。OverFeat論文9從影象金字塔計算卷積特徵,用於分類、定位、檢測。在共享的卷積特徵對映上自適應大小的pooling(SPP)1能有效用於基於區域的目標檢測1 30和語義分割29。Fast R-CNN2實現了在共享卷積特徵上訓練的端到端檢測器,顯示出令人驚歎的準確率和速度。

3.Faster R-CNN

我們的目標檢測系統稱為Faster R-CNN,由兩個模組組成。第一個模組是提出區域提案的深度全卷積網路,第二個模組是使用區域提案的Fast R-CNN檢測器2。整個系統是一個統一的目標檢測網路(圖2)。使用最近流行的神經網路術語“注意力”31機制,RPN模組告訴Fast R-CNN模組要看哪裡。在3.1節中,我們介紹了區域提案網路的設計和屬性。在3.2節中,我們介紹用於訓練具有共享特徵的兩個模組的演算法。

Figure 2

圖2. Faster R-CNN是用於目標檢測的單個統一網路。 RPN模組作為統一網路的“注意力”。

3.1區域提案網路

區域提案網路(RPN)將一個影象(任意大小)作為輸入,輸出矩形目標提案框的集合,每個框有一個objectness得分(“區域”是一個通用術語,在本文中,我們只考慮矩形區域,這與許多方法是一致的(例如27 46)。 “objectness”衡量一組目標類與背景的成員關係。)。我們用全卷積網路7對這個過程構建模型,本章會詳細描述。因為我們的最終目標是和Fast R-CNN目標檢測網路2共享計算,所以假設這兩個網路共享一系列卷積層。在實驗中,我們詳細研究Zeiler和Fergus的模型32(ZF),它有5個可共享的卷積層,以及Simonyan和Zisserman的模型3(VGG),它有13個可共享的卷積層。

為了生成區域提案框,我們在最後一個共享的卷積層輸出的卷積特徵對映上滑動小網路,這個網路連線到輸入卷積特徵對映的n×nn×n的空間視窗上。每個滑動視窗對映到一個低維向量上(對於ZF是256-d,對於VGG是512-d,後面接一個ReLU33)。這個向量輸出給兩個同級的全連線的層:檢測框迴歸層(reg)和檢測框分類層(cls)。本文中n=3n=3,注意影象的有效感受野很大(ZF是171畫素,VGG是228畫素)。圖3(左)以這個小網路在某個位置的情況舉了個例子。注意,由於小網路是滑動視窗的形式,所以全連線層(n×nn×n的)被所有空間位置共享(指所有位置用來計算內積的n×nn×n的層引數相同)。這種結構實現為n×nn×n的卷積層,後接兩個同級的1×11×1的卷積層(分別對應reg和cls),ReLU33應用於n×nn×n卷積層的輸出。

Figure 3

圖3:左:區域提案網路(RPN)。右:用RPN提案框在PASCAL VOC 2007測試集上的檢測例項。我們的方法可以在很大範圍的尺度和長寬比中檢測目標。

3.1.1錨點(Anchor)

在每一個滑動視窗的位置,我們同時預測k個區域提案,所以reg層有4k4k個輸出,即kk個box的座標編碼。cls層輸出2k2k個得分,即對每個提案框是目標/非目標的估計概率(為簡單起見,是用二分類的Softmax層實現的cls層,也可以用Logistic迴歸來生成kk個得分)。kk個提案框被相應的kk個稱為anchor的box引數化。每個anchor以當前滑動視窗中心為中心,並對應一種尺度和長寬比(圖3,左),預設情況下,我們使用3種尺度和3種長寬比,這樣在每一個滑動位置就有k=9k=9個anchor。對於大小為W×HW×H(典型值約2,400)的卷積特徵對映,總共有WHkWHk個anchor。

平移不變錨點

我們的方法有一個重要特性,就是平移不變性,對anchor和對計算anchor相應的提案框的函式而言都是這樣。如果平移了影象中的目標,提案框也應該平移,也應該能用同樣的函式預測提案框。我們的方法確保了這種平移不變的屬性(如FCN7的情況,在網路的總體步幅以內,我們的網路是平移不變的。)。作為比較,MultiBox方法[27]用k-means生成800個anchor,但不具有平移不變性。因此,MultiBox不具有平移不變性。

平移不變性也減少了模型大小。 MultiBox有(4+1)×800(4+1)×800維全連線輸出層,而在k = 9個錨點的情況下,我們的方法有(4+2)×9(4+2)×9維的卷積輸出層。因此,我們的輸出層具有2.8×1042.8×104個引數(VGG-16為512×(4+2)×9512×(4+2)×9),比具有6.1×1066.1×106個引數的MultiBox輸出層(MultiBox27使用的GoogleNet34為1536×(4+1)×8001536×(4+1)×800)少兩個數量級。如果考慮特徵提取層,我們的提案層的引數比MultiBox (考慮到特徵提取層,我們的提案層的引數計數為3×3×512×512+512×6×9=2.4×1063×3×512×512+512×6×9=2.4×106,MultiBox的提案圖層引數計數為7×7×(64+96+64+64)×1536+1536×5×800=27×1067×7×(64+96+64+64)×1536+1536×5×800=27×106。)的引數還要小一個數量級。這樣在PASCAL VOC這種小資料集上出現過擬合的風險較小。

多尺度錨點作為迴歸參考

我們的錨定設計提出了一種解決多尺度(和高寬比)的新方案。如圖1所示,已經有兩種流行的多尺度預測方式。第一種方法是基於影象/特徵金字塔,例如在DPM8和基於CNN的方法9 1 2中。影象以多尺度調整大小,並且為每個尺度計算特徵圖(HOG8或深度卷積特徵9 1 2)(圖1(a))。這種方式通常是有效的,但是耗時。第二種方法是在特徵圖上使用多個尺度(和/或縱橫比)的滑動視窗。例如,在DPM8中,使用不同的卷積核尺寸(如5×75×7和7×57×5)分別對不同寬高比的模型進行了訓練。如果用這種方式來處理多個尺度,就可以將其視為“卷積核金字塔”(圖1(b))。第二種方式通常與第一種方式一起使用8

作為比較,我們基於錨點的方法建立在一個錨點金字塔上,這更具成本效益。我們的方法參照多個尺度和縱橫比的錨點框分類和迴歸邊界框。它僅依賴於單個尺度的影象和特徵圖,並使用單個尺寸的卷積(特徵圖上的滑動視窗)。我們通過實驗展示了該方案對於多種尺度和尺寸的影響(表8)。

由於這種基於錨點的多尺度設計,我們可以簡單地使用單尺度影象上的卷積特徵,這也是Fast R-CNN檢測器2所完成的。多尺度錨點的設計是共享特徵的關鍵元件,無需額外的成本來縮放尺寸。

3.1.2損失函式

為了訓練RPN,我們給每個anchor分配一個二值的標籤(是不是目標)。我們分配正標籤給兩類anchor:(i)與檢測框真值IoU最高的anchor(ii)與任意檢測框真值有大於0.7的IoU交疊的anchor。注意到一個檢測框真值可能分配正標籤給多個anchor。通常第二個條件足以確定正樣本。但是我們仍然採取第一個條件,因為在極少數情況下,第二個條件可能沒有發現正樣本。我們分配負標籤給與所有檢測框真值的IoU比率都低於0.3的anchor。非正非負的anchor對訓練目標沒有任何作用。

有了這些定義,我們遵循Fast R-CNN5中的多工損失,最小化目標函式。我們對一個影象的損失函式定義為L({pi},{ti})=1Ncls∑iLcls(pi,p∗i)+λ1Nreg∑ip∗iLreg(ti,t∗i)(1)(1)L({pi},{ti})=1Ncls∑iLcls(pi,pi∗)+λ1Nreg∑ipi∗Lreg(ti,ti∗)

這裡,ii是一個mini-batch中anchor的索引,pianchoranchorianchoranchorpi1anchor1anchorpi00ti44ti

相關推薦

論文翻譯Faster R-CNN

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren, Kaiming He, Ross Girshick, and Jian S

論文翻譯Fast R-CNN

Fast R-CNN Ross Girshick Microsoft Research [email protected] 摘要 本文提出了一種快速的基於區域的卷積網路方法(fast R-CNN)用於目標檢測。Fast R-CNN建立在以

論文翻譯Mask R-CNN

Mask R-CNN Kaiming He Georgia Gkioxari Piotr Dolla ́r Facebook AI Research (FAIR) Ross Girshick 摘要 我們提出了一個概念上簡單,靈活和通用的目標分割框架。我們

論文筆記Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

寫在前面:      我看的paper大多為Computer Vision、Deep Learning相關的paper,現在基本也處於入門階段,一些理解可能不太正確。說到底,小女子才疏學淺,如果有錯

翻譯Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

摘要 目前最先進的目標檢測網路需要先用區域建議演算法推測目標位置,像SPPnet[7]和Fast R-CNN[5]這些網路已經減少了檢測網路的執行時間,這時計算區域建議就成了瓶頸問題。本文中,我們介紹一種區域建議網路(Region Proposal Network, R

論文解析Cascade R-CNN: Delving into High Quality Object Detection

論文連結 CVPR2018的文章。和BPN一樣,本文主要關注的是目標檢測中IoU的閾值選取問題,但是BPN主要針對的是SSD等single-stage的detector,感興趣的童鞋可以看我的另一篇博文BPN 目標檢測中,detector經常是用低IoU閾值來train的,如果提高IoU閾值

論文翻譯R-CNN

Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5) Ross Girshick Jeff Donahue Trevo

目標檢測Cascade R-CNN 論文解析

都是 org 檢測 rpn 很多 .org 實驗 bubuko pro 目錄 0. 論文鏈接 1. 概述 @ 0. 論文鏈接 Cascade R-CNN 1. 概述 ??這是CVPR 2018的一篇文章,這篇文章也為我之前讀R-CNN系列困擾的一個問題提供了一個解決方案

王權富貴論文篇:Faster R-CNN論文翻譯——中英文對照

文章作者:Tyan  感謝Tyan作者大大,相見恨晚,大家可以看原汁原味的Tyan部落格哦。 部落格:noahsnail.com  |  CSDN  |  簡書 宣告:作者翻譯論文僅為學習,如有侵權請聯

筆記Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

論文程式碼:重要:訓練檔案.prototxt說明:http://blog.csdn.net/Seven_year_Promise/article/details/60954553從RCNN到fast R

論文翻譯ResNet論文中英對照翻譯--(Deep Residual Learning for Image Recognition)

【開始時間】2018.10.03 【完成時間】2018.10.05 【論文翻譯】ResNet論文中英對照翻譯--(Deep Residual Learning for Image Recognition) 【中文譯名】深度殘差學習在影象識別中的應用 【論文連結】https://arx

論文翻譯中英對照翻譯--(Attentive Generative Adversarial Network for Raindrop Removal from A Single Image)

【開始時間】2018.10.08 【完成時間】2018.10.09 【論文翻譯】Attentive GAN論文中英對照翻譯--(Attentive Generative Adversarial Network for Raindrop Removal from A Single Imag

[論文學習]《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 》

faster R-CNN的主要貢獻 提出了 region proposal network(RPN),通過該網路我們可以將提取region proposal的過程也納入到深度學習的過程之中。這樣做既增加了Accuracy,由降低了耗時。之所以說增加Accura

論文翻譯ADVIO: An Authentic Dataset for Visual-Inertial Odometry

ADVIO: An Authentic Dataset for Visual-Inertial Odometry 該資料集的特點:使用iPhone手機採集、真實複雜場景、對比現有商用和學術研究VIO系統性能 【摘要】對於行人場景的VIO的研究,由於缺少真實和公開的基準資料

神經網路與深度學習計算機視覺Fast R-CNN

先回歸一下: R-CNN ,SPP-net R-CNN和SPP-net在訓練時pipeline是隔離的:提取proposal,CNN提取特徵,SVM分類,bbox regression。 Fast R-CNN 兩大主要貢獻點 : 1 實現大部分end-to-end訓練(提proposal階段除外):

滑動窗加速方法——程明明bing演算法論文翻譯

BING: Binarized Normed Gradients for Objectness Estimation at 300fps Ming-Ming Cheng, Ziming Zhang, Wen-Yan Lin, Philip Torr, IEEE CVPR

目標檢測語義分割—Mask-R-CNN詳解

一、mask rcnn簡介 論文連結:論文連結 論文程式碼:Facebook程式碼連結;Tensorflow版本程式碼連結; Keras and TensorFlow版本程式碼連結;MxNet版本程式碼連結 mask rcnn是基於faster rcnn架構提出的卷積網

論文翻譯NIN層論文中英對照翻譯--(Network In Network)

multipl 全球 itself 展示 假設 intro this muti function 【論文翻譯】NIN層論文中英對照翻譯--(Network In Network) 【開始時間】2018.09.27 【完成時間】2018.1

Cascade R-CNN:Delving into High Quality Object Detection論文翻譯

CVPR 2018年論文:Cascade R-CNN----------------------------------------------------------------------------------------------------博主也是正在看這篇論文,

Faster RCNNFaster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》

NIPS-2015 NIPS,全稱神經資訊處理系統大會(Conference and Workshop on Neural Information Processing Systems),是一個關於機器學習和計算神經科學的國際會議。該會議固定在每年的12月舉行