【論文翻譯】Faster R-CNN
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun
摘要
目前最先進的目標檢測網路需要先用區域提案演算法推測目標位置,像SPPnet1和Fast R-CNN2這些網路已經減少了檢測網路的執行時間,這時計算區域提案就成了瓶頸問題。本文中,我們介紹一種區域提案網路(Region Proposal Network, RPN),它和檢測網路共享全圖的卷積特徵,使得區域提案几乎不花時間。RPN是一個全卷積網路,在每個位置同時預測目標邊界和objectness得分。RPN是端到端訓練的,生成高質量區域提案框,用於Fast R-CNN來檢測。我們通過共享其卷積特徵進一步將RPN和Fast R-CNN合併到一個網路中。使用最近流行的神經網路術語“注意力”機制,RPN模組告訴統一網路需要看哪裡。對於非常深的VGG-16模型
1.引言
最近在目標檢測中取得的進步都是由區域提案方法(例如4)和基於區域的卷積神經網路(R-CNN)5取得的成功來推動的。基於區域的CNN在5中剛提出時在計算上消耗很大,幸好後來這個消耗通過提案框之間共享卷積1 2大大降低了。最近的Fast R-CNN2用非常深的網路3實現了近實時檢測的速率,注意它忽略了生成區域提案框的時間。現在,提案框是最先進的檢測系統中的計算瓶頸
區域提案方法典型地依賴於消耗小的特徵和經濟的獲取方案。選擇性搜尋(Selective Search, SS)4是最流行的方法之一,它基於設計好的低階特徵貪心地融合超級畫素。與高效檢測網路2相比,SS要慢一個數量級,CPU應用中大約每個影象2s。EdgeBoxes6在提案框質量和速度之間做出了目前最好的權衡,大約每個影象0.2s。但無論如何,區域提案步驟花費了和檢測網路差不多的時間。 Fast R-CNN利用了GPU,而區域提案方法是在CPU上實現的,這個執行時間的比較是不公平的。一種明顯提速生成提案框的方法是在GPU上實現它,這是一種工程上很有效的解決方案,但這個方法忽略了其後的檢測網路,因而也錯失了共享計算的重要機會。
本文中,我們改變了演算法——用深度網路計算提案框——這是一種簡潔有效的解決方案,提案框計算幾乎不會給檢測網路的計算帶來消耗。為了這個目的,我們介紹新穎的區域提案網路(Region Proposal Networks, RPN),它與最先進的目標檢測網路1 2共享卷積層。在測試時,通過共享卷積,計算提案框的邊際成本是很小的(例如每個影象10ms)。
我們觀察發現,基於區域的檢測器例如Fast R-CNN使用的卷積(conv)特徵對映,同樣可以用於生成區域提案。我們緊接著這些卷積特徵增加一些額外的卷積層來構造RPN:這些層在每個卷積對映網格上同時預測objectness得分和迴歸邊界。 我們的RPN是一種全卷積網路(fully-convolutional network, FCN)7,可以針對生成檢測提案框的任務端到端地訓練。
圖1. 用於解決多種尺度和尺寸的不同方案。(a)構建了金字塔的影象和特徵圖,分類器在所有尺度上執行。 (b)在特徵圖上執行具有多個刻度/尺寸的卷積的金字塔。 (c)我們在迴歸函式中使用參考框的金字塔。
RPN旨在有效地預測具有廣泛尺度和縱橫比的區域分佈。與使用影象的金字塔(圖1,a)或卷積的金字塔(圖1,b)的流行方法8 9 1 2相比,我們引入了新的“錨點”作為多尺度和縱橫比的參考。我們的方案可以被認為是一個迴歸參考金字塔(圖1,c),它避免了列舉多個尺度或縱橫比的影象或卷積。當使用單尺度影象進行訓練和測試時,該模型表現良好,從而有利於執行速度。
為了統一RPN和Fast R-CNN2目標檢測網路,我們提出一種簡單的訓練方案,即保持提案框固定,微調區域提案和微調目標檢測之間交替進行。這個方案收斂很快,最後形成可讓兩個任務共享卷積特徵的標準網路。
我們在PASCAL VOC檢測標準集10上評估我們的方法, Fast R-CNN結合RPN的檢測準確率超過了作為強大基準的Fast R-CNN結合SS的方法。同時,我們的方法沒有了SS測試時的計算負擔,對於生成提案框的有效執行時間只有10毫秒。利用3中網路非常深的深度模型,我們的檢測方法在GPU上依然有5fps的幀率(包括所有步驟),因此就速度和準確率而言,這是一個實用的目標檢測系統。我們還評估了MS COCO資料集11的結果,並使用COCO資料對PASCAL VOC的改進進行了評估。MATLAB版本和Python版本的程式碼已經公開提供。
以前,這份手稿的初步版本已經公佈12。從那時起,RPN和Faster R-CNN的框架已被採用並通用於其他方法,如3D目標檢測13,基於部分的檢測14,目標分割15和影象字幕16。我們的快速有效的物體檢測系統也已經在諸如Pinterest17等商業系統中使用,有了使用者的參與與改進。
在ILSVRC和COCO 2015比賽中,Faster R-CNN和RPN是ImageNet檢測,ImageNet定位,COCO檢測和COCO分割的第一名所採用的方法的基礎。 RPN完全從資料中學習提出區域,從而可以從更深層次和更具表現力的特徵(如18中採用的101層殘差網路)中輕鬆獲益。Faster R-CNN和RPN也被這些比賽的其他幾個主要參賽作品使用(http://image-net.org/challenges/LSVRC/2015/results)。這些結果表明,我們的方法不僅實用,而且是提高目標檢測精度的有效方法。
2.相關工作
目標提案。有關於目標提案方法的大量文獻。目標提案方法的綜合調查和比較可以在19,20,21中找到。廣泛使用的目標提案方法包括基於分組超畫素(例如,選擇性搜尋4,CPMC22,MCG23)和基於滑動視窗的目標提案方法(例如,視窗中的目標24,EdgeBoxes6)。目標提案方法被採用為獨立於檢測器的外部模組(例如,選擇性搜尋[4]目標檢測器,R-CNN5和Fast R-CNN2)。
**深度網路目標檢測。**R-CNN方法5使用CNN端到端地將提案區域分類為目標類別或背景。 R-CNN主要作為分類器,它不預測目標邊界(除了通過邊界框迴歸進行細化)。其準確性取決於區域提案模組的效能(參見20中的比較)。幾篇論文提出了使用深層網路預測檢測框的方法25 9 26 27。在OverFeat方法9中,訓練全連線層以預測假定單目標定位任務的框座標。全連線層然後被變成用於檢測多種類別目標的卷積層。MultiBox方法26 27的網路從最後一個全連線層同時預測多個類別無關框,是對OverFeat的但目標模式的推廣。這些類別無關框被用作R-CNN的提案5。與我們的全卷積方案相比,MultiBox提案網路應用於單個影象塊或多個大影象塊(例如,224×224224×224)。 MultiBox不共享提案和檢測網路之間的特徵。我們在後文中講我們的方法時會更深層次地討論OverFeat和MultiBox。與我們的工作同時進行的DeepMask方法28被用於學習分割提案。
卷積的共享計算9 1 29 7 2高效、精確,已經在視覺識別方面吸引了越來越多的注意。OverFeat論文9從影象金字塔計算卷積特徵,用於分類、定位、檢測。在共享的卷積特徵對映上自適應大小的pooling(SPP)1能有效用於基於區域的目標檢測1 30和語義分割29。Fast R-CNN2實現了在共享卷積特徵上訓練的端到端檢測器,顯示出令人驚歎的準確率和速度。
3.Faster R-CNN
我們的目標檢測系統稱為Faster R-CNN,由兩個模組組成。第一個模組是提出區域提案的深度全卷積網路,第二個模組是使用區域提案的Fast R-CNN檢測器2。整個系統是一個統一的目標檢測網路(圖2)。使用最近流行的神經網路術語“注意力”31機制,RPN模組告訴Fast R-CNN模組要看哪裡。在3.1節中,我們介紹了區域提案網路的設計和屬性。在3.2節中,我們介紹用於訓練具有共享特徵的兩個模組的演算法。
圖2. Faster R-CNN是用於目標檢測的單個統一網路。 RPN模組作為統一網路的“注意力”。
3.1區域提案網路
區域提案網路(RPN)將一個影象(任意大小)作為輸入,輸出矩形目標提案框的集合,每個框有一個objectness得分(“區域”是一個通用術語,在本文中,我們只考慮矩形區域,這與許多方法是一致的(例如27 46)。 “objectness”衡量一組目標類與背景的成員關係。)。我們用全卷積網路7對這個過程構建模型,本章會詳細描述。因為我們的最終目標是和Fast R-CNN目標檢測網路2共享計算,所以假設這兩個網路共享一系列卷積層。在實驗中,我們詳細研究Zeiler和Fergus的模型32(ZF),它有5個可共享的卷積層,以及Simonyan和Zisserman的模型3(VGG),它有13個可共享的卷積層。
為了生成區域提案框,我們在最後一個共享的卷積層輸出的卷積特徵對映上滑動小網路,這個網路連線到輸入卷積特徵對映的n×nn×n的空間視窗上。每個滑動視窗對映到一個低維向量上(對於ZF是256-d,對於VGG是512-d,後面接一個ReLU33)。這個向量輸出給兩個同級的全連線的層:檢測框迴歸層(reg)和檢測框分類層(cls)。本文中n=3n=3,注意影象的有效感受野很大(ZF是171畫素,VGG是228畫素)。圖3(左)以這個小網路在某個位置的情況舉了個例子。注意,由於小網路是滑動視窗的形式,所以全連線層(n×nn×n的)被所有空間位置共享(指所有位置用來計算內積的n×nn×n的層引數相同)。這種結構實現為n×nn×n的卷積層,後接兩個同級的1×11×1的卷積層(分別對應reg和cls),ReLU33應用於n×nn×n卷積層的輸出。
圖3:左:區域提案網路(RPN)。右:用RPN提案框在PASCAL VOC 2007測試集上的檢測例項。我們的方法可以在很大範圍的尺度和長寬比中檢測目標。
3.1.1錨點(Anchor)
在每一個滑動視窗的位置,我們同時預測k個區域提案,所以reg層有4k4k個輸出,即kk個box的座標編碼。cls層輸出2k2k個得分,即對每個提案框是目標/非目標的估計概率(為簡單起見,是用二分類的Softmax層實現的cls層,也可以用Logistic迴歸來生成kk個得分)。kk個提案框被相應的kk個稱為anchor的box引數化。每個anchor以當前滑動視窗中心為中心,並對應一種尺度和長寬比(圖3,左),預設情況下,我們使用3種尺度和3種長寬比,這樣在每一個滑動位置就有k=9k=9個anchor。對於大小為W×HW×H(典型值約2,400)的卷積特徵對映,總共有WHkWHk個anchor。
平移不變錨點
我們的方法有一個重要特性,就是平移不變性,對anchor和對計算anchor相應的提案框的函式而言都是這樣。如果平移了影象中的目標,提案框也應該平移,也應該能用同樣的函式預測提案框。我們的方法確保了這種平移不變的屬性(如FCN7的情況,在網路的總體步幅以內,我們的網路是平移不變的。)。作為比較,MultiBox方法[27]用k-means生成800個anchor,但不具有平移不變性。因此,MultiBox不具有平移不變性。
平移不變性也減少了模型大小。 MultiBox有(4+1)×800(4+1)×800維全連線輸出層,而在k = 9個錨點的情況下,我們的方法有(4+2)×9(4+2)×9維的卷積輸出層。因此,我們的輸出層具有2.8×1042.8×104個引數(VGG-16為512×(4+2)×9512×(4+2)×9),比具有6.1×1066.1×106個引數的MultiBox輸出層(MultiBox27使用的GoogleNet34為1536×(4+1)×8001536×(4+1)×800)少兩個數量級。如果考慮特徵提取層,我們的提案層的引數比MultiBox (考慮到特徵提取層,我們的提案層的引數計數為3×3×512×512+512×6×9=2.4×1063×3×512×512+512×6×9=2.4×106,MultiBox的提案圖層引數計數為7×7×(64+96+64+64)×1536+1536×5×800=27×1067×7×(64+96+64+64)×1536+1536×5×800=27×106。)的引數還要小一個數量級。這樣在PASCAL VOC這種小資料集上出現過擬合的風險較小。
多尺度錨點作為迴歸參考
我們的錨定設計提出了一種解決多尺度(和高寬比)的新方案。如圖1所示,已經有兩種流行的多尺度預測方式。第一種方法是基於影象/特徵金字塔,例如在DPM8和基於CNN的方法9 1 2中。影象以多尺度調整大小,並且為每個尺度計算特徵圖(HOG8或深度卷積特徵9 1 2)(圖1(a))。這種方式通常是有效的,但是耗時。第二種方法是在特徵圖上使用多個尺度(和/或縱橫比)的滑動視窗。例如,在DPM8中,使用不同的卷積核尺寸(如5×75×7和7×57×5)分別對不同寬高比的模型進行了訓練。如果用這種方式來處理多個尺度,就可以將其視為“卷積核金字塔”(圖1(b))。第二種方式通常與第一種方式一起使用8。
作為比較,我們基於錨點的方法建立在一個錨點金字塔上,這更具成本效益。我們的方法參照多個尺度和縱橫比的錨點框分類和迴歸邊界框。它僅依賴於單個尺度的影象和特徵圖,並使用單個尺寸的卷積(特徵圖上的滑動視窗)。我們通過實驗展示了該方案對於多種尺度和尺寸的影響(表8)。
由於這種基於錨點的多尺度設計,我們可以簡單地使用單尺度影象上的卷積特徵,這也是Fast R-CNN檢測器2所完成的。多尺度錨點的設計是共享特徵的關鍵元件,無需額外的成本來縮放尺寸。
3.1.2損失函式
為了訓練RPN,我們給每個anchor分配一個二值的標籤(是不是目標)。我們分配正標籤給兩類anchor:(i)與檢測框真值IoU最高的anchor(ii)與任意檢測框真值有大於0.7的IoU交疊的anchor。注意到一個檢測框真值可能分配正標籤給多個anchor。通常第二個條件足以確定正樣本。但是我們仍然採取第一個條件,因為在極少數情況下,第二個條件可能沒有發現正樣本。我們分配負標籤給與所有檢測框真值的IoU比率都低於0.3的anchor。非正非負的anchor對訓練目標沒有任何作用。
有了這些定義,我們遵循Fast R-CNN5中的多工損失,最小化目標函式。我們對一個影象的損失函式定義為L({pi},{ti})=1Ncls∑iLcls(pi,p∗i)+λ1Nreg∑ip∗iLreg(ti,t∗i)(1)(1)L({pi},{ti})=1Ncls∑iLcls(pi,pi∗)+λ1Nreg∑ipi∗Lreg(ti,ti∗)
這裡,ii是一個mini-batch中anchor的索引,
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Shaoqing Ren, Kaiming He, Ross Girshick, and Jian S
Fast R-CNN
Ross Girshick
Microsoft Research
[email protected]
摘要
本文提出了一種快速的基於區域的卷積網路方法(fast R-CNN)用於目標檢測。Fast R-CNN建立在以
Mask R-CNN
Kaiming He Georgia Gkioxari Piotr Dolla ́r Facebook AI Research (FAIR)
Ross Girshick
摘要
我們提出了一個概念上簡單,靈活和通用的目標分割框架。我們
寫在前面:
我看的paper大多為Computer Vision、Deep
Learning相關的paper,現在基本也處於入門階段,一些理解可能不太正確。說到底,小女子才疏學淺,如果有錯
摘要
目前最先進的目標檢測網路需要先用區域建議演算法推測目標位置,像SPPnet[7]和Fast R-CNN[5]這些網路已經減少了檢測網路的執行時間,這時計算區域建議就成了瓶頸問題。本文中,我們介紹一種區域建議網路(Region Proposal Network, R
論文連結 CVPR2018的文章。和BPN一樣,本文主要關注的是目標檢測中IoU的閾值選取問題,但是BPN主要針對的是SSD等single-stage的detector,感興趣的童鞋可以看我的另一篇博文BPN 目標檢測中,detector經常是用低IoU閾值來train的,如果提高IoU閾值
Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)
Ross Girshick Jeff Donahue Trevo 都是 org 檢測 rpn 很多 .org 實驗 bubuko pro 目錄
0. 論文鏈接
1. 概述
@
0. 論文鏈接
Cascade R-CNN
1. 概述
??這是CVPR 2018的一篇文章,這篇文章也為我之前讀R-CNN系列困擾的一個問題提供了一個解決方案
文章作者:Tyan
感謝Tyan作者大大,相見恨晚,大家可以看原汁原味的Tyan部落格哦。 部落格:noahsnail.com | CSDN | 簡書
宣告:作者翻譯論文僅為學習,如有侵權請聯
論文程式碼:重要:訓練檔案.prototxt說明:http://blog.csdn.net/Seven_year_Promise/article/details/60954553從RCNN到fast R
【開始時間】2018.10.03
【完成時間】2018.10.05
【論文翻譯】ResNet論文中英對照翻譯--(Deep Residual Learning for Image Recognition)
【中文譯名】深度殘差學習在影象識別中的應用
【論文連結】https://arx
【開始時間】2018.10.08
【完成時間】2018.10.09
【論文翻譯】Attentive GAN論文中英對照翻譯--(Attentive Generative Adversarial Network for Raindrop Removal
from A Single Imag
faster R-CNN的主要貢獻
提出了 region proposal network(RPN),通過該網路我們可以將提取region proposal的過程也納入到深度學習的過程之中。這樣做既增加了Accuracy,由降低了耗時。之所以說增加Accura
ADVIO: An Authentic Dataset for Visual-Inertial Odometry
該資料集的特點:使用iPhone手機採集、真實複雜場景、對比現有商用和學術研究VIO系統性能
【摘要】對於行人場景的VIO的研究,由於缺少真實和公開的基準資料
先回歸一下: R-CNN ,SPP-net
R-CNN和SPP-net在訓練時pipeline是隔離的:提取proposal,CNN提取特徵,SVM分類,bbox regression。
Fast R-CNN 兩大主要貢獻點 :
1 實現大部分end-to-end訓練(提proposal階段除外):
BING: Binarized Normed Gradients for Objectness Estimation at 300fps
Ming-Ming Cheng, Ziming Zhang, Wen-Yan Lin, Philip Torr, IEEE CVPR
一、mask rcnn簡介
論文連結:論文連結
論文程式碼:Facebook程式碼連結;Tensorflow版本程式碼連結; Keras and TensorFlow版本程式碼連結;MxNet版本程式碼連結
mask rcnn是基於faster rcnn架構提出的卷積網 multipl 全球 itself 展示 假設 intro this muti function
【論文翻譯】NIN層論文中英對照翻譯--(Network In Network)
【開始時間】2018.09.27
【完成時間】2018.1
CVPR 2018年論文:Cascade R-CNN----------------------------------------------------------------------------------------------------博主也是正在看這篇論文,
NIPS-2015
NIPS,全稱神經資訊處理系統大會(Conference and Workshop on Neural Information Processing Systems),是一個關於機器學習和計算神經科學的國際會議。該會議固定在每年的12月舉行 相關推薦
【論文翻譯】Faster R-CNN
【論文翻譯】Fast R-CNN
【論文翻譯】Mask R-CNN
【論文筆記】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
【翻譯】Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
【論文解析】Cascade R-CNN: Delving into High Quality Object Detection
【論文翻譯】R-CNN
【目標檢測】Cascade R-CNN 論文解析
王權富貴論文篇:Faster R-CNN論文翻譯——中英文對照
【筆記】Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
【論文翻譯】ResNet論文中英對照翻譯--(Deep Residual Learning for Image Recognition)
【論文翻譯】中英對照翻譯--(Attentive Generative Adversarial Network for Raindrop Removal from A Single Image)
[論文學習]《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 》
【論文翻譯】ADVIO: An Authentic Dataset for Visual-Inertial Odometry
【神經網路與深度學習】【計算機視覺】Fast R-CNN
滑動窗加速方法——程明明bing演算法【論文翻譯】
【目標檢測】【語義分割】—Mask-R-CNN詳解
【論文翻譯】NIN層論文中英對照翻譯--(Network In Network)
【譯】Cascade R-CNN:Delving into High Quality Object Detection論文翻譯
【Faster RCNN】《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》