論文源址:http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn

摘要

       在PASCAL VOC資料集上,最好的方法的思路是將低階資訊與較高層次的上下文資訊進行結合。該文的兩個亮點:(1)將CNN應用到region proposals 用於對目標物體的定位。(2)對於較少數量的標籤資料,先在規模較大的資料集上進行有監督的預訓練,然後針對特定場景進行微調,發現效能提升的較大。R-CNN:region with CNN features

介紹

       特徵問題:視覺識別任務主要基於SIFT 和HOG等特徵。該文首次將CNN引入了目標檢測任務中。該文主要針對兩個問題:用深度網路對目標進行定位,在少量有標籤的資料集上訓練一個較大規模的模型。

       不同於影象分類任務,檢測要求在一張圖片中對多個目標物進行定位。一種方法是將目標檢測問題看作為是迴歸問題,但是效果並不理想。另一種方法是建立一個滑窗檢測器。為了保留較多的空間資訊,CNN只包含兩層卷積和池化層。而該文網路中包含5層卷積層有較大的感受野,造成了滑動視窗式的精確定位發展為一項挑戰。

        該文通過對區域進行識別來解決CNN的定位問題。該網路對輸入圖片產生了2000個類別獨立的候選框,使用CNN從每一個候選框中提取出固定長度的特徵向量。然後使用不同類別分類的SVM對提取的特徵進行分類。沒有考慮候選框的形狀只是簡單的計算CNN的固定輸入大小。

        目標檢測中存在的另一個挑戰為有標記的資料量較少不足以訓練較大的CNN。傳統的解決方法是首先使用無監督進行預訓練,然後進行有監督的微調。本文的另一個貢獻是展示在大規模資料集上進行預訓練,後在特定資料集上進行微調,其結果有較大的提升。較好的解決了在稀少資料集上訓練大規模的卷積網路。R-CNN中唯一一個確定類別的元件為輕量級的矩陣乘和基於貪戀的非最大抑制處理。

基於R-CNN的目標檢測

        本文目標檢測包含三個模型:(1)生成類別獨立的感興趣區域,定義可用於目標檢測的候選框(2)  卷積網路用於從每個候選框中提取出固定尺寸的特徵向量。(3)一系列類別確定的線性SVM分類器。

region proposals:    一些用於區域框生成的方法如下。該文使用Selective Search作為候選框的生成方法。

特徵提取:  從每個region proposal中提取4096維的特徵向量。輸入圖片經過5個卷積層和兩個全連線層提取特徵,輸入圖片大小為227x227並經過了一個減均值處理。對於每個候選區域,首先調整其尺寸,使其變為大小為227x227滿足CNN的輸入要求。

目標檢測的測試:首先基於SS方式從一張圖片上提取2000張region proposals,然後將proposals wrap至227x227大小,送入CNN網路進行特徵提取。對於分類,使用訓練好的對應類別的分類器對提取的特徵進行預測。得到圖片中所有的scored 區域後,利用非最大抑制處理來刪除冗餘區域,標準是挑出IOU比閾值大的scored 區域。

執行時間分析:兩個屬性使檢測過程高效:I:CNN的所有引數是共享的,減少了計算資源。II:經過CNN提取後的特徵是低維的。類別確定的計算包含:矩陣乘和NMS,特徵矩陣大小為2000x4096,SVM的權重為4096xN。N代表的為類別數。

訓練過程:首先在ILSVRC2012資料集上進行預訓練,然後,只在與ground truth IOU值大於0.5作為正訓練樣本,其餘的作為負訓練樣本的wrapped proposals上進行微調訓練。使用SGD優化方法,在沒次迭代中,選擇32個正訓練樣本,96個背景組成一個mini-batch,同時,由於負樣本過少,偏向取樣正樣本。

目標類別的分類:要實現檢測車的二分類問題,圖片中圍繞在車周圍的區域很明顯是一個正樣本。不包含任何車的區域為負樣本。難點在於如何檢測到與車重疊的區域。該文通過IOU解決,IOU低於某個值代表負樣本。特徵從CNN中提取後,針對每個類別訓練一個線性的SVM分類器。對於記憶體來說,訓練資料過於龐大,因此,採用Hard negative minging 方法進行處理。

實驗

正負樣本的選取

        將每個proposal與ground truth進行比較,IoU大於0.5的標記為正樣本,對於某個類別中,與GroundTruth IoU的值小於0.3的標記為負樣本。而0.3到0.5之間的則被丟棄。

生成框的迴歸模型

        為了提高檢測的準確性,訓練一個線性迴歸模型。在通過SVM實現對每個候選區域的類別標記後,基於框迴歸器進行預測得到一個新的迴歸框。

訓練演算法的輸入為:N個訓練樣本,,對於ground truth 的定義形式相似。

,通過定義線性函式,將P,與標記G建立聯絡。

 

 

 

        在進行迴歸計算時,選取候選框與ground truth 的IoU大於0.6的作為迴歸訓練樣本。

reference

        [1] B.Alexe,T.Deselaers,andV.Ferrari. Measuringtheobjectness of image windows. TPAMI, 2012. 2

        [2] P. Arbel´aez, B. Hariharan, C. Gu, S. Gupta, L. Bourdev, and J. Malik. Semantic segmentation using regions and parts. In CVPR, 2012. 10, 11 

        [3] P. Arbel´aez, J. Pont-Tuset, J. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In CVPR, 2014. 3

        [4] J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV, 2012. 4, 10, 11, 13, 14  

        [5] J. Carreira and C. Sminchisescu. CPMC: Automatic object segmentation using constrained parametric min-cuts. TPAMI, 2012. 2, 3

        [6] D. Cires¸an, A. Giusti, L. Gambardella, and J. Schmidhuber. Mitosisdetectioninbreastcancerhistologyimageswith deep neural networks. In MICCAI, 2013. 3