1. 程式人生 > >論文閱讀筆記四十五:Region Proposal by Guided Anchoring(CVPR2019)

論文閱讀筆記四十五:Region Proposal by Guided Anchoring(CVPR2019)

分類 cascade 忽略 出了 advance ive 獲得 ams ons

技術分享圖片

論文原址:https://arxiv.org/abs/1901.03278

github:code will be available

摘要

區域anchor是現階段目標檢測方法的重要基石。大多數好的目標檢測算法都依賴於anchors機制,通過預定義好的尺寸及大小在空間位置上進行均勻的采樣。本文提出了一個可替換的解決方案-Guided Anchoring,該方法利用語義特征對anchor進行引導。該方法預測感興趣目標物的中心的同時預測不同位置處的長寬尺寸及比例大小。在得到anchor的形狀之後,通過一個特征調整模型來降低特征的不連續性。本文同時研究高質量的proposal對提升檢測效果的作用。

介紹

anchor是回歸的參考標準,用於預測proposals的分類候選或者是最終的邊界框。進行anchor設計時存在兩條標準:alignment consistency。

首先使用卷積特征作為anchor的表示特征。anchor的中心要與Feature map的中心很好的對齊。其次,感受野的大小及語義範圍在一個feature map上的不同區域要一致。因此,不同區域的anchor的大小及尺寸要保持一致。滑動窗機制則遵循上述規則是一種簡單而且廣泛應用的anchor機制。對於大多數檢測模型,通過預先設定好的尺寸及大小的k個anchors在feature map上的每個位置進行滑動。

基於anchor的檢測流取得不錯的效果。然而上述生成anchor的方法並不是最優的方法。這種機制會產生兩個難點:(1)針對不同的問題需要制定不同尺寸及比例的anchors。而錯誤的設計將會阻礙檢測的精度及速度。(2)對於proposals保持一個較高的召回率,需要生成大量的anchors。然而,其中大量的anchor為假樣本,與感興趣的目標物無關,同時大量的anchors也會占用大量的計算資源。

本文提出新的設計anchor的方法用於解決過程中存在的人為先驗的因素。本文方法受啟發於圖像上的目標物不是均勻的分布。目標物的比例大小也與圖像的內容,場景的位置及幾何形狀密切相關。本文通過兩步來產生稀疏的anchors。首先確定可能包含目標物的子區域,然後確定每個位置處不同的尺寸及大小。

anchor的形狀是可學習的,但違背了前面提到過的一致性的準則。因此,提出了anchor 表示學習的新挑戰,從而進行準確的分類及回歸。anchor的尺寸及比例不再是固定不變的,而是可以改變的,因此,不同的特征像素需要根據相關的anchor學習調整特征表示。因此,本文引入了基於anchor幾何變化的有效模型來調整特征。

本文根據前面的guided anchor及特征調整模型構建了GA-RPN網絡。借助動態的anchor,相比RPN,anchor的數量減少了90%,但召回率要高9.1%。

本文主要貢獻如下:

(1)本文提出了新的anchor機制可以預測任意形狀的anchor

(2)將anchor的聯合分布分解為兩個條件分布,並分別使用模型進行建模。

(3)本文研究了相關anchor與feature map特征一致的重要性,並設計了一個特征調整模型來針對anchor的形狀來增強feature。

(4)本文研究了雙階段檢測高質量的proposals,並提出了一種提高訓練性能的機制。

相關工作的比較異同

(1)以前的檢測方法仍依靠滑動窗口來產生均勻密集的anchors。本文丟棄了滑動窗口,並提出guided anchor來產生稀疏的anchors。

(2)Cascade檢測器通過級聯多個階段來增強框的回歸,但會引入大量的參數,同時會降低Inference時的速度。通過ROI pooling或者RoI align來提取bounding box一致的特征,但對於單階段檢測來說該方法效率較低。

(3)Anchor-free的方法結構簡單,在最後一個階段得到檢測結果,但由於anchor的缺少,同時並未對anchor進行進一步的回歸,因此,該方法不適用於場景復雜的情況。本文在於稀疏及非均勻的anchor機制並利用高質量的proposals來提升檢測的效果。因此必須解決不一致及非連續的問題。

(4)一些single-shot檢測器通過多次分類回歸來進行增強。而本文不對anchor進行增強,只是預測anchor的分布,分解為位置及形狀。以前的方法並未考慮anchor與feature之間的一致性,因此,需要進行多次回歸同時打破了上述的規則。因此,本文固定anchor的中心,並預測anchor的形狀,並根據anchor調整預測出的形狀調整feature。以前的分類目標是通過anchor與ground truth之間的IOU是否超過一定的閾值。而本文比較一個點是否靠近一個目標物的中心。

Guided Anchoring

guided anchor 機制工作方式如下:目標物的位置及形狀可以由(x,y,w,h)表示。(x,y)代表物體空間位置的坐標。假想在一個給定的輸入圖片上畫目標物的框則可以得到如下分布方式:

技術分享圖片

由上式得到兩條重要信息,(1)目標物在圖像中的特定區域(2)目標物的尺寸及比例與其所在位置密切相關。本文結構如下

技術分享圖片

本文設計的anchor生成模型包含兩個分支:一個用於定位,一個用於形狀預測,對於一張輸入圖片I,首先得到feature map Fi,在Fi的頭部,位置預測分支產生一個概率map代表目標物可能存在的位置,而形狀預測分支則產生與位置無關的形狀預測。然後,結合兩個分支的輸出結果,通過比較預測的值超過一定閾值的來得到一些可能的位置,並根據預測出的可能的位置預測最有可能的形狀來生成一系列anchors。由於anchor的形狀是可以變化的,因此,不同位置的特征應該可以捕捉不同範圍的視覺內容。因此,本文引入了特征調整模型,進而根據特定的anchor形狀來調整feature.同時,本文基於FPN,進行多層次的anchor生成。同時,anchor 生成的參數在所有層次的特征都是共享的,因此效率較高。

Anchor Location Prediction

如上圖所示,anchor location prediction分支產生一個與輸入feature map Fi相同尺寸大小的概率圖技術分享圖片,其值的大小與feature map I上對應點的坐標位置技術分享圖片相關,s代表feature map的stride,比如相鄰anchor之間的距離,其值代表目標物的中心位於該位置的概率。

技術分享圖片由子網絡技術分享圖片產生,該網絡通過一個1x1的卷積在feature map I上來獲得目標物的scores map,然後通過一個element-wise的sigmoid函數來得到概率值,這樣做可以平衡效率及準確率。得到概率map後通過設置一個閾值技術分享圖片來挑選目標物可能存在的位置,該方法可以在保持召回率的條件下篩選90%的區域。由於不考慮超過的區域,為了提高inference的效率,本文使用masked卷積。

Anchor Shape Prediction

在確定了目標物可能存在的位置後,接下來就判斷相應位置anchor的形狀,該分支與邊界框的回歸十分不同。由於沒有改變anchor的位置,因此不存在anchor與其feature map不匹配的問題。給定Fi,該分支預測每個位置的(w,h),預測出的形狀可能會與最近的Ground truth產生較高的IOU。但(w,h)的取值範圍太大,直接進行預測存在難度。因此,做了如下變換。

技術分享圖片

該分支預測dw,dh,通過上式進行映射,s為stride,技術分享圖片為經驗系數,本文設置為8,該映射將[0,1000]映射至[-1,1]得到一個穩定的學習目標。該分支通過一個1x1x2的卷積網絡技術分享圖片進行預測得到dw,dh,並通過element-wise的上式進行變換。該方法與以前的不同,一個位置只預測一個動態變化的anchor形狀,而以前的為一系列anchor的形狀,該方法具有更高的召回率,同時對於極端形狀的物體能更好的捕捉其信息。

AnchorGuided Feature Adaptation

在基於滑動窗機制的單階段或者RPN網絡中,每個位置都均勻的共享相同尺寸的anchors,因此,feature map可以學到連續的表示。而本文的anchor在每個位置的形狀是不同的,因此,不易按照以前使用一個全卷積分類器作用在ferature map上。較大的anchor的特征應該編碼較大區域的特征,而小的anchor特征則應該編碼較小的區域特征。因此,本文設計了基於每個獨立位置anchor形狀調整feature 形狀的anchor guided feature adaptation組件,如下

技術分享圖片

其中,fi代表第I個位置的feature map,(wi,hi)為相應的anchor的形狀。為了進行與位置無關的轉換,本文應用了一個3x3的可變形卷積來增強分支技術分享圖片,首先得到anchor 形狀預測分支的偏移量,然後利用原始的feature map結合offset獲得新的特征fi‘,在新得到的特征上可以進行接下來的分類及回歸操作。

Training

Join objective:該網絡結構基於多損失任務的end-to-end的框架。除了常規的分類損失技術分享圖片及回歸損失技術分享圖片,引入了用於anchor定位及形狀的兩個損失技術分享圖片技術分享圖片,得到最終的損失函數如下:

技術分享圖片

Anchor location targets

為了訓練anchor定位分支,對於每張圖片需要獲得一張binary label map,1代表可以放置anchor的有效位置,否則為0,本文利用ground truth來生成binary label map。希望在一個目標物的中心附近盡可能多的安置anchors,其很少有距離中心很遠的。首先,將ground truth bounding box的技術分享圖片映射到相應的feature map大小技術分享圖片,用技術分享圖片代表中心為(x,y)大小為wxh的矩形區域。anchor被期望放到距離ground truth object中心較近的位置來得到更高的初始IOU,因此,本文針對每個box定義三種類型的矩形區域。如下圖

技術分享圖片

(1)中心區域:技術分享圖片代表目標物的中心,該區域的像素都為正樣本。

(2)忽略區域:技術分享圖片,該區域除了CR,範圍更大技術分享圖片,該區域內的像素在訓練時被標記為ignore。

(3)外部區域:OR除了CR及IR的區域,該區域的像素標記為負樣本。

gray zone曾用作平衡采樣的方法,但只作用在單分辨率的feature map上,本文利用FPN得到多層次的feature map,因此,需要考慮相鄰feature map的影響。因此,每個層次的Feature map只能對應特定尺寸的目標物。如果feature map與目標物的尺寸相互匹配,則分配CR。而相同區域的相鄰層次被設置為IR區域如上圖所示,由於CR只占很少的一部分,因此使用Focal Loss來訓練定位分支。

Anchor shape targets

為了獲得每個anchor最合適的目標形狀,首先將anchor與一個ground truth box進行匹配,然後通過二者之間的IOU來計算得到最優的技術分享圖片,由於本文anchor的w,h是變化的,因此直接計算IOU有點難度,因此,重新定義了變化的anchor技術分享圖片與ground truth技術分享圖片之間的IOU,記作vIOU

技術分享圖片

其中,IoUnormal為經典的IOU定義,w,h為變量,但對於任意位置的anchor與ground truth,對vIOU進行明確的表示是困難的,也不利於有效的潛入到end-to-end網絡中,給定(x0,y0),本文采樣了一些w,h常用值,用於列舉w,h。計算采樣的anchor與ground truth IOU,並選取最大的IOU作為vIOU的近似。本文采樣了9對不同尺寸及比例的(w,h)。然後,本文並不直接回歸anchor的寬及高,損失函數與原始的近似相同,但本文由於anchor的位置是固定的,因此只優化w,h,而不是(x,y,w,h)。

The Use of Highquality Proposals

相比傳統的RPN,GA-RPN可以產生更高質量的anchors。本文考慮了如何利用這些高質量的anchors來提升兩階段檢測性能。首先研究了,RPN及GA-RPN產生的anchors IOU的分布規律,如下圖。

技術分享圖片

相比GA-RPN存在兩個明顯的優點:(1)正proposals的數量更多。(2)高IOU的proposals的比例更有用。但將RPN換作GA-RPN效果提升不大。據實驗觀察,使用高質量proposal的先決條件是根據proposals的分布來進一步調整訓練樣本的分布。因此,相比RPN,訓練GA-RPN時使用更高的閾值來使用更少的樣本來進行訓練。

實驗

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

Reference

[1] Z. Cai and N. Vasconcelos. Cascade r-cnn: Delving into high quality object detection. In IEEE Conference on Computer
Vision and Pattern Recognition, 2018. 2
[2] J. Dai, Y. Li, K. He, and J. Sun. R-fcn: Object detection via region-based fully convolutional networks. In Advances in
Neural Information Processing Systems, 2016. 2
[3] J. Dai, Y. Li, K. He, and J. Sun. R-FCN: Object detection via region-based fully convolutional networks. In Advances
in Neural Information Processing Systems, 2016. 4
[4] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In IEEE Conference on Computer Vision
and Pattern Recognition, 2005. 2

論文閱讀筆記四十五:Region Proposal by Guided Anchoring(CVPR2019)