1. 程式人生 > >Acquistion of Localization Confidence for Accurate Object Detection論文翻譯

Acquistion of Localization Confidence for Accurate Object Detection論文翻譯

翻譯僅為學習,如有侵權請聯絡我刪除。
翻譯如有錯誤之處請指出。


摘要
現在的基於CNN物體檢測器依賴於邊界框迴歸和非極大值抑制來定位物體。雖然類標籤的概率自然的反映了分類置信度,但缺乏定位置信度。這使得合適的定位邊界框在迭代迴歸期間退化,甚至在NMS時被抑制。在這篇論文裡我們提出了IoU-Net學習預測每個識別框和其匹配真值框之間的IoU。這個網路獲得了定位置信度,通過儲存準確定位邊界框提高了NMS程式效能。此外,基於優化的邊界框細化方法建議將預測的IoU作為目標。在MS-COCO資料集上的大量實驗證明了IoU-Net的有效性,以及它與幾個最先進的物體檢測器的相容性和適應性。

1、簡介
目標檢測是一組廣泛的下游視覺應用的前提,例如例項分割[19,20],人體骨架[27],人臉識別[26]和基於物件的高階推理[30]。目標檢測將目標分類和目標定位結合起來。大多數現代目標檢測器基於兩階段框架[9,8,22,16,10],其中目標檢測被描述為一個多工學習問題:1)區分前景物件提議和背景,並給它們分配適當的類標籤;2)迴歸一組係數,通過最大化檢測結果與地面真相之間的交叉重疊(IOU)或其他度量來定位目標。最後,通過非最大抑制(NMS)過程刪除冗餘包圍盒(同一物件上的重複檢測)。
這裡寫圖片描述
(a)分類置信度與定位精度失調的實證案例。黃色邊框表示真值框,而紅色和綠色邊框都FPN[16]的檢測結果。定位置信度由建議的IOU-網路計算.在傳統的NMS過程中,使用分類置信度作為排序指標會導致精確的b-box(bounding box)(綠色)被錯誤地消除。定量分析見2.1節

這裡寫圖片描述
(b)迭代b-box迴歸中非單調定位的證明。第2.2節提供了定量分析。

Fig. 1:視覺化由於缺乏定位置信度而帶來的兩個缺點。例子選自MS-Coo Minival[17]。

在這類檢測流水線中,分類和定位是不同的。具體來說,當給定一個提案時,雖然每個類標籤的概率自然地充當提案的“分類信任”,但b-box迴歸模組找到了最優的方案轉換,以最適合GT(ground-truth)。然而,“定位置信度”在迴圈中是不存在的。

這帶來了兩個缺點。(1)首先,對重複檢測的抑制忽略了定位的準確性,而分類分數通常被用作對提案進行排序的標準。在圖1(A)中,我們展示了一組情況,其中檢測到的具有較高分類可信度的邊界框與相應的真值框的重疊較小。就像格雷斯漢姆所說的,壞賬會把好東西趕走,分類可信度和定位精度之間的不一致可能會導致NMS過程中精確定位的b-box被那些不太準確的b-box所抑制。(2)由於缺乏定位置信度,使得被廣泛採用的b-box迴歸難以解釋。作為一個例子,以前的工作[3]報告了迭代b-box迴歸的非單調性.也就是說,如果多次應用,邊框迴歸可能會退化輸入邊界框的本地化(如圖1(B)所示)。

本文介紹了IOU-Net,它能預測檢測到的b-box與它們對應的真值框之間的IOU值,使網路感知定位準則類似於分類模組。這個簡單的係數為我們提供瞭解決上述問題的新方法:

1、IOU是定位精度的自然標準。我們可以用預測的IOU代替分類置信度作為NMS中的排名關鍵字。這種技術,即IOU-guided NMS,有助於消除由誤導性分類信任引起的抑制失敗。

2、在傳統迴歸方法的基礎上,提出了一種基於優化的b-box細化方法.在推理過程中,以預測的IOU作為優化目標,同時也是定位置信度的一個可解釋的指標。所提出的精確ROI池層使我們能夠通過梯度上升來解決IOU優化問題。結果表明,與基於迴歸的方法相比,基於優化的b-box精化方法在定位精度上有了單調的提高。該方法完全相容各種基於cnn的檢測器[16,3,10]。

2、深入研究物件定位
首先,我們探討了目標定位中的兩個缺點:分類置信度與定位精度之間的不一致和非單調的b-box迴歸。一種在MS-Cocotravoid35k訓練的標準的FPN[16]探測器作為基線,並在Minival上進行測試用來學習。

2.1、錯誤分類與定位精度
自[4]以來,NMS一直是大多數目標探測器中不可缺少的部件,其目的是去除重複的b-box。NMS以迭代的方式工作。在每次迭代時,選擇具有最大分類置信度的b-box,並使用預定義的重疊閾值消除其相鄰框。在軟NMS[2]演算法中,盒消除被置信度的降低所取代,從而導致更高的查全率。最近,人們提出了一套基於學習的演算法來代替無引數NMS和軟NMS.[24]計算所有包圍框的重疊矩陣,並執行親和傳播聚類以選擇聚類樣本作為最終檢測結果。[11]提出了GossipNet,這是一個基於b-box和分類置信度的NMS後處理網路。[12]提出了一種端到端網路,學習檢測到的b-box之間的關係。然而,這些基於引數的方法需要更多的計算資源,從而限制了它們在實際應用中的應用。
這裡寫圖片描述

Fig.2:b-box與真值框的IoU與分類/定位置信度的相關性。考慮到探測到的b-box與相應的真值框有一個IOU(>0.5),皮爾遜相關係數為:(A)0.217和(B)0.617。
(a)分類置信度表示b-box的類別,但不能解釋為定位精度。
(b)為了解決這一問題,我們提出了IOU-net來預測每個檢測到的b-box的定位置信度,即它於相應真值框的IoU。

在廣泛採用的NMS方法中,分類置信度被用來對b-box進行排序,這是有問題的。我們視覺化NMS之前所有檢測到的邊界框的分類信任分佈,如圖2(A)所示。x軸是檢測框與其匹配的真值框之間的IOU,y軸表示它的分類可信度。Pearson相關係數表明定位精度與分類置信度之間不存在很好的相關性。

我們把這歸因於大多數基於CNN的目標檢測器在區分前景(陽性)樣本和背景(陰性)樣本時所使用的目標。檢測到的邊界框 b o x d e t 在訓練過程中被認為是陽性的,如果它與真值框之一的IoU大於閾值 Ω t r a i n 。這一目標可能與定位精度不一致。圖1(A)顯示了具有較高分類置信度的b-box定位較差的情況。

回顧在傳統的NMS中,當存在對單個物件的重複檢測時,具有最大分類置信度的邊界框將被保留。然而,由於不對齊,在NMS中,定位效能較好的b-box很可能會被抑制,導致目標的定位能力較差。圖3定量地顯示了NMS之後的正包圍框的數量。b-box是根據他們與匹配真值框的IoU分組的。對於多個符合同一真值框的檢測框,只有擁有最高IOU的才被認為是正的.因此,NO-NMS可作為正b-box的上限.我們可以看到,在傳統的NMS過程中,由於缺乏定位置信度,超過一半的檢測到的IOU>0.9的b-box被抑制,從而降低了檢測結果的定位質量。
這裡寫圖片描述
Fig.3:NMS後的正邊界框的數目,由它們與匹配真值框的IoU分組。在傳統的NMS(藍條)中,由於分類置信度和定位精度的偏差,很大一部分精確定位的b-box被錯誤地抑制,而IoU引導的NMS(黃條)保留了更精確的定位的b-box。

2.2非單調邊界框迴歸
一般情況下,單目標定位可分為兩類:基於邊界框(b-box)的方法和基於分段的方法.基於分段的方法[19、20、13、10]旨在為每個例項生成畫素級分段,但不可避免地需要附加的分段註釋。本文主要研究基於邊界框的方法。

單個物件定位通常被描述為一個邊界框迴歸任務。其核心思想是網路直接學會將邊界框轉換(即縮放或移位)到指定的目標。在[9,8]線性迴歸或全連線層中,改進由外部預處理模組(例如選擇性搜尋[28]或EdgeBox[33])生成的物件建議的區域性化。Faster R-CNN[23]提出了區域提案網路(RPN),其中只使用預定義的錨來訓練端到端的目標檢測器。[14,32]利用無錨、完全卷積的網路來處理物件尺度的變化。同時,Repulsion Loss在[29]中被提出,用於對具有人群遮擋的目標進行魯棒性檢測。由於它的有效性和簡單性,邊界框迴歸已經成為大多數基於cnn的檢測器的重要組成部分。

廣泛的下游應用程式,如跟蹤和識別,將受益於精確的定位邊界框。這就對提高定位精度提出了更高的要求。在一系列的物體探測器[31,7,6,21]中,調整過的邊界框將被再次輸入到邊界框迴歸器中,並再次進行改進。此過程多次執行,即迭代邊界框迴歸。Faster R-CNN[23]首先執行邊界框迴歸兩次,將預定義的錨轉換成最終檢測到的邊界框。[15]提出了一種群遞迴學習方法,考慮到多個方案之間的全域性依賴性,迭代地改進檢測結果,並儘量減少目標提議與基本真值框之間的偏移。G-CNN是在[18]中提出的,它從影象上的多尺度規則網格開始,並迭代地將網格中的框推到真值框。然而,正如在[3]中所報告的那樣,應用邊界框迴歸兩次以上不會帶來進一步的改進。[3]將此歸因於多步邊界框迴歸中的分佈失配,並通過多級邊界框迴歸中的重取樣策略加以解決。
這裡寫圖片描述
Fig.4:基於優化 v.s. 基於迴歸 的B-BOX細化。(A)FPN的比較。當迭代應用迴歸時,檢測結果的AP先得到改善,但在以後的迭代中迅速下降。(B)Cascade R-CNN中的比較。迭代0,1和2代表Cascade R-CNN的第一、第二和第三個迴歸階段。對於迭代 i≥3,我們使用第三階段的迴歸器細化邊界框。經過多次迭代,AP略有下降,而基於優化的方法進一步提高了0.8%的AP。

實驗證明了基於FPN和Cascade R-CNN框架的迭代邊界框迴歸的效能.每次迭代後的平均精度(AP)分別以圖4(A)和圖4(B)中的藍色曲線顯示。圖4中的AP曲線表明,隨著迭代次數的增加,定位精度的提高對於迭代邊界框迴歸來說是非單調的。非單調性,加上不可解釋性,給應用帶來了困難。此外,如果沒有對檢測到的邊界框的定位置信度,就不能對細化進行細粒度控制,例如對不同的邊界框使用自適應迭代次數。

3、IoU-Net
為了定量分析IOU預測的有效性,我們在第3.1節中首先給出了IOU預測器的訓練方法。在第3.2節和第3.3節中,我們分別說明了如何使用IOU預測器進行NMS和邊界框細化。最後,在3.4節中,我們將IOU預測器整合到現有的物件檢測器(如FPN[16])中。
這裡寫圖片描述
Fig.5: 3.4節描述的提議IOU-Net的完整體系結構。輸入影象首先被輸入到FPN主幹網。IOU預測器從FPN主幹獲取輸出特性。我們將ROI池化層替換為3.3節中描述的PrRoI池化層。IOU預測器與R-CNN分支有類似的結構.在虛線框中標記的模組形成一個獨立的IOU-Net。

3.1、學會預測IoU
如圖5所示,IOU預測器從FPN獲取視覺特性,並估計每個邊界框的定位精度(IOU)。我們通過增強真值框來產生訓練IOU-net的邊界框和標籤,而不是接受RPN的提議(PS:包含邊界框和標籤)。具體來說,對於訓練集中的所有真實邊界框,我們用一組隨機引數手動轉換它們,從而產生一個候選的邊界框集。然後,我們與匹配的真值框的IOU小於Ω_train=0.5的邊界框從這個集合裡去除。我們從這個候選集合w.r.t. the IOU中統一抽樣訓練資料。這種資料生成過程在經驗上給IOU網帶來了更好的效能和魯棒性.對於每一個邊界框,特徵都是從具有提議PrROI池化層(見3.3節)FPN的輸出中提取出來的。然後將這些特徵輸入到兩層前饋網路中進行IOU預測。為了獲得更好的效能,我們使用了類感知的IOU預測器。

IOU預測器與大多數現有的基於ROI的檢測器相容。獨立IOU預測器的準確性可以在圖2中找到。由於訓練過程獨立於特定的檢測器,因此它對輸入分佈的變化(例如,當與不同的檢測器協作時)具有很強的魯棒性。在後面的部分中,我們將進一步演示如何在一個完整的檢測流水線(即與RPN和R-CNN聯合優化)中聯合優化這個模組。
這裡寫圖片描述

3.2 IoU-guided NMS
我們用一種新的IOU引導的NMS程式解決了分類置信度與定位精度之間的不一致問題,其中分類可信度和定位置信度(IOU估計)被解除。總之,我們使用預測的IOU而不是分類可信度作為邊界框的排序關鍵字。與傳統NMS類似,將選擇與真值框有最高IOU的邊界框,以消除所有重疊大於給定閾值Ω_nms的邊界框。為了確定分類分數,當一個方框i去掉方框j時,我們將框i的分類信心si更新為si=max(si,sj)。這個過程也可以解釋為一種信任聚類:對於一組與相同的真值框匹配的邊界框,我們選擇具有最高置信度的預測作為類標籤。該演算法的psuedo程式碼可在演算法1中找到。

IOU引導的NMS解決了分類置信度與定位精度之間的不一致問題.定量結果表明,我們的方法優於傳統的NMS和軟NMS[2]等其他方法。使用IOU引導的NMS作為後處理器,進一步提高了幾種最先進的物體探測器的效能。
這裡寫圖片描述

3.3 作為優化過程的邊界框調整細化
邊界框求精問題可以數學地表述為尋找最優的 c s.t.:
這裡寫圖片描述
其中 b o x d e t 是檢測到的邊界框, b o x g t 是真值框,transform是以c為引數並對給定的邊界框進行變換的邊界框變換函式,crit是測量兩個邊界框之間距離的判據。在最初的FastR-CNN[5]框架中,crit被選擇為對數尺度下座標的smooth-L1距離,而在[32]中,crit被選擇為兩個包圍框之間的−ln(IOU)。

基於迴歸的演算法直接用前饋神經網路估計最優解 c 。但是,迭代邊界框迴歸方法容易受到輸入分佈[3]的變化的影響,並且可能導致非單調的定位改進,如圖4所示。針對這些問題,我們提出了一種基於優化的邊界框求精方法,該方法利用IOU-Net作為魯棒定位精度(IOU)估計器。此外,IOU估計器還可以作為一個早期停止條件來實現自適應步驟的迭代求精。

IOU-Net直接估算IOU(方框Det,方框GT)。當所提出的PrROI池化層能夠計算IOU W.r.t.邊界框座標[§]的梯度時,我們可以直接用梯度上升法尋找方程1的最優解。演算法2以IOU的估計為優化目標,迭代地用計算出的梯度細化邊界框座標,使檢測到的邊界框與其匹配的真值框之間的IOU最大化。此外,預測的IOU是每個邊界框上定位置信度的可解釋指標,有助於解釋所執行的轉換。

在演算法2第6行所示的實現中,我們手動放大了梯度w.r.t.與該軸上的邊界框的大小的座標(例如,我們用寬度( b j )放大了 x 1 )。這相當於像[5]中一樣,在對數縮放座標(x/w,y/h, log w log h )中執行優化。我們還使用一步邊界框迴歸來初始化座標。

Precise RoI Pooling.我們引入了Precise RoI Pooling(簡稱PrRoI池),為我們的邊界框精化∗提供動力。它避免了任何座標的量化,並且在邊界框座標上有一個連續的梯度。給定ROI/PrRoI池之前的特徵對映F(例如來自ResNet-50中的Conv 4),設 w i , j 是特徵對映上一個離散位置(i,j)上的特徵。使用雙線性插值,離散特徵對映在任意連續座標(x,y)下都可以被認為是連續的:
這裡寫圖片描述
其中這裡寫圖片描述是插值係數。然後將roi的bin表示為bin={(x1,y1),(x2,y2)},其中(x1,y1)和(x2,y2)分別是左上角和右下角點的連續座標。我們通過計算一個二階積分來執行給定bin和特徵對映F的池化(例如平均池化):
這裡寫圖片描述
為了更好地理解,我們可視化了ROI池化層、ROI對齊層[10]和圖6中的PrRoI:在傳統的ROI池中,需要對連續座標進行量化以計算bin中啟用的和;為了消除量化誤差,在Roi Align中,N=4個連續點在bin中取樣,表示為( a i , b i ),並在取樣點上執行池操作。與其中N是預先定義的,而不是自適應的w.r.t. bin的大小的ROI Align相反,提議的PrRoI池直接計算基於連續特徵對映的二階積分。

此外,根據方程3中的公式,PrPool(Bin,F)是任意的W.r.t.,也就是bin的座標。例如,PrPool(B,F)w.r.t.x1的偏導數可計算為:
這裡寫圖片描述
PrPool(bin,F)w.r.t.其他座標的偏導數可以用同樣的方式計算。由於我們避免了任何量化,PrPool是連續可微的。

3.4 聯合訓練
IOU預測器可以整合到標準的FPN管道中,用於端到端的訓練和推理.為了清晰起見,我們將主幹表示為用於影象特徵提取的CNN體系結構,並將頭部表示為應用於單個ROIs的模組。

如圖5所示,IOU-net使用ResNet-FPN[16]作為骨幹,它具有自頂向下的體系結構來構建特徵金字塔。FPN根據他們的尺度從不同層次的特徵金字塔中提取ROIs的特徵。將原來的ROI池化層替換為PrROI池化層。對於網路頭,IOU預測器與R-CNN分支基於來自骨幹的相同視覺特徵並行工作(包括分類和邊界框迴歸)。

我們在ImageNet上從預先訓練的ResNet模型中初始化權重[25]。所有新的層都以零均值高斯初始化,標準偏差為0.01或0.001.我們使用smooth-L1損失來訓練IOU預測器。IOU預測器的培訓資料是在training batch中的映像中分別生成的,如第3.1節所述。IOU標籤是標準化的,其值分佈在[−1,1]上。

輸入影象的大小調整為在短軸上有800 px,在長軸上最大為1200 px。分類和迴歸分支從RPN中獲取每幅影象512 Rois。我們使用一個16批大小的訓練。該網路被優化為160 k迭代,其學習速率為0.01,在120 k迭代後降低了10倍。我們還通過將第一次10k迭代的學習速率設定為0.004來熱身訓練。我們用0.0001的重量衰減和0.9的動量。

在推理過程中,我們首先對初始座標應用邊界框迴歸.為了加快推理速度,我們首先在所有檢測到的邊界框上應用IOU-guided NMS.採用基於優化的演算法對100個分類置信度最高的邊界框進行了進一步的細化.我們設定λ=0.5為步長,Ω1=0.001為早期停止閾值,Ω2=−0.0 1為區域性退化公差,T=5為迭代次數。

4、實驗
我們在有80個類別的MS-COCO檢測資料集上進行了實驗[17].在[1,16]之後,這些模型被訓練成80k訓練影象和35k驗證影象(Travoid35k)的結合,並在一組5k驗證影象(Minival)上進行評估。為了驗證所提出的方法,在4.1和4.2節中,一個獨立的IOU-Net(沒有R-CNN模組)獨立使用物件檢測器進行訓練。將IoU_Net驅動的IOU-guided NMS和基於優化的邊界框細化技術應用於檢測結果.

4.1 IoU-guided NMS
表1總結了不同NMS方法的效能。雖然軟NMS保留更多的邊界框(沒有真正的“抑制”),IOU-guided NMS通過改進檢測邊界框的定位來改進結果。因此,IOU-guided NMS的效能明顯優於基於高IOU度量的基線(例如AP 90)。

通過分析不同IOU閾值下不同NMS演算法的召回情況,我們更深入地研究了不同NMS演算法的行為。原始檢測到的邊界框由沒有任何NMS的ResNet50-FPN生成。隨著對定位精度要求的提高,IOU-guided NMS與其它方法的效能差距越來越大。其中符合IOUΩ_test=0.9的召回率在傳統NMS後降至18.7%,IOU-NMS的召回率達28.9%,No-NMS的“上限”為39.7%。

4.2基於優化的邊界框求精
提出的基於優化的邊界框改進與大多數基於cnn的物件檢測器[16,3,10]相容,如表2所示。採用獨立IOU網對原始管道進行邊界框細化,通過更準確地定位物件,進一步提高了系統的效能。改進進一步提高AP90 2.8%和總體AP 0.8%,即使相對於有一個三級邊界框迴歸器Cascade R-CNN。
這裡寫圖片描述
表1:IOU-guided NMS與其他NMS方法的比較。通過保留精確定位的邊界框,IOU-guided NMS在具有高匹配IOU閾值的AP(例如AP 90)中顯示出顯著的改善。
這裡寫圖片描述
Fig.7:不同NMS方法在不同的對於匹配的檢測框與真值框之間的IOU閾值下的召回曲線。無NMS(無框按下)作為召回的上限。建議的IOU-NMS具有較高的召回率,有效地縮小了與高IOU閾值(例如0.8)的上限之間的差距。
這裡寫圖片描述
表2:基於優化的邊界框細化進一步提高了幾種基於CNN的目標檢測器的效能.

4.3聯合訓練
IOU-net可以與物件檢測框架並行地對端到端進行優化.我們發現在網路中加入IOU預測器可以幫助網路學習更多的鑑別特徵,這分別使ResNet50-FPN和ResNet101-FPN的總體AP提高了0.6%和0.4%。IOU-guided NMS和邊界框的改進進一步推動了效能的提高.使用ResNet101-FPN實現了40.6%的AP,而基線為38.5%(提高了2.1%)。推理速度如表3所示,說明IOU網以可容忍的計算開銷提高了檢測效能。

這裡寫圖片描述
表3:在MS-Coco上的最終實驗結果。IOU-net表示嵌入IOU預測器的ResNet-FPN。相對於FPN基線我們提高了2%的AP。
這裡寫圖片描述
表4:單個TITAN X GPU上多目標檢測器的推理速度。這些模型共享相同的主幹網ResNet50-FPN。輸入解析度為1200x800。所有超引數都被設定為相同的引數。

我們主要將表3中AP 50的差結果歸因於IOU估計誤差。當邊界框和真值框有一個較低的IoU,他們有一個較大的差異在外觀。如圖2(B)所示,對於IOU較低的框,IOU估計變得不太準確。這降低了下游細化和抑制的效能。我們的經驗發現,這個問題可以部分解決,如在訓練過程中,用較低的IOU取樣更多的邊界框等技術。

5、結論
本文提出了一種新的網路體系結構-IOU-net,用於精確的目標定位.通過學習預測與匹配真值框的IOU,IOU-net獲得了檢測邊界框的“定位置信度”。這增強了IOU-guided NMS過程,在這個過程中,精確本地化的邊界框被阻止被抑制。所提出的IOU-Net直觀,易於整合到一組廣泛的檢測模型中,以提高其定位精度。在MS-CoCO上的實驗結果表明了它的有效性和實際應用潛力。

這篇論文指出了現代檢測管道在分類定位方面存在的偏差。對於邊界框的求精問題,我們還提出了一種新的優化觀點,所提出的解決方案超越了基於迴歸的方法。我們希望這些新的觀點能為未來的目標檢測工作提供深入的見解。