1. 程式人生 > >ECCV 2018 論文閱讀筆記——Acquisition of Localization Confidence for Accurate Object Detection

ECCV 2018 論文閱讀筆記——Acquisition of Localization Confidence for Accurate Object Detection

       目標檢測涉及到目標分類和目標定位,但很多基於 CNN 的目標檢測方法都存在分類置信度和定位置信度不匹配的問題。針對這一問題,一種稱之為 IoU-Net 的目標檢測新方法被提出,在基準方法的基礎上實現了顯著的提升。該論文已被將於當地時間 9 月 8-14 日在德國慕尼黑舉辦的 ECCV 2018 接收為口頭報告。此外,該論文的三位並列一作是在曠視科技實習期間完成並提交的這篇論文。

論文地址:https://arxiv.org/abs/1807.11590

程式碼地址:https://github.com/vacancy/PreciseRoIPooling

 摘要:現代基於 CNN 的目標檢測器依靠邊界框迴歸和非極大抑制(NMS)來定位目標,其對類別標籤的預測概率可以天然反映每個框的分類置信度,然而對框的定位置信度卻缺失了。這使得原本定位準確的邊界框會在迭代迴歸的過程中偏離目標,又或甚至在 NMS 過程中受到抑制。研究者在本文中提出 IoU-Net,可學習預測每個檢測得到的邊界框和與之匹配的目標之間的 IoU 作為該框的定位置信度。利用這種定位置信度,檢測器能確保定位更準確的邊界框在 NMS 過程中被保留下來,從而改進了 NMS 過程。此外,將預測得到的 IoU 作為優化目標,一種基於優化的邊界框修正方法也同時被提出。研究者在 MS-COCO 資料集上進行了大量實驗,結果證明了 IoU-Net 的有效性,並且還表明其能夠輕鬆地整合並提高包括 Faster R-CNN、FPN、Cascade R-CNN 等多種當前最佳的目標檢測器。

1 引言

       目標檢測是很多下游視覺應用的前提基礎,比如例項分割 [19,20]、人體骨架繪製 [27]、人臉識別 [26] 和高階目標推理 [30]。它結合了目標分類和目標定位兩個任務。現代大多數目標檢測器的框架是 two-stage [9,8,22,16,10],其中目標檢測被定義為一個多工學習問題:1)區分前景物體框與背景併為它們分配適當的類別標籤;2)迴歸一組係數使得最大化檢測框和目標框之間的交併比(IoU)或其它指標。最後,通過一個 NMS 過程移除冗餘的邊界框(對同一目標的重複檢測)。

       在這樣的檢測流程中,分類和定位被用不同的方法解決。具體來說,給定一個提議框(proposal),每個類別標籤的概率可自然而然地用作該提議的「分類置信度」,而邊界框迴歸模組卻只是預測了針對該提議框的變換系數,以擬合目標物體的位置。換而言之,在這個流程缺失了「定位置信度」。

       定位置信度的缺失帶來了兩個缺點。(1)首先,在抑制重複檢測時,由於定位置信度的缺失,分類分數通常被用作給檢測框排名的指標。在圖 1(a) 中,研究者展示了一組案例,其中有更高分類置信度的檢測框卻與其對應的目標物體有更小的重疊。就像 Gresham 著名的「劣幣驅逐良幣」理論一樣,分類置信度和定位準確度之間的不匹配可能會導致定位更準確的邊界框在 NMS 過程中反而被更不準確的邊界框抑制了。(2)其次,缺乏定位置信度使得被廣泛使用的邊界框迴歸方法缺少可解釋性或可預測性。舉個例子,之前的研究 [3] 報告了迭代式邊界框迴歸的非單調性。也就是說,如果多次應用邊界框迴歸,可能有損輸入邊界框的定位效果(見圖 1(b))。

(a)分類置信度和定位準確度不對齊的示例。黃框表示真實目標框,紅框和綠框都是 FPN [16] 所得到的檢測結果。定位置信度是由研究者提出的 IoU-Net 計算得到的。使用分類置信度作為排名指標,會導致定位更準確的邊界框(綠框)在傳統的 NMS 流程被錯誤地刪去。2.1 節提供了定量分析。

                                     (b)在迭代式邊界框迴歸中非單調定位的示例。2.2 節提供了定量分析。

                          圖 1:由缺乏定位置信度所造成的兩個缺點的圖示。這些示例選自 MS-COCO minival [17]。

       研究者在這篇論文中引入了 IoU-Net,其能預測檢測到的邊界框和它們對應的真實目標框之間的 IoU,使得該網路能像其分類模組一樣,對檢測框的定位精確程度有所掌握。這種簡單的預測 IoU 值能為研究者提供前述問題的新解決方案:

1.IoU 是定位準確度的一個天然標準。研究者可以使用預測得到的 IoU 替代分類置信度作為 NMS 中的排名依據。這種技術被稱為 IoU 引導式 NMS(IoU-guided NMS),可消除由誤導性的分類置信度所造成的抑制錯誤。

2. 研究者提出了一種基於優化的邊界框修正流程,可與傳統的基於迴歸的邊界框修正方法分庭抗禮。在推理期間,預測得到的 IoU 可用作優化目標,也可作為定位置信度的可解釋性指示量。研究者提出的精準 RoI 池化層(Precise RoI Pooling layer)讓研究者可通過梯度上升求解 IoU 優化。研究者表明,相比於基於迴歸的方法,基於優化的邊界框修正方法在實驗中能實現定位準確度的單調提升。這種方法完全相容並可整合進各種不同的基於 CNN 的檢測器 [16,3,10]。

2 深入目標定位

       首先,我們探討了目標定位的兩個缺點:分類置信度和定位精度之間的不一致以及非單調邊界框迴歸。 標準FPN [16]檢測器在MS-COCO trainval35k上作為基線進行訓練,並在研究的最小範圍上進行測試。

2.1 分類準確度和定位準確度不匹配

       為了消除重複的邊界框,NMS自從[4]以來一直是大多數物體探測器中不可或缺的組成部分。 NMS以迭代方式工作。在每次迭代時,選擇具有最大分類置信度的邊界框,並使用預定義的重疊閾值消除其相鄰框。在Soft-NMS [2]演算法中,盒子消除被置信度的減少所取代,從而導致更高的召回率。最近,已經提出了一組基於學習的演算法作為無引數NMS和Soft-NMS的替代方案。 [24]計算所有邊界框的重疊矩陣,並執行親和傳播聚類以選擇聚類的樣本作為最終檢測結果。 [11]提出了GossipNet,一種基於邊界框和分類置信度為NMS訓練的後處理網路。 [12]提出了一種端到端網路,用於學習檢測到的邊界框之間的關係。然而,這些基於引數的方法需要更多的計算資源,這限制了它們的實際應用。

圖 2:邊界框與其對應目標框的 IoU 與分類/定位置信度之間的關係。對那些與目標框的 IoU 高於 0.5 的檢測框,其 Pearson 相關係數為 (a) 0.217 和 (b) 0.617。(a)分類置信度表示了一個邊界框的類別,但不能被解讀成定位準確度。(b)為了解決這個問題,研究者提出了 IoU-Net 來預測每個檢測到的邊界框的定位置信度,即其與對應的目標框的 IoU。

       在廣泛採用的NMS方法中,分類置信度用於對邊界框進行排序,這可能是有問題的。我們在NMS之前視覺化所有檢測到的邊界框的分類置信度分佈,如圖2(a)所示。 x軸是檢測到的框與其匹配的地面實況之間的IoU,而y軸表示其分類置信度。 Pearson相關係數表明定位精度與分類置信度沒有很好的相關性。

       我們將其歸因於大多數基於CNN的物體探測器在區分前景(正)樣本和背景(負)樣本時使用的目標。如果檢測到的邊界框框det在訓練期間被認為是正的,如果其具有地面實況邊界框之一的IoU大於閾值Ω訓練。該目標可能與定位精度不一致。圖1(a)顯示了具有較高分類置信度的邊界框具有較差定位的情況。

圖 3:經過 NMS 之後得到的正例邊界框的數量,根據它們與對應的目標框之間的 IoU 分組。在傳統 NMS 中(藍色條形圖),定位準確的邊界框中有很大一部分會被錯誤抑制,這是由分類置信度和定位準確度之間的不匹配造成的,而 IoU 引導式 NMS(黃色條形圖)則能保留定位更準確的邊界框。

      回想一下,在傳統的NMS中,當單個物件存在重複檢測時,將保留具有最大分類置信度的邊界框。然而,由於未對準,具有更好定位的邊界框可能在NMS期間被抑制,導致物件的不良定位。圖3定量地顯示了NMS之後的正邊界框的數量。邊界框按其IoU分組,並具有匹配的地面實況。對於與相同的地面實況匹配的多個檢測,只有具有最高IoU的那個被認為是正的。因此,No-NMS可以被認為是正邊界框數量的上限。我們可以看到,在傳統的NMS程式中,缺少定位置信度使得超過一半檢測到的IoU> 0.9的邊界框被抑制,這降低了檢測結果的定位質量。

2.2 非單調邊界框迴歸

       通常,單個物件本地化可以分為兩類:基於邊界框的方法和基於分段的方法。基於段的方法[19,20,13,10]旨在為每個例項生成畫素級段,但不可避免地需要額外的分段註釋。這項工作側重於基於邊界框的方法。
       單個物件定位通常被公式化為邊界框迴歸任務。核心思想是網路直接學習將邊界框轉換(即,縮放或移位)到其指定目標。在[9,8]中,應用線性迴歸或完全連線層來細化由外部預處理模組(例如,選擇性搜尋[28]或EdgeBoxes [33])生成的物件提議的本地化。更快的R-CNN [23]提出了區域提議網路(RPN),其中僅使用預定義的錨點來訓練端到端物件檢測器。 [14,32]利用無錨,完全卷積網路來處理物件尺度變化。同時,在[29]中提出排斥損失以魯棒地檢測具有人群遮擋的物體。由於其有效性和簡單性,邊界框迴歸已成為大多數基於CNN的探測器的重要組成部分。
       廣泛的下游應用程式(如跟蹤和識別)將受益於精確定位的邊界框。這提高了對提高定位精度的要求。在一系列物體探測器[31,7,6,21]中,精製的盒子將再次送入邊界盒迴歸器並再次進行細化。該過程執行若干次,即迭代邊界框迴歸。更快的R-CNN [23]首先執行兩次邊界框迴歸,以將預定義錨點變換為最終檢測到的邊界框。 [15]提出了一種群體遞迴學習方法,以迭代地改進檢測結果,並在考慮多個提案之間的全域性依賴性的情況下最小化物件提議與基礎事實之間的偏移。在[18]中提出了G-CNN,它從影象上的多尺度規則網格開始,並迭代地將網格中的方框推向地面實況。然而,正如[3]中所報道的,應用邊界框迴歸兩次以上沒有進一步改進。 [3]將此歸因於多步邊界框迴歸中的分佈不匹配,並通過多階段邊界框迴歸中的重取樣策略對其進行解決。


      圖 4:基於優化的與基於迴歸的 BBox 優化。(a)在 FPN 中比較。當迭代式地應用迴歸時,檢測結果的 AP(平均精度)首先會提升,但會在之後的迭代中快速降低。(b)在 Cascade R-CNN 中比較。迭代 0、1、2 表示 Cascade R-CNN 中的第 1、2、3 個迴歸階段。在多輪迴歸之後,AP 稍有下降,而基於優化的方法則進一步將 AP 提高了 0.8%。

       我們通過實驗證明了基於FPN和Cascade R-CNN框架的迭代邊界框迴歸的效能。每次迭代後結果的平均精度(AP)分別顯示為圖4(a)和圖4(b)中的藍色曲線。圖4中的AP曲線表明,隨著迭代次數的增加,定位精度的提高對於迭代邊界框迴歸是非單調的。非單調性以及不可解釋性給應用帶來了困難。此外,如果沒有檢測到的邊界框的區域性置信度,我們就無法對細化進行細粒度控制,例如對不同的邊界框使用自適應迭代次數。

3 IoU-Net

為了定量地分析 IoU 預測的有效性,研究者首先在 3.1 節提出了用於訓練 IoU 預測器的方法。在 3.2 和 3.3 節,研究者分別展示瞭如何將 IoU 預測器用於 NMS 和邊界框修正的方法。最後在 3.4 節,研究者將 IoU 預測器整合進了 FPN [16] 等現有的目標檢測器中。

3.1 學習預測 IoU

圖 5:研究者提出的 IoU-Net 的完整架構,詳見 3.4 節。輸入影象首先輸入一個 FPN 骨幹網路。然後 IoU 預測器讀取這個 FPN 骨幹網路的輸出特徵。研究者用 PrRoI 池化層替代了 RoI 池化層,詳見 3.3 節。這個 IoU 預測器與 R-CNN 分支有相似的結果。虛線框內的模組能構成一個單獨的 IoU-Net。

      如圖5所示,IoU預測器從FPN獲取視覺特徵並估計每個邊界框的定位精度(IoU)。我們通過增加實際情況來生成訓練IoU-Net的邊界框和標籤,而不是從RPN中獲取建議。具體而言,對於訓練集中的所有地面實況邊界框,我們使用一組隨機引數手動變換它們,從而生成候選邊界框集。然後,我們從該候選集中移除具有小於Ω的列的IoU = 0.5的邊界框以及匹配的地面實況。我們統一從該候選集w.r.t中抽取訓練資料。 IoU。該資料生成過程憑經驗為IoU-Net帶來了更好的效能和穩健性。對於每個邊界框,使用建議的精確RoI池化層從FPN的輸出中提取特徵(參見第3.3節)。然後將這些特徵饋入用於IoU預測的雙層前饋網路。為了獲得更好的效能,我們使用了類感知的IoU預測器。
      IoU預測器與大多數現有的基於RoI的探測器相容。獨立IoU預測器的準確度可以在圖2中找到。由於訓練過程獨立於特定檢測器,因此它對輸入分佈的變化是穩健的(例如,當與不同的檢測器協作時)。在後面的部分中,我們將進一步演示如何在完整檢測流水線中(即,與RPN和R-CNN聯合)聯合優化該模組。

3.2 IoU 引導式 NMS

我們通過新的IoU引導的NMS程式解決分類置信度和定位精度之間的不一致,其中分類置信度和定位置信度(IoU的估計)被解開。 簡而言之,我們使用預測的IoU而不是分類置信度作為邊界框的排名關鍵字。 與傳統NMS類似,將選擇具有最高IoU且具有基礎事實的盒子以消除具有大於給定閾值Ωnms的重疊的所有其他盒子。 為了確定分類分數,當方框i消除方框j時,我們通過s i = max(s i,s j)更新方框i的分類置信度s i。 此過程也可以解釋為置信聚類:對於匹配相同基礎事實的一組邊界框,我們對類標籤採取最自信的預測。 可以在演算法1中找到該演算法的虛擬碼。

演算法 1:IoU 引導式 NMS。在這個演算法中,分類置信度和定位置信度是解開的(disentangled)。研究者使用定位置信度(預測得到的 IoU)來給所有被檢測到的邊界框排名,然後基於一個類似聚類的規則來更新分類置信度。

IoU引導的NMS解決了分類置信度和定位精度之間的錯位。 定量結果表明,我們的方法優於傳統的NMS和其他變體,如Soft-NMS [2]。 使用IoU引導的NMS作為後處理器進一步推動了幾種最先進的物體探測器的效能。

3.3 將邊界框修正當作是一個優化過程

邊界框細化問題可以在數學上表達為找到最優c * s.t.:

其中box det是檢測到的邊界框,box gt是(目標)地面實況邊界框,變換是一個邊界框變換函式,以c為引數並變換給定的邊界框。暴擊是衡量兩個邊界框之間距離的標準。在最初的快速R-CNN [5]框架中,暴擊被選擇為對數尺度中的平滑L1座標距離,而在[32]中,暴擊被選擇為兩個邊界框之間的-ln(IoU)。
基於迴歸的演算法使用前饋神經網路直接估計最優解c *。然而,迭代邊界框迴歸方法易受輸入分佈變化的影響[3​​],並可能導致非單調本地化改進,如圖4所示。為解決這些問題,我們提出了一種基於優化的邊界框細化方法利用IoU-Net作為穩健的定位精度(IoU)估計器。此外,IoU估計器可以用作早期停止條件,以使用自適應步驟實現迭代細化。

IoU-Net直接估算IoU(box det,box gt)。雖然所提出的精確RoI池化層能夠計算IoU的梯度w.r.t.邊界框座標§,我們可以直接使用梯度上升方法找到方程1的最優解。在演算法2中,將IoU的估計視為優化目標,我們迭代地用計算的梯度細化邊界框座標並最大化檢測到的邊界框與其匹配的地面實況之間的IoU。此外,預測的IoU是每個邊界框上的定位置信度的可解釋指標,並有助於解釋執行的轉換。
在實現中,如演算法2第6行所示,我們手動按比例放大漸變w.r.t.具有該軸上的邊界框大小的座標(例如,我們用寬度(b j)向上擴充套件∇x1)。這相當於在[5]中以對數縮放座標(x / w,y / h,log w,log h)執行優化。我們還使用一步式邊界框迴歸來初始化座標。

精準 RoI 池化(Precise RoI Pooling):

研究者引入了精準 RoI 池化(簡寫成:PrRoI 池化)來助力研究者的邊界框修正。其沒有任何座標量化,而且在邊界框座標上有連續梯度。給定 RoI/PrRoI 池化前的特徵圖 F(比如,來自 ResNet-50 中的 Conv4),設 wi,j 是該特徵圖上一個離散位置 (i,j) 處的特徵。使用雙線性插值,這個離散的特徵圖可以被視為在任意連續座標 (x,y) 處都是連續的:

其中,  是插值係數。然後將 RoI 的一個 bin 表示為 ,其中 (x_1,y_1) 和 (x_2,y_2) 分別是左上角和右下角的連續座標。給定 bin 和特徵圖 F,研究者通過計算一個二階積分來執行池化(比如平均池化):

為更便於理解,研究者在圖 6 中可視化了 RoI 池化、RoI Align [10] 和研究者的 PrRoI 池化:在傳統的 RoI 池化中,連續座標首先需要被量化(quantization),以計算該 bin 中啟用的和;為了消除量化誤差,在 RoI Align 中,會取樣該 bin 中 N=4 個連續點,表示成 (a_i,b_i),而池化就是在這些取樣的點上執行的。RoI Align 中的 N 是預定義的,而且不能根據 bin 的大小進行調整;與此不同,研究者提出的 PrRoI 池化是直接基於連續特徵圖計算二階積分。

                                              圖 6:RoI 池化、RoI Align 和 PrRoI 池化的圖示

為了更好地理解,我們在圖6中視覺化RoI Pooling,RoI Align [10]和我們的PrRoI Pooing:在傳統的RoI Pooling中,需要首先量化連續座標以計算bin中啟用的總和; 為了消除量化誤差,在RoI Align中,在bin中對N = 4個連續點進行取樣,表示為(a i,b i),並且在取樣點上執行合併。 與RoI Align相反,其中N是預定義的,而不是自適應的w.r.t. bin的大小,建議的PrRoI池直接計算基於連續特徵對映的二階積分。
此外,基於等式3中的公式,PrPool(Bin,F)是可微分的w.r.t. bin的座標。 例如,PrPool(B,F)的偏導數w.r.t. x 1可以計算為:

PrPool(bin,F)的偏導數w.r.t. 可以以相同的方式計算其他座標。 由於我們避免任何量化,PrPool是連續可微的。

3.4 聯合訓練

這種 IoU 預測器可整合到標準的 FPN 流程中,以進行端到端的訓練和推理。為了清楚說明,研究者將用於影象特徵提取的 CNN 架構稱為骨幹(backbone),將應用於各個 RoI 的模組稱為頭(head)。

如圖 5 所示,這個 IoU-Net 使用了 ResNet-FPN [16] 作為骨幹網路,其架構是自上而下的,可構建特徵金字塔(feature pyramid)。FPN 能根據 RoI 的特徵的比例從這個特徵金字塔的不同層級提取這些 RoI 的特徵。其中原來的 RoI 池化層被換成了精準 RoI 池化層。至於該網路的頭,這個 IoU 預測器根據來自骨幹網路的同一視覺特徵而與 R-CNN 分支(包括分類和邊界框迴歸)並行工作。

研究者根據在 ImageNet [25] 上預訓練的 ResNet 模型初始化了權重。所有新的層都使用了標準差為 0.01 或 0.001 的零均值高斯分佈進行初始化。研究者使用了平滑 L1 損失來訓練 IoU 預測器。IoU 預測器的訓練資料是在一個訓練批中的影象中單獨生成的,詳見 3.1 節。IoU 標籤進行了歸一化,因此其值分佈在 [-1,1]。

輸入影象的大小進行了調節,短邊長度為 800 畫素,長邊長度最大為 1200 畫素。分類和迴歸分支取來自 RPN 的每張影象 512 RoI。研究者使用了 16 的批大小進行訓練。網路為 16 萬次迭代進行了優化,學習率設定為 0.01,並在 12 萬次迭代後減小 10 倍。研究者還為前 1 萬次迭代設定了 0.004 的學習率以進行預熱。研究者使用了 1e-4 的權重衰減和 0.9 的 momentum.

在推理過程中,研究者首先對初始座標應用邊界框迴歸。為了加快推理速度,研究者首先在所有檢測到的邊界框上應用 IoU 引導式 NMS。然後,使用基於優化的演算法進一步改進 100 個有最高分類置信度的邊界框。研究者設定步長為 λ=0.5,早停閾值為 Ω1=0.001,定位衰減容限 Ω2=−0.01,迭代次數 T=5。

4 實驗

研究者在有 80 個類別的 MS-COCO 檢測資料集 [17] 上進行了實驗。遵照 [1,16],研究者在 8 萬張訓練影象和 3.5 萬張驗證影象的並集(trainval35k)上訓練了模型,並在包含 5000 張驗證影象的集合(minival)上評估了模型。為驗證該方法,在 4.1 節和 4.2 節,研究者與目標檢測器分開而訓練了一個獨立的 IoU-Net(沒有 R-CNN 模組)。IoU-Net 助力的 IoU 引導式 NMS 和基於優化的邊界框修正被應用在了檢測結果上。

4.1 IoU 引導式 NMS

表 1 總結了不同 NMS 方法的表現。儘管 Soft-NMS 能保留更多邊界框(其中沒有真正的「抑制」),但 IoU 引導式 NMS 還能通過改善檢測到的邊界框的定位來提升結果。因此,在高 IoU 指標(比如 AP_90)上,IoU 引導式 NMS 顯著優於基準方法。

表 1:IoU 引導式 NMS 與其它 NMS 方法的比較。通過保留定位準確的邊界框,IoU 引導式 NMS 在具有高匹配 IoU 閾值的 AP(比如 AP_90)上的表現顯著更優。

我們通過分析不同NoU閾值下的召回來深入研究不同NMS演算法的行為。 原始檢測到的邊界框由ResNet50-FPN生成,沒有任何NMS。 隨著定位精度要求的提高,IoU引導的NMS與其他方法之間的效能差距也越來越大。 特別是,在傳統NMS之後,匹配IoUΩ測試的召回率下降到18.7%,而IoU-NMS達到28.9%,No-NMS“上限”為39.7%。

圖 7:在匹配檢測到的邊界框與真實目標框的不同 IoU 閾值下,不同 NMS 方法的召回率曲線。研究者提供了 No-NMS(不抑制邊界框)作為召回率曲線的上限。研究者提出的 IoU-NMS 有更高的召回率,並且在高 IoU 閾值(比如 0.8)下能有效收窄與上限的差距。

4.2 基於優化的邊界框修正

研究者提出的基於優化的邊界框修正與大多數基於 CNN 的目標檢測器 [16,3,10] 都相容,如表 2 所示。將這種邊界框修正方法應用在原來的使用單獨 IoU-Net 的流程之後還能通過更準確地定位目標而進一步提升表現。即使是對有三級邊界框迴歸運算的 Cascade R-CNN,這種改進方法能進一步將 AP_90 提升 2.8%,將整體 AP 提升 0.8%。

                               表 2:基於優化的邊界框修正能進一步提升多種基於 CNN 的目標檢測器的表現。

4.3 聯合優化

IoU-Net 可與目標檢測框架一起並行地端到端優化。研究者發現,將 IoU 預測器新增到網路中有助於網路學習更具判別性的特徵,這能分別將 ResNet50-FPN 和 ResNet101-FPN 的整體 AP 提升 0.6% 和 0.4%。IoU 引導式 NMS 和邊界框修正還能進一步提升表現。研究者使用 ResNet101-FPN 得到了 40.6% 的 AP,相比而言基準為 38.5%,提升了 2.1%。表 4 給出了推理速度,表明 IoU-Net 可在計算成本承受範圍之內實現檢測水平的提升。

我們主要將表3中AP 50的劣質結果歸因於IoU估計誤差。 當邊界框具有較低的具有地面實況的IoU時,它們在外觀上具有較大的變化。 在圖2(b)中視覺化,對於具有較低IoU的盒子,IoU估計變得不太準確。 這降低了下游細化和抑制的效能。 我們憑經驗發現,這個問題可以通過諸如在訓練期間以較低的IoU取樣更多邊界框的技術來部分地解決。

表 3:在 MS-COCO 上的最終實驗結果。IoU-Net 表示嵌入 IoU 預測器的 ResNet-FPN。在這個 FPN 基準上,研究者實現了約 2% 的 AP 提升。

表 4:多種目標檢測器在單個 TITAN X GPU 上得到的推理速度。這些模型都有一樣的骨幹網路 ResNet50-FPN。輸入解析度為 1200x800。所有超引數設定相同。

5 總結

本文提出一種用於準確目標定位的全新網路架構 IoU-Net。通過學習預測與對應真實目標的 IoU,IoU-Net 可檢測到的邊界框的「定位置信度」,實現一種 IoU 引導式 NMS 流程,從而防止定位更準確的邊界框被抑制。IoU-Net 很直觀,可輕鬆整合到多種不同的檢測模型中,大幅提升定位準確度。MS-COCO 實驗結果表明了該方法的有效性和實際應用潛力。

從學術研究的角度,本文指出現代檢測流程中存在分類置信度和定位置信度不匹配的問題。更進一步,研究者將邊界框修正問題重定義為一個全新的優化問題,並提出優於基於迴歸方法的解決方案。研究者希望這些新視角可以啟迪未來的目標檢測工作。