1. 程式人生 > >RefineDet論文閱讀:Single-Shot Refinement Neural Network for Object Detection

RefineDet論文閱讀:Single-Shot Refinement Neural Network for Object Detection

裁剪 部分 損失函數 過程 bject sin 關聯 增加 問題

摘要

RefineDet是CVPR 2018的一篇論文,文中提出了一個新的single-shot檢測器RefineDet,實現了比二階段方法更高的準確率而且具有與一階段方法相當的效率。RefineDet包括兩個互連模型ARM(anchor refinement module)和ODM(object detection module):前者用於濾除negative anchors來減少分類器的搜索空間,粗略調整anchors的位置和大小給之後的回歸器更好的初始化;後者利用前者的anchors進一步回歸和預測類別。

網絡結構

RefineDet的網絡結構如圖1所示。ARM類似於Faster R-CNN的RPN,用於去除negative anchors並粗略調整anchors的位置和尺寸;ODM類似於SSD結構,對refined anchors進行進一步回歸和分類。這兩個互連模塊(其實算是兩個SSD)模擬了兩級結構。此外,文中還設計了transfer connection block(TCB)來進行特征轉換,也就是將ARM輸出的feature map轉換成ODM的輸入。

技術分享圖片

TCB結構如圖2所示。TCB通過在傳輸的特征中添加高層特征來集成大尺度的context,采用反卷積放大高層feature map然後進行element-wise sum,並在求和後加入一個卷積層,以保證特征的可識別性。

技術分享圖片

得益於TCB的特征融合,使得ODM低層的feature map融合了高層的feature map的語義信息,並基於每層的feature map進行預測,最後對各層的預測結果進行綜合,相比於SSD,該部分的優勢在於融合了多個層次的feature map,可以有效提升對小目標的檢測效果。

為了緩解anchors的不平衡問題,文中設計了negative anchors過濾機制,對於ARM中產生的refined anchor boxes,如果其負的置信度大於預設值,在訓練ODM時就丟掉。相應地,在預測階段,如果產生的refined anchor boxes的負置信度大於閾值,在ODM的檢測過程中就丟掉。

訓練和預測

采用隨機縮放、隨機裁剪、隨機光照變化、隨機翻轉等策略進行數據擴增。

使用基於VGG-16和ResNet-101的backbone網絡(其他的也可以),移除了網絡中的分類層,添加了幾個輔助層。以VGG-16為例,通過下采樣參數將vgg-16的fc6和fc7轉換為卷積層。由於conv4_3和conv5_3具有與其它層不同的特征尺度,因此我們采用L2歸一化對conv4_3和conv5_3的特征範數縮放到10和8。在截斷的VGG-16的末尾增加了兩個額外的卷積層(即conv6_1和conv6_2),在截斷的ResNet-101的末尾添加了一個額外的殘差塊(即res6)實現在多尺度上獲取高層信息驅動目標檢測。

選取4個feature layer(步長8、16、32、64)處理不同尺度的目標,每個layer和特定尺度(尺度是對應層步長的4倍)的anchors和寬高比(0.5,1.0,2.0)相關聯。

通過ARM部分過濾掉一些負樣本,之後采用SSD的hard negative mining策略使得正負樣本的比例維持在1:3。

損失函數如下:

技術分享圖片

損失函數包括兩部分:ARM和ODM。ARM損失包括二分類的交叉熵和Smooth L1。ODM損失則是Softmax損失和Smooth L1。

實驗結果

實驗數據集:PASCAL VOC 2007,PASCAL VOC 2012,MS COCO。

技術分享圖片

在PASCAL VOC數據集上,單尺度輸入的檢測結果mAP達到0.818(VOC 2007)、0.801(VOC 2012),比faster R-CNN、R-FCN等絕大多數兩階段方法效果都好;而且檢測速度大大提升,320*320輸入圖像檢測速度達到40.3fps,512*512的檢測速度為24.1fps。

技術分享圖片

在MS COCO數據集上,多尺度輸入的檢測結果高達41.8%,不僅優於單階段檢測算法,比絕大多數兩階段算法都高。

RefineDet應該是目前單階段目標檢測算法中效果最好的,檢測效果甚至超過大多數的兩階段算法,而且檢測速度很快。

RefineDet論文閱讀:Single-Shot Refinement Neural Network for Object Detection