1. 程式人生 > >Parallel Feature Pyramid Network for Object Detection

Parallel Feature Pyramid Network for Object Detection

Parallel Feature Pyramid Network for Object Detection

ECCV2018

 

總結:

文章借鑑了SPP的思想並通過MSCAmulti-scale context aggregation)模組進行特徵融合從而提出PFPNetParallel Feature Pyramid Network)演算法來提升目標檢測的效果。

1.使用spp模組通過擴大網路寬度而不是增加深度來生成金字塔形特徵圖

2.提出msca模組,有效地結合了大不相同規模的上下文資訊

3.效果好:82.3% (Pascal VOC 2007), 80.3% (PASCAL VOC 2012), 35.2% (MS-COCO),  

4.速度快:a single Titan X:24fps(512*512),33fps(320*320),

 

 

特徵金字塔回顧:

 

 

作者先回顧了之前的特徵融合網路。(a)上方是常見的cnn網路,下面的結構則引入了特徵金字塔,基於多個特徵層進行預測,類似於SSD(b)上方是近幾年流行的U-net(也稱為漏斗型網路),下方的結構融合不同層的特徵進行預測,就是17年提出的FPN結構圖。(c)是原始的空間金字塔結構,簡單講就是卷積後的特徵圖經過不同size的池化操作得到不同尺度的特徵圖,將不同尺度的特徵圖做融合後進行預測。(d)是文章提出的網路結構

 

 

網路結構:

 

 

Figure3PFPNet的整體結構圖。首先對於一張輸入影象,先通過一個基礎網路VGG16全連線換卷積)提取特徵,假設提取到的特徵通道數是D,基於提取到的特徵通過SPP網路得到不同尺度的特徵圖(記為高維特徵b),用N表示尺度數量(圖中N=3),得到的特徵圖通道數用CH表示,CH等於D;然後通過一個通道縮減操作bottleneck將(b)中的特徵圖的通道縮減得到低維特徵(對應c),縮減後的通道數用CL表示,公式是CL=D/(N-1)(Figure3中(c)的輸出特徵通道數應該是2,而不是圖中顯示的1);然後通過

MSCA操作得到融合後的特徵圖d,得到的特徵通道數是Cp;最後基於融合後的多個特徵圖進行預測(每個特徵圖經過簡單的預測網路(3*3conv)迴歸預測,非極大抑制得到最終結果)

 

 

Figure4MSCA模組的結構示意圖。MSCA主要是基於特徵通道的concat操作,但是輸入特徵有些不同。比如Figure4在得到P1這個融合特徵時,是用fH(1)、下采樣(雙線性差值)後的fL(0)、上取樣(非重疊平均池化)後的fL(2)進行concat後得到的。為什麼不是用fL(1)而是用fH(1),因為在作者看來相同尺度的特徵資訊要足夠多,而FH部分得到的特徵是未經過通道縮減的,因此在得到某一個尺度的預測層特徵時,被融合的對應尺度特徵都是採用FH部分的輸出特徵,而不是FL部分的輸出特徵。相比之下,不同尺度的待融合特徵採用FL部分的輸出特徵,相當於補充資訊。因此concat後的特徵通道數中有(N-1)*(D/(N-1))=D個是FL的輸出,有D(等於CH)個是FH的輸出,相當於各佔一半,這也是前面介紹的為什麼FL的輸出特徵通道數用D/(N-1)這個公式的原因。作者嘗試過將CL=2D/N,全由FL進行concat操作得到融合特徵,但是引數量增多且效能下降,這部分的實驗結果沒有展示出來,所以對於用fH的特徵做融合對效果提升有多大就不得而知了。模組中的Convs也是一個瓶頸結構(bottleneck)。總的來說MSCA模組就是一個特徵融合模組,作者期望通過concat操作最大程度地儲存提取到的特徵資訊。

 

損失函式:

文章有兩個不同的anchor確定方式,由此有兩種對應的損失函式

 

一種是用SSDanchor,此時loss記為PFPNet-S:;第二種使用ARManchor refinement module)模組的anchor,此時loss記為PFPNet-R:

 

 

超引數的選取

文中有兩個值需要人為設定,一個是金字塔的層數N,另一個是低維特徵通道數CL。(其實這裡有個問題,CL=D/N這不是確定的嗎?為什麼還可以調整?)作者根據取值不同做了實驗。訓練集為VOC07+VOC12的訓練集,測試集為VOC07的測試集,取IOU0.5,訓練110K代,初始學習率10-3,在80K100K衰減10倍。可以看到最優取值N=4,CL=256

 

 

 

 

實驗結果:

 

 

Table2為不同模組對模型的影響,說明了模組的有效性。

 

 

 

 

其中,PFPNet-S512說明anchorSSD的方式,圖片大小512*512-R說明anchor使用用ARM模組。

 

 

 

 

 

另外:文中有個總結說得特別好,那就是對於目標檢測任務而言,真正有用的特徵一定具備這3個特點:1、特徵要包含目標的細節資訊。2、特徵要通過足夠深的網路提取得到。3、特徵要包含目標的語義資訊。