Parallel Feature Pyramid Network for Object Detection

阿新 • • 發佈：2018-11-04

ECCV2018

總結：

文章借鑑了SPP的思想並通過MSCA（multi-scale context aggregation）模組進行特徵融合從而提出PFPNet（Parallel Feature Pyramid Network）演算法來提升目標檢測的效果。

1.使用spp模組通過擴大網路寬度而不是增加深度來生成金字塔形特徵圖

2.提出msca模組，有效地結合了大不相同規模的上下文資訊

3.效果好：82.3% (Pascal VOC 2007), 80.3% (PASCAL VOC 2012), 35.2% (MS-COCO),

4.速度快：a single Titan X:24fps(512*512),33fps(320*320),

特徵金字塔回顧：

作者先回顧了之前的特徵融合網路。(a)上方是常見的cnn網路，下面的結構則引入了特徵金字塔，基於多個特徵層進行預測，類似於SSD。(b)上方是近幾年流行的U-net（也稱為漏斗型網路），下方的結構融合不同層的特徵進行預測，就是17年提出的FPN結構圖。(c)是原始的空間金字塔結構，簡單講就是卷積後的特徵圖經過不同size的池化操作得到不同尺度的特徵圖，將不同尺度的特徵圖做融合後進行預測。(d)是文章提出的網路結構

網路結構：

Figure3是PFPNet的整體結構圖。首先對於一張輸入影象，先通過一個基礎網路（VGG16全連線換卷積）提取特徵，假設提取到的特徵通道數是D，基於提取到的特徵通過SPP網路得到不同尺度的特徵圖（記為高維特徵b），用N表示尺度數量（圖中N=3），得到的特徵圖通道數用CH表示，CH等於D；然後通過一個通道縮減操作bottleneck將（b）中的特徵圖的通道縮減得到低維特徵（對應c），縮減後的通道數用CL表示，公式是CL=D/(N-1)，(Figure3中（c）的輸出特徵通道數應該是2，而不是圖中顯示的1)；然後通過

MSCA操作得到融合後的特徵圖d，得到的特徵通道數是Cp；最後基於融合後的多個特徵圖進行預測(每個特徵圖經過簡單的預測網路(3*3conv)迴歸預測，非極大抑制得到最終結果)。

Figure4是MSCA模組的結構示意圖。MSCA主要是基於特徵通道的concat操作，但是輸入特徵有些不同。比如Figure4在得到P1這個融合特徵時，是用fH(1)、下采樣（雙線性差值）後的fL(0)、上取樣（非重疊平均池化）後的fL(2)進行concat後得到的。為什麼不是用fL(1)而是用fH(1)，因為在作者看來相同尺度的特徵資訊要足夠多，而FH部分得到的特徵是未經過通道縮減的，因此在得到某一個尺度的預測層特徵時，被融合的對應尺度特徵都是採用FH部分的輸出特徵，而不是FL部分的輸出特徵。相比之下，不同尺度的待融合特徵採用FL部分的輸出特徵，相當於補充資訊。因此concat後的特徵通道數中有(N-1)*(D/(N-1))=D個是FL的輸出，有D（等於CH）個是FH的輸出，相當於各佔一半，這也是前面介紹的為什麼FL的輸出特徵通道數用D/(N-1)這個公式的原因。作者嘗試過將CL=2D/N，全由FL進行concat操作得到融合特徵，但是引數量增多且效能下降，這部分的實驗結果沒有展示出來，所以對於用fH的特徵做融合對效果提升有多大就不得而知了。模組中的Convs也是一個瓶頸結構（bottleneck）。總的來說MSCA模組就是一個特徵融合模組，作者期望通過concat操作最大程度地儲存提取到的特徵資訊。

損失函式：

文章有兩個不同的anchor確定方式，由此有兩種對應的損失函式

一種是用SSD的anchor，此時loss記為PFPNet-S:；第二種使用ARM（anchor refinement module）模組的anchor，此時loss記為PFPNet-R:

超引數的選取：

文中有兩個值需要人為設定，一個是金字塔的層數N，另一個是低維特徵通道數CL。（其實這裡有個問題，CL=D/N這不是確定的嗎？為什麼還可以調整？）作者根據取值不同做了實驗。訓練集為VOC07+VOC12的訓練集,測試集為VOC07的測試集，取IOU為0.5，訓練110K代，初始學習率10-3，在80K和100K衰減10倍。可以看到最優取值N=4,CL=256。

實驗結果：

Table2為不同模組對模型的影響，說明了模組的有效性。

其中，PFPNet-S512說明anchor用SSD的方式，圖片大小512*512；-R說明anchor使用用ARM模組。

另外：文中有個總結說得特別好，那就是對於目標檢測任務而言，真正有用的特徵一定具備這3個特點：1、特徵要包含目標的細節資訊。2、特徵要通過足夠深的網路提取得到。3、特徵要包含目標的語義資訊。

Parallel Feature Pyramid Network for Object Detection

Parallel Feature Pyramid Network for Object Detection

【Network Architecture】Feature Pyramid Networks for Object Detection(FPN)論文解析（轉）

Feature Pyramid Networks for Object Detection 總結

Feature Pyramid Networks for Object Detection 論文筆記

Feature Pyramid Networks for Object Detection論文筆記

Feature Pyramid Networks for Object Detection論文研讀與問題討論

[Paper note] Feature Pyramid Networks for Object Detection

Feature Pyramid Networks for Object Detection論文翻譯——中文版

論文筆記：Feature Pyramid Networks for Object Detection

[水水博文]Feature Pyramid Networks for Object Detection

目標檢測“Feature Pyramid Networks for Object Detection”

特徵金字塔特徵用於目標檢測：Feature Pyramid Networks for Object Detection

論文閱讀筆記（二十二）：Feature Pyramid Networks for Object Detection（FPN）

論文解讀之Feature Pyramid Networks for Object Detection

Feature Pyramid Networks for Object Detection

目標檢測--Feature Pyramid Networks for Object Detection

論文閱讀 | FPN：Feature Pyramid Networks for Object Detection

FPN(Feature Pyramid Networks for Objection Detection)演算法理解

ECCV2018 | 論文閱讀DetNet: A Backbone network for Object Detection

RefineDet論文閱讀：Single-Shot Refinement Neural Network for Object Detection

Parallel Feature Pyramid Network for Object Detection

相關推薦