Feature Pyramid Networks for Object Detection 總結

阿新 • • 發佈：2018-11-11

最近在閱讀FPN for object detection,看了網上的很多資料，有些認識是有問題的，當然有些很有價值。下面我自己總結了一下，以供參考。

1. FPN解決了什麼問題？

答：在以往的faster rcnn進行目標檢測時，無論是rpn還是fast rcnn，roi 都作用在最後一層，這在大目標的檢測沒有問題，但是對於小目標的檢測就有些問題。因為對於小目標來說，當進行卷積池化到最後一層，實際上語義資訊已經沒有了，因為我們都知道對於一個roi對映到某個feature map的方法就是將底層座標直接除以stride,顯然越後，對映過去後就越小，甚至可能就沒有了。所以為了解決多尺度檢測的問題，引入了特徵金字塔網路。

下面我們介紹一下特徵金字塔網路。如下引用[1]

圖(a)是相當常見的一種多尺度方法，稱為featurized image pyramid,這種方法在較早的人工設計特徵（DPM）時被廣泛使用,在CNN中也有人使用過。就是對input iamge進行multi scale，通過設定不同的縮放比例實現。這種可以解決多尺度，但是相當於訓練了多個模型（假設要求輸入大小固定），即便允許輸入大小不固定，但是也增加了儲存不同scale影象的記憶體空間。
圖(b)就是CNN了，cnn相比人工設計特徵，能夠自己學習到更高階的語義特徵，同時CNN對尺度變化魯棒，因此如圖，從單個尺度的輸入計算的特徵也能用來識別，但是遇到明顯的多尺度目標檢測時，還是需要金字塔結構來進一步提升準確率。
從現在在imageNet和COCO資料集上領先的的一些方法來看，在測試的時候都用到了featurized image pyramid方法,即結合(a)，(b)。說明了特徵化影象金字塔的每一級的好處在於，產生了多尺度的特徵表示，每一級的特徵都有很強的語義（因為都用cnn生成的特徵），包括高解析度的一級（最大尺度的輸入影象）。
但是這種模式有明顯的弊端，相比於原來方法，時間增長了4倍，很難在實時應用中使用，同樣，也增大了儲存代價，這就是為什麼只是在測試階段使用image pyramid。但是如果只在測試階段使用，那麼訓練和測試在推斷的時候會不一致。所以，最近的一些方法乾脆捨棄了image pyramid。

但是image pyramid不是計算多尺度特徵表示的唯一方法。deepCNN能夠層次化的特徵，而且因為池化的作用，會產生金字塔形的特徵，具有一種內在的多尺度。但是問題在於，高解析度的map（淺層）具有low-level的特徵，所以淺層的目標識別效能較弱。這也是不同level融合的目的。

如圖(c)，SSD較早嘗試了使用CNN金字塔形的層級特徵。理想情況下，SSD風格的金字塔重利用了前向過程計算出的來自多層的多尺度特徵圖，因此這種形式是不消耗額外的資源的。但是SSD為了避免使用low-level的特徵，放棄了淺層的feature map，而是從conv4_3開始建立金字塔，而且加入了一些新的層

。因此SSD放棄了重利用更高解析度的feature map，但是這些feature map對檢測小目標非常重要。這就是SSD與FPN的區別。
圖(4)是FPN的結構，FPN是為了自然地利用CNN層級特徵的金字塔形式，同時生成在所有尺度上都具有強語義資訊的特徵金字塔。所以FPN的結構設計了top-down結構和橫向連線，以此融合具有高解析度的淺層layer和具有豐富語義資訊的深層layer。這樣就實現了從單尺度的單張輸入影象，快速構建在所有尺度上都具有強語義資訊的特徵金字塔，同時不產生明顯的代價。

下面我們再來看一下相似的網路：

這裡寫圖片描述

上面一個帶有skip connection的網路結構在預測的時候是在finest level（自頂向下的最後一層）進行的，簡單講就是經過多次上取樣並融合特徵到最後一步，拿最後一步生成的特徵做預測。而FPN網路結構和上面的類似，區別在於預測是在每一層中獨立進行的。後面的實驗證明finest level的效果不如FPN好，原因在於FPN網路是一個視窗大小固定的滑動視窗檢測器，因此在金字塔的不同層滑動可以增加其對尺度變化的魯棒性。另外雖然finest level有更多的anchor，但仍然效果不如FPN好，說明增加anchor的數量並不能有效提高準確率。

自下而上的路徑

CNN的前饋計算就是自下而上的路徑，特徵圖經過卷積核計算，通常是越變越小的，也有一些特徵層的輸出和原來大小一樣，稱為“相同網路階段”（same network stage ）。對於本文的特徵金字塔，作者為每個階段定義一個金字塔級別，然後選擇每個階段的最後一層的輸出作為特徵圖的參考集。這種選擇是很自然的，因為每個階段的最深層應該具有最強的特徵。具體來說，對於ResNets，作者使用了每個階段的最後一個殘差結構的特徵啟用輸出。將這些殘差模組輸出表示為{C2, C3, C4, C5}，對應於conv2，conv3，conv4和conv5的輸出，並且注意它們相對於輸入影象具有{4, 8, 16, 32}畫素的步長。考慮到記憶體佔用，沒有將conv1包含在金字塔中。

自上而下的路徑和橫向連線

自上而下的路徑（the top-down pathway ）是如何去結合低層高解析度的特徵呢？方法就是，把更抽象，語義更強的高層特徵圖進行上取樣，然後把該特徵橫向連線（lateral connections ）至前一層特徵，因此高層特徵得到加強。值得注意的是，橫向連線的兩層特徵在空間尺寸上要相同。這樣做應該主要是為了利用底層的定位細節資訊。

下圖顯示連線細節。把高層特徵做2倍上取樣（最鄰近上取樣法，可以參考反捲積），然後將其和對應的前一層特徵結合（前一層要經過1 * 1的卷積核才能用，目的是改變channels，應該是要和後一層的channels相同），結合方式就是做畫素間的加法。重複迭代該過程，直至生成最精細的特徵圖。迭代開始階段，作者在C5層後面加了一個1 * 1的卷積核來產生最粗略的特徵圖，最後，作者用3 * 3的卷積核去處理已經融合的特徵圖（為了消除上取樣的混疊效應），以生成最後需要的特徵圖。為了後面的應用能夠在所有層級共享分類層，這裡坐著固定了3*3卷積後的輸出通道為d,這裡設為256.因此所有額外的卷積層（比如P2）具有256通道輸出。這些額外層沒有用非線性。

{C2, C3, C4, C5}層對應的融合特徵層為{P2, P3, P4, P5}，對應的層空間尺寸是相通的。

這裡寫圖片描述

2. 應用

Faster R-CNN+Resnet-101

本部分來源自：http://www.voidcn.com/article/p-xtjooucw-dx.html
要想明白FPN如何應用在RPN和Fast R-CNN（合起來就是Faster R-CNN），首先要明白Faster R-CNN+Resnet-101的結構，這部分在是論文中沒有的，博主試著用自己的理解說一下。

直接理解就是把Faster-RCNN中原有的VGG網路換成ResNet-101，ResNet-101結構如下圖：

這裡寫圖片描述

Faster-RCNN利用conv1到conv4-x的91層為共享卷積層，然後從conv4-x的輸出開始分叉，一路經過RPN網路進行區域選擇，另一路直接連一個ROI Pooling層，把RPN的結果輸入ROI Pooling層，對映成7 * 7的特徵。然後所有輸出經過conv5-x的計算，這裡conv5-x起到原來全連線層（fc）的作用。最後再經分類器和邊框迴歸得到最終結果。整體框架用下圖表示：

這裡寫圖片描述

RPN中的特徵金字塔網路

本部分來源自：http://www.voidcn.com/article/p-xtjooucw-dx.html

RPN是Faster R-CNN中用於區域選擇的子網路，RPN是在一個13 * 13 * 256的特徵圖上應用9種不同尺度的anchor，本篇論文另闢蹊徑，把特徵圖弄成多尺度的，然後固定每種特徵圖對應的anchor尺寸，很有意思。也就是說，作者在每一個金字塔層級應用了單尺度的anchor，{P2, P3, P4, P5, P6}分別對應的anchor尺度為{32^2, 64^2, 128^2, 256^2, 512^2 }，當然目標不可能都是正方形，本文仍然使用三種比例{1:2, 1:1, 2:1}，所以金字塔結構中共有15種anchors。這裡，博主嘗試畫一下修改後的RPN接面構：

這裡寫圖片描述

從圖上看出各階層共享後面的分類網路。這也是強調為什麼各階層輸出的channel必須一致的原因，這樣才能使用相同的引數，達到共享的目的。

注意上面的p6,根據論文中所指新增：

這裡寫圖片描述

正負樣本的界定和Faster RCNN差不多：如果某個anchor和一個給定的ground truth有最高的IOU或者和任意一個Ground truth的IOU都大於0.7，則是正樣本。如果一個anchor和任意一個ground truth的IOU都小於0.3，則為負樣本。

Fast R-CNN 中的特徵金字塔網路

Fast R-CNN 中很重要的是ROI Pooling層，需要對不同層級的金字塔制定不同尺度的ROI。
ROI Pooling層使用region proposal的結果和中間的某一特徵圖作為輸入，得到的結果經過分解後分別用於分類結果和邊框迴歸。
然後作者想的是，不同尺度的ROI使用不同特徵層作為ROI pooling層的輸入，大尺度ROI就用後面一些的金字塔層，比如P5；小尺度ROI就用前面一點的特徵層，比如P4。那怎麼判斷ROI改用那個層的輸出呢？這裡作者定義了一個係數Pk，其定義為：
這裡寫圖片描述

224是ImageNet的標準輸入，k0是基準值，設定為5，代表P5層的輸出（原圖大小就用P5層），w和h是ROI區域的長和寬，假設ROI是112 * 112的大小，那麼k = k0-1 = 5-1 = 4，意味著該ROI應該使用P4的特徵層。k值應該會做取整處理，防止結果不是整數。
然後，因為作者把conv5也作為了金字塔結構的一部分，那麼從前全連線層的那個作用怎麼辦呢？這裡採取的方法是增加兩個1024維的輕量級全連線層，然後再跟上分類器和邊框迴歸，認為這樣還能使速度更快一些。

最後，博主根據自己的理解畫了一張草圖，猜想整個網路經FPN修改後的樣子，也就是Faster R-CNN with FPN。

這裡寫圖片描述

總結

作者提出的FPN（Feature Pyramid Network）演算法同時利用低層特徵高解析度和高層特徵的高語義資訊，通過融合這些不同層的特徵達到預測的效果。並且預測是在每個融合後的特徵層上單獨進行的，這和常規的特徵融合方式不同。

目前官方開原始碼尚未公佈，網上有一部分開原始碼，如unsky/FPN-caffe:Feature Pyramid Network on caffe

參考文獻

--------------------- 作者：xiamentingtao 來源：CSDN 原文：https://blog.csdn.net/xiamentingtao/article/details/78598027?utm_source=copy 版權宣告：本文為博主原創文章，轉載請附上博文連結！

Feature Pyramid Networks for Object Detection 總結

1. FPN解決了什麼問題？

自下而上的路徑

自上而下的路徑和橫向連線

2. 應用

Faster R-CNN+Resnet-101

RPN中的特徵金字塔網路

Fast R-CNN 中的特徵金字塔網路

總結

參考文獻

Feature Pyramid Networks for Object Detection 總結

【Network Architecture】Feature Pyramid Networks for Object Detection(FPN)論文解析（轉）

Feature Pyramid Networks for Object Detection 論文筆記

Feature Pyramid Networks for Object Detection論文筆記

Feature Pyramid Networks for Object Detection論文研讀與問題討論

[Paper note] Feature Pyramid Networks for Object Detection

Feature Pyramid Networks for Object Detection論文翻譯——中文版

論文筆記：Feature Pyramid Networks for Object Detection

[水水博文]Feature Pyramid Networks for Object Detection

目標檢測“Feature Pyramid Networks for Object Detection”

特徵金字塔特徵用於目標檢測：Feature Pyramid Networks for Object Detection

論文閱讀筆記（二十二）：Feature Pyramid Networks for Object Detection（FPN）

論文解讀之Feature Pyramid Networks for Object Detection

Feature Pyramid Networks for Object Detection

目標檢測--Feature Pyramid Networks for Object Detection

論文閱讀 | FPN：Feature Pyramid Networks for Object Detection

Parallel Feature Pyramid Network for Object Detection

FPN(Feature Pyramid Networks for Objection Detection)演算法理解

Deep Neural Networks for Object Detection

【深度學習論文筆記】Deep Neural Networks for Object Detection

Feature Pyramid Networks for Object Detection 總結

1. FPN解決了什麼問題？

自下而上的路徑

自上而下的路徑和橫向連線

2. 應用

Faster R-CNN+Resnet-101

RPN中的特徵金字塔網路

Fast R-CNN 中的特徵金字塔網路

總結

參考文獻

相關推薦