1. 程式人生 > >SPP-net中的spatial pyramid pooling

SPP-net中的spatial pyramid pooling

原文傳送門:https://www.jianshu.com/p/884c2828cd8e

本篇主要簡述SPP中的spatial pyramid pooling,力求簡單明瞭,一看就懂。

spp提出的初衷是為了解決CNN對輸入圖片尺寸的限制。由於全連線層的存在,與之相連的最後一個卷積層的輸出特徵需要固定尺寸,從而要求輸入圖片尺寸也要固定。spp-net之前的做法是將圖片裁剪或變形(crop/warp),如下圖所示


圖1 cropping or warping

crop/warp的一個問題是導致圖片的資訊缺失或變形,影響識別精度。對此,文章中在最後一層卷積特徵圖的基礎上又進一步進行處理,提出了spatial pyramid pooling,如圖2所示:


圖2 crop/warp vs spp

空間金字塔池化(spatial pyramid pooling)的網路結構如下圖:


圖3 spp structure

簡而言之,即是將任意尺寸的feature map分別切分成16、4、1份,再對每一份進行池化操作,將池化後的結果拼接得到固定長度的特徵向量(圖中的256為filter的個數),送入全連線層進行後續操作。

後來的Fast RCNN網路即借鑑了spp的思想。