1. 程式人生 > >積神經網路結構變化——可變形卷積網路deformable convolutional networks

積神經網路結構變化——可變形卷積網路deformable convolutional networks

參考資料:https://blog.csdn.net/xbinworld/article/details/69367281

                  https://blog.csdn.net/zhangjunhit/article/details/67638559

本文可以看做是對 Spatial Transformer Networks 工作的深入,通過 deformable convolution 和 deformable RoI pooling提升當前CNN網路的空間資訊建模能力。

Spatial Transformer Networks建立的是 global、sparse transformation ,本文的Deformable Convolutional Networks建立的是 local and dense transformation


2.1. Deformable Convolution

如上圖,(a)是常規的一個3*3卷積視窗,(b)藍色點就是原來的卷積視窗加上了一個offset的情況,(c)表示可以對進行視窗進行scale和aspect ratio的變換,(d)表示旋轉; 

上圖顯示可變形卷積可以提高模型對 scale, aspect ratio and rotation 等對映的泛化能力。

卷積該具體怎麼deformable,這個可以通過一個卷積層來學習,如下圖所示

從公式層面來說:一般的卷積可以定義如下式:
這裡寫圖片描述 

對於可變形卷積定義如下:
這裡寫圖片描述

這個 offset ∆p n 通過卷積網路學習得到

傳統卷積和可變形卷積的對比:

 

2.2. Deformable RoI Pooling
標準的 RoI pooling 模組將一個任意尺寸的輸入矩形框特徵轉換到固定尺寸的特徵。它主要用於基於候選區域的目標檢測演算法中。
pooling operation 可以如下式定義:


 

deformable RoI pooling 定義如下:
這裡寫圖片描述

這個 offsets 通過一個全連結層學習
這裡寫圖片描述