深度學習方法（十二）：卷積神經網路結構變化——Spatial Transformer Networks

阿新 • • 發佈：2019-01-12

歡迎轉載，轉載請註明：本文出自Bin的專欄blog.csdn.net/xbinworld。
技術交流QQ群：433250724，歡迎對演算法、機器學習技術感興趣的同學加入。

今天具體介紹一個Google DeepMind在15年提出的Spatial Transformer Networks，相當於在傳統的一層Convolution中間，裝了一個“外掛”，可以使得傳統的卷積帶有了[裁剪]、[平移]、[縮放]、[旋轉]等特性；理論上，作者希望可以減少CNN的訓練資料量，以及減少做data argument，讓CNN自己學會資料的形狀變換。這篇論文我相信會啟發很多新的改進，也就是對卷積結構作出更多變化，還是比較有創意的。

背景知識：仿射變換、雙線性插值

在理解STN之前，先簡單瞭解一下基本的仿射變換、雙線性插值；其中，雙線性插值請跳轉至我剛剛寫的一篇更詳細的介紹“三十分鐘理解：線性插值，雙線性插值Bilinear Interpolation演算法”。這裡只放一個示意圖[1]：

這裡寫圖片描述

而仿射變換，這裡只介紹論文中出現的最經典的2D affine transformation，實現[裁剪]、[平移]、[縮放]、[旋轉]，只需要一個[2,3]的變換矩陣：

這裡寫圖片描述

對於平移操作，仿射矩陣為：

這裡寫圖片描述

對於縮放操作，仿射矩陣為：

這裡寫圖片描述

對於旋轉操作，設繞原點順時針旋轉αα度，座標仿射矩陣為：
（這裡有個trick，由於影象的座標不是中心座標系，所以只要做下Normalization，把座標調整到[-1,1]）[1]
這裡寫圖片描述

至於裁剪（Crop）操作，作者在論文中提到：

determinant of the left 2×2 sub-matrix has magnitude less than unity

其實作用就是讓變換後的座標範圍變小了，這樣就相當於從原圖中裁剪出來一塊；

Spatial Transformer Networks

OK，開始講正題。論文中作者講的比較簡略，所以初看有點費勁，而且我看了網上很多資料，很對博主自己也沒有理解清楚。最主要的結構圖，還是這張：

這裡寫圖片描述
圖1 STN架構

按照作者的說法，STN可以被安裝在任意CNN的任意一層中——這裡有些同學有誤解，以為上圖中U到V是原來的卷積，並且在卷積的路徑上加了一個分支，其實並不是，而是將原來的一層結果U，變換到了V，中間並沒有卷積的操作。看下圖右邊，通過U到V的變換，相當於又生成了一個新資料，而這個資料變換不是定死的而是學習來的，即然是學習來的，那它就有讓loss變小的作用，也就是說，通過對輸入資料進行簡單的空間變換，使得特徵變得更容易分類（往loss更小的方向變化）。另外一方面，有了STN，網路就可以動態地做到旋轉不變性，平移不變性等原本認為是Pooling層做的事情，同時可以選擇影象中最終要的區域（有利於分類）並把它變換到一個最理想的姿態（比如把字放正）。

這裡寫圖片描述

再回到前面圖1 STN架構中，分為三個部分：

Localisation net
Grid generator
Sampler

Localisation net
把feature map U作為輸入，過連續若干層計算（如卷積、FC等），迴歸出引數θ，在我們的例子中就是一個[2，3]大小的6維仿射變換引數，用於下一步計算；

Grid generator
名字叫grid生成器，啥意思？理解了這個名字就理解了這一步做啥了——在source圖中找到用於做插值（雙線性插值）的grid。這也是很多人理解錯的地方。仔細看下前面公式1：

這裡寫圖片描述

s表示source（U中的座標），t表示target（V中的座標）。是不是很奇怪？因為前向計算中，是已知U的，而這個公式怎麼是把V做變換呢？——其實這裡的意思是，通過仿射變換，找到目標V中的座標點變換回source U中的座標在哪裡，而V這時候還沒有產生，需要通過下一層取樣器sampler來產生。

Sampler
作者也叫這一步Differentiable Image Sampling，是希望通過寫成一種形式上可微的影象取樣方法，目的是為了讓整個網路保持可以端到端反向傳播BP訓練，用一種比較簡潔的形式表示雙線性插值的公式：

這裡寫圖片描述

和最前面雙線性插值的示意圖含義是一樣的，只是因為在影象中，相鄰兩個點的座標差是1，就沒有分母部分了。而迴圈中大部分都沒用的，只取相鄰的四個點作為一個grid。

所以上面 2. Grid generator和 3. Sampler是配合的，先通過V中座標(xtarget,ytarget)以此找到它在U中的座標，然後再通過雙線性插值取樣出真實的畫素值，放到(xtarget,ytarget)。到這裡一層STN就結束了。最後再借用一張[1]作者的示意圖作為總結，還是比較清楚的（當然，[1]中作者寫的有些理解我看下來也有不準確的，裡面的評論區也有討論，讀者自己鑑別一下）。
這裡寫圖片描述

OK，本文就講到這裡，基本上前向過程都提到了，論文中還有關於求導（因為Sampler不連續，只能求Sub-Gradient）和訓練loss的一些內容，推薦讀者再結合論文看一下，這裡不寫了。另外，希望寫部落格的同學自己能夠多理解清楚一點再寫，不要隨便糊弄一下~~~

歡迎轉載，註明出處即可。預告一下，下一篇講一下最新MSRA的deformable convolutional network，和STN有很多相似的idea，也比較有意思。

深度學習方法（十二）：卷積神經網路結構變化——Spatial Transformer Networks

背景知識：仿射變換、雙線性插值

Spatial Transformer Networks

參考資料

深度學習方法（十二）：卷積神經網路結構變化——Spatial Transformer Networks

機器學習入坑指南（十一）：卷積神經網路

吳恩達深度學習筆記（deeplearning.ai）之卷積神經網路（CNN）（上）

Python3學習筆記（十二）：閉包

java基礎學習總結（十二）：深入理解java內部類

javaweb學習筆記（十二）：JSP（2）

學習筆記（十二）：推薦系統-隱語義模型

機器學習筆記（十二）：TensorFlow實戰四（影象識別與卷積神經網路）

Python學習筆記（十二）：lambda表示式與函數語言程式設計

機器學習筆記（十二）：聚類

Python3《機器學習實戰》學習筆記（十二）：線性迴歸提高篇之樂高玩具套件二手價預測

機器學習筆記（十二）：TensorFlow實現四（影象識別與卷積神經網路）

各種音視訊編解碼學習詳解之編解碼學習筆記（十二）：其他編解碼（M-JPEG，Motion JPEG 2000，DivX）

cortex_m3_stm32嵌入式學習筆記（十二）：TFTLCD顯示（深入庫函式）

pytorch學習筆記（十二）：詳解 Module 類

深度學習筆記（十二）--深度學習資料集MNIST、ImageNet、 COCO 、 VOC介紹

Docker學習筆記（十二）：Docker Swarm

計算機圖形學學習筆記（十二）：顏色模型，簡單 / 增量光照模型

深度學習之（十一）Deep learning中的優化方法：隨機梯度下降、受限的BFGS、共軛梯度法

多線程學習-基礎（十二）生產者消費者模型：wait(),sleep(),notify()實現

深度學習方法（十二）：卷積神經網路結構變化——Spatial Transformer Networks

背景知識：仿射變換、雙線性插值

Spatial Transformer Networks

參考資料

相關推薦