1. 程式人生 > >深度學習-conv卷積

深度學習-conv卷積

mage www. dep vol 才有 splay 變換 還要 filter

過濾器(卷積核)

傳統的圖像過濾器算子有以下幾種:

  • blur kernel:減少相鄰像素的差異,使圖像變平滑。
  • sobel:顯示相鄰元素在特定方向上的差異。
  • sharpen :強化相鄰像素的差異,使圖片看起來更生動。
  • outline:也稱為edge kernel,相鄰像素相似亮度的像素點設成黑,有較大差異的設為白。

更多可參考 image-kernels 在線演示不同的卷積過濾器。

CNN 卷積層

CNN做的事情不是提前決定好過濾器,而是把過濾器當成參數不斷調整學習,學出合適的過濾器。卷積網絡的第一層執行的通常都是邊緣檢測,後面的層得到的都是更抽象的特征。CNN 卷積層的一個重要特性是權值共享.

權值共享:不同的感受域共享同一權值,因此也稱為filter,能夠大大減少權重的數量(所占的內存),這通常是有效的,因為filter過濾某一特征與具體的空間位置無關.但無獨有偶,人臉圖片通常是中心化的,即人的腦袋比較靠近中間,如此可以看出位置信息是有用的.對於這種情形我們可以取消權值共享機制,此時稱這一層為Locally-Connected Layer.

有時候提到filter的長和寬大小而不提到深度,則深度是輸入數據的整個深度(因此1x1的卷積核也是有意義的).如前一層的輸入是 [16x16x20],感知域大小是3x3,那麽卷積層中每個神經元將有3x3x20 = 180個到前一層的連接.
如果指明了深度,如96,那麽卷積層中每個神經元到前一層有3x3x96個連接,96層連接到同一塊區域,但是權重不相同.(註意有時候還以RGB三通道這三層作為一個整體,因此還要乘上3).

小卷積核

現在流行的網絡結構設計多遵循小卷積核的設計原則, 小卷積核的優勢:
3個3x3的卷積核的累加相當於1個7x7的卷積核,但是參數更少,計算量更小,有更多的非線性層計算.還可以通過加入1x1的"bottleneck"卷積核進一步減少計算(GoogLeNet等大量運用這種方式加深層次).如輸入HxWxC經過下列步驟輸出的維數不變:
\[ \require{AMScd} \begin{CD} H\times W\times C @>{\text{C/2 x Conv1x1}}>> H\times W\times C/2 \@. @V {\text{C/2 x Conv3x3}} VV \H\times W\times C @< \text{C x Conv1x1} << H\times W\times C/2 \end{CD} \]


然而上述步驟中仍然使用了3x3卷積核,可以將其轉成1x3與3x1的連接.

Dilated convolutions.卷積核在輸入上滑動時可以讓步長大到不同的感知域之間有間隙,這個間隙作為超參數(dilation膨脹).其作用相當於減少了一些卷積等層,更快地獲取輸入的空間信息.

卷積實現

卷積有三種主流的計算方式:轉化為矩陣乘,winograd,和FFT。

在現代的 DL 框架中對卷積計算通常采用矩陣乘法的方式,使用im2col操作將輸入數據與權重展開成二維矩陣(使得圖像矩陣和卷積核能夠直接相乘, 轉換的反向操作為col2im),運用 BLAS API進行高效計算,缺點是占用許多內存.這種思想也可以用在pooling操作中.

沒有廣泛使用FFT的原因:
FFT只有在卷積核比較大的時候才有明顯速度優勢。但是CNN的卷積核一般都小於5,所以深度學習中一般不用FFT。FFT卷積沒有廣泛應用的原因是因為通用平臺上有更合適的Winograd卷積的存在,而專用平臺上直接降低運算精度是更合適的方案。不過,現在CNN裏面越來越多的1×1卷積和depthwise卷積被加入,Winograd卷積的價值也越來越小了。1

下邊簡單介紹下快速傅裏葉變換.

卷積定理(convolution theorem) 23

快速傅裏葉變換被稱為20世紀最重要的算法之一, 一個因素就是卷積定理.
傅裏葉變換可以看作是對圖像或者音頻等數據的重新組織,它將時域和空域上的復雜卷積對應到了頻域中的元素間簡單的乘積。
一維連續域上兩個連續函數的卷積:

\[ h(x)=f\bigotimes g=\int_{-\infty}^\infty f(x-u)g(u)du=\mathcal F^{-1}(\sqrt{2\pi}\mathcal F[f]\mathcal F[g]) \]

由卷積定理可以知道,兩個矩陣卷積的結果等價於兩個矩陣經過傅裏葉變換(\(\mathcal F\)),進行元素級別相乘,再經過傅裏葉逆變換(\(\mathcal F^{-1}\)). \(\sqrt{2\pi}\)是一個normalizer.

二維離散域(圖像)上的卷積:

\[ \begin{align} \text{feature map}=&\text{intput}\bigotimes\text{kernel} \=&\sum_{y=0}^M \sum_{x=0}^N \text{intput}(x-a,y-b)\cdot \text{kernel}(x,y) \=&\mathcal F^{-1}(\sqrt{2\pi}\mathcal F[\text{intput}]\mathcal F[\text{kernel}]) \end{align} \]

快速傅裏葉變換是一種將時域和空域中的數據轉換到頻域上去的算法。傅裏葉變換用一些正弦和余弦波的和來表示原函數。必須註意的是,傅裏葉變換一般涉及到復數,也就是說一個實數被變換為一個具有實部和虛部的復數。通常虛部只在一部分領域有用,比如將頻域變換回到時域和空域上.
傅裏葉變換圖示4
技術分享圖片

從傅裏葉變換中可以看出方向信息:
技術分享圖片
Images by Fisher & Koryllos (1998). Source

caffe中的卷積實現

卷積操作示意圖如下,輸入圖片的維數為[c0,h0,w0];卷積核的維數為[c1,c0,hk,wk],其中c0在圖中沒有表示出來,一個卷積核可以看成由c1個維數為[c0,hk,wk]的三維濾波器組成,輸出特征的維數為[c1,h1,w1]
技術分享圖片
轉成二維矩陣乘法的高效計算:
技術分享圖片
更詳細的im2col圖示:
技術分享圖片


  1. https://www.zhihu.com/question/264307400?

  2. http://www.hankcs.com/ml/understanding-the-convolution-in-deep-learning.html?

  3. http://timdettmers.com/2015/03/26/convolution-deep-learning/?

  4. http://commons.wikimedia.org/wiki/File:Fourier_transform_time_and_frequency_domains.gif?

深度學習-conv卷積