1. 程式人生 > >卷積神經網路各層基本知識

卷積神經網路各層基本知識

參考:https://blog.csdn.net/yjl9122/article/details/70198357

卷積神經網路(CNN)由輸入層、卷積層、啟用函式、池化層、全連線層組成,即INPUT(輸入層)-CONV(卷積層)-RELU(啟用函式)-POOL(池化層)-FC(全連線層)

卷積層

用它來進行特徵提取,如下: 


輸入影象是32*32*3,3是它的深度(即R、G、B),卷積層是一個5*5*3的filter(感受野),這裡注意:感受野的深度必須和輸入影象的深度相同。通過一個filter與輸入影象的卷積可以得到一個28*28*1的特徵圖,上圖是用了兩個filter得到了兩個特徵圖;

我們通常會使用多層卷積層來得到更深層次的特徵圖。如下: 


 

關於卷積的過程圖解如下: 


 
輸入影象和filter的對應位置元素相乘再求和,最後再加上b,得到特徵圖。如圖中所示,filter w0的第一層深度和輸入影象的藍色方框中對應元素相乘再求和得到0,其他兩個深度得到2,0,則有0+2+0+1=3即圖中右邊特徵圖的第一個元素3.,卷積過後輸入影象的藍色方框再滑動,stride(步長)=2,如下:

如上圖,完成卷積,得到一個3*3*1的特徵圖;在這裡還要注意一點,即zero pad項,即為影象加上一個邊界,邊界元素均為0.(對原輸入無影響)一般有

F=3 => zero pad with 1 
F=5 => zero pad with 2 
F=7=> zero pad with 3,邊界寬度是一個經驗值,加上zero pad這一項是為了使輸入影象和卷積後的特徵圖具有相同的維度,如:

輸入為5*5*3,filter為3*3*3,在zero pad 為1,則加上zero pad後的輸入影象為7*7*3,則卷積後的特徵圖大小為5*5*1((7-3)/1+1),與輸入影象一樣; 
而關於特徵圖的大小計算方法具體如下: 


這裡寫圖片描述

卷積層還有一個特性就是“權值共享”原則。如下圖: 


如沒有這個原則,則特徵圖由10個32*32*1的特徵圖組成,即每個特徵圖上有1024個神經元,每個神經元對應輸入影象上一塊5*5*3的區域,即一個神經元和輸入影象的這塊區域有75個連線,即75個權值引數,則共有75*1024*10=768000個權值引數,這是非常複雜的,因此卷積神經網路引入“權值”共享原則,即一個特徵圖上每個神經元對應的75個權值引數被每個神經元共享,這樣則只需75*10=750個權值引數,而每個特徵圖的閾值也共享,即需要10個閾值,則總共需要750+10=760個引數。

所謂的權值共享就是說,給一張輸入圖片,用一個filter去掃這張圖,filter裡面的數就叫權重,這張圖每個位置就是被同樣的filter掃的,所以權重是一樣的,也就是共享。

啟用函式

如果輸入變化很小,導致輸出結構發生截然不同的結果,這種情況是我們不希望看到的,為了模擬更細微的變化,輸入和輸出數值不只是0到1,可以是0和1之間的任何數,

啟用函式是用來加入非線性因素的,因為線性模型的表達力不夠 
這句話字面的意思很容易理解,但是在具體處理影象的時候是什麼情況呢?我們知道在神經網路中,對於影象,我們主要採用了卷積的方式來處理,也就是對每個畫素點賦予一個權值,這個操作顯然就是線性的。但是對於我們樣本來說,不一定是線性可分的,為了解決這個問題,我們可以進行線性變化,或者我們引入非線性因素,解決線性模型所不能解決的問題。 
這裡插一句,來比較一下上面的那些啟用函式,因為神經網路的數學基礎是處處可微的,所以選取的啟用函式要能保證資料輸入與輸出也是可微的,運算特徵是不斷進行迴圈計算,所以在每代迴圈過程中,每個神經元的值也是在不斷變化的。 
這就導致了tanh特徵相差明顯時的效果會很好,在迴圈過程中會不斷擴大特徵效果顯示出來,但有是,在特徵相差比較複雜或是相差不是特別大時,需要更細微的分類判斷的時候,sigmoid效果就好了。 
還有一個東西要注意,sigmoid 和 tanh作為啟用函式的話,一定要注意一定要對 input 進行歸一話,否則啟用後的值都會進入平坦區,使隱層的輸出全部趨同,但是 ReLU 並不需要輸入歸一化來防止它們達到飽和。

構建稀疏矩陣,也就是稀疏性,這個特性可以去除資料中的冗餘,最大可能保留資料的特徵,也就是大多數為0的稀疏矩陣來表示。其實這個特性主要是對於Relu,它就是取的max(0,x),因為神經網路是不斷反覆計算,實際上變成了它在嘗試不斷試探如何用一個大多數為0的矩陣來嘗試表達資料特徵,結果因為稀疏特性的存在,反而這種方法變得運算得又快效果又好了。所以我們可以看到目前大部分的卷積神經網路中,基本上都是採用了ReLU 函式。

常用的啟用函式 
啟用函式應該具有的性質: 
(1)非線性。線性啟用層對於深層神經網路沒有作用,因為其作用以後仍然是輸入的各種線性變換。。 
(2)連續可微。梯度下降法的要求。 
(3)範圍最好不飽和,當有飽和的區間段時,若系統優化進入到該段,梯度近似為0,網路的學習就會停止。 
(4)單調性,當啟用函式是單調時,單層神經網路的誤差函式是凸的,好優化。 
(5)在原點處近似線性,這樣當權值初始化為接近0的隨機值時,網路可以學習的較快,不用可以調節網路的初始值。 
目前常用的啟用函式都只擁有上述性質的部分,沒有一個擁有全部的~~

  • Sigmoid函式 


    目前已被淘汰 
    缺點: 
    ∙ 飽和時梯度值非常小。由於BP演算法反向傳播的時候後層的梯度是以乘性方式傳遞到前層,因此當層數比較多的時候,傳到前層的梯度就會非常小,網路權值得不到有效的更新,即梯度耗散。如果該層的權值初始化使得f(x) 處於飽和狀態時,網路基本上權值無法更新。 
    ∙ 輸出值不是以0為中心值。

  • Tanh函式 


    這裡寫圖片描述

    其中σ(x) 為sigmoid函式,仍然具有飽和的問題。

  • ReLU函式 


    這裡寫圖片描述

    Alex在2012年提出的一種新的啟用函式。該函式的提出很大程度的解決了BP演算法在優化深層神經網路時的梯度耗散問題 

    優點: 
    ∙ x>0 時,梯度恆為1,無梯度耗散問題,收斂快; 
    ∙ 增大了網路的稀疏性。當x<0 時,該層的輸出為0,訓練完成後為0的神經元越多,稀疏性越大,提取出來的特徵就約具有代表性,泛化能力越強。即得到同樣的效果,真正起作用的神經元越少,網路的泛化效能越好 
    ∙ 運算量很小; 
    缺點: 
    如果後層的某一個梯度特別大,導致W更新以後變得特別大,導致該層的輸入<0,輸出為0,這時該層就會‘die’,沒有更新。當學習率比較大時可能會有40%的神經元都會在訓練開始就‘die’,因此需要對學習率進行一個好的設定。 
    由優缺點可知max(0,x) 函式為一個雙刃劍,既可以形成網路的稀疏性,也可能造成有很多永遠處於‘die’的神經元,需要tradeoff。

  • Leaky ReLU函式 


    這裡寫圖片描述 
    改善了ReLU的死亡特性,但是也同時損失了一部分稀疏性,且增加了一個超引數,目前來說其好處不太明確
  • Maxout函式 


    這裡寫圖片描述

泛化了ReLU和Leaky ReLU,改善了死亡特性,但是同樣損失了部分稀疏性,每個非線性函式增加了兩倍的引數

真實使用的時候最常用的還是ReLU函式,注意學習率的設定以及死亡節點所佔的比例即可

池化層

對輸入的特徵圖進行壓縮,一方面使特徵圖變小,簡化網路計算複雜度;一方面進行特徵壓縮,提取主要特徵,如下: 


這裡寫圖片描述

池化操作一般有兩種,一種是Avy Pooling,一種是max Pooling,如下: 


這裡寫圖片描述

同樣地採用一個2*2的filter,max pooling是在每一個區域中尋找最大值,這裡的stride=2,最終在原特徵圖中提取主要特徵得到右圖。 
(Avy pooling現在不怎麼用了,方法是對每一個2*2的區域元素求和,再除以4,得到主要特徵),而一般的filter取2*2,最大取3*3,stride取2,壓縮為原來的1/4. 
注意:這裡的pooling操作是特徵圖縮小,有可能影響網路的準確度,因此可以通過增加特徵圖的深度來彌補(這裡的深度變為原來的2倍)。 


在卷積神經網路中,我們經常會碰到池化操作,而池化層往往在卷積層後面,通過池化來降低卷積層輸出的特徵向量,同時改善結果(不易出現過擬合)。

為什麼可以通過降低維度呢? 
因為影象具有一種“靜態性”的屬性,這也就意味著在一個影象區域有用的特徵極有可能在另一個區域同樣適用。因此,為了描述大的影象,一個很自然的想法就是對不同位置的特徵進行聚合統計,例如,人們可以計算影象一個區域上的某個特定特徵的平均值 (或最大值)來代表這個區域的特徵。

  • 一般池化(General Pooling)

    池化作用於影象中不重合的區域(這與卷積操作不同),過程如下圖。

    我們定義池化視窗的大小為sizeX,即下圖中紅色正方形的邊長,定義兩個相鄰池化視窗的水平位移/豎直位移為stride。一般池化由於每一池化視窗都是不重複的,所以sizeX=stride。 


    這裡寫圖片描述

    最常見的池化操作為平均池化mean pooling和最大池化max pooling: 
    平均池化:計算影象區域的平均值作為該區域池化後的值。 
    最大池化:選影象區域的最大值作為該區域池化後的值。

  • 重疊池化(OverlappingPooling 
    重疊池化正如其名字所說的,相鄰池化視窗之間會有重疊區域,此時sizeX>stride。 
    論文中Krizhevsky, I. Sutskever, andG. Hinton, “Imagenet classification with deep convolutional neural networks,”in NIPS,2012.中,作者使用了重疊池化,其他的設定都不變的情況下, top-1和top-5 的錯誤率分別減少了0.4% 和0.3%。

  • 空金字塔池化(Spatial Pyramid Pooling) 
    空間金字塔池化可以把任何尺度的影象的卷積特徵轉化成相同維度,這不僅可以讓CNN處理任意尺度的影象,還能避免cropping和warping操作,導致一些資訊的丟失,具有非常重要的意義。 
    一般的CNN都需要輸入影象的大小是固定的,這是因為全連線層的輸入需要固定輸入維度,但在卷積操作是沒有對影象尺度有限制,所有作者提出了空間金字塔池化,先讓影象進行卷積操作,然後轉化成維度相同的特徵輸入到全連線層,這個可以把CNN擴充套件到任意大小的影象 
    這裡寫圖片描述

    空間金字塔池化的思想來自於Spatial Pyramid Model,它一個pooling變成了多個scale的pooling。用不同大小池化視窗作用於卷積特徵,我們可以得到1X1,2X2,4X4的池化結果,由於conv5中共有256個過濾器,所以得到1個256維的特徵,4個256個特徵,以及16個256維的特徵,然後把這21個256維特徵連結起來輸入全連線層,通過這種方式把不同大小的影象轉化成相同維度的特徵。 


    這裡寫圖片描述 
    對於不同的影象要得到相同大小的pooling結果,就需要根據影象的大小動態的計算池化視窗的大小和步長。假設conv5輸出的大小為a*a,需要得到n*n大小的池化結果,可以讓視窗大小sizeX為,步長為 。下圖以conv5輸出的大小為13*13為例。

全連線層

連線所有的特徵,將輸出值送給分類器(如softmax分類器)。

總的一個結構大致如下: 
這裡寫圖片描述