1. 程式人生 > >非監督特徵學習與深度學習(九)----使用卷積進行特徵提取

非監督特徵學習與深度學習(九)----使用卷積進行特徵提取

使用卷積進行特徵提取(Feature Extraction Using Convolution)

概覽(Overview)

在之前的練習中的圖片解析度都偏低,如手寫數字影象。在本節中將會學到一種方法,能夠用在實際中更大的影象資料集上。

全連線網路(Fully Connected Networks)

在稀疏編碼器(譯者注:後文會講到,這部分是老版的教程,所以內容跳躍了)中,一種設計選擇是先前已經講到的“全連線”,即所有的隱含層單元與所有輸入單元完全連線起來。在先前練習中使用的是相對較小的影象(例如,在稀疏編碼的任務中 8×8 畫素大小的影象,以及 MNIST 資料集中 28

×28 畫素大小的影象),這種“全連線”方式的特徵學習,雖然在整個影象上的計算是可行的。然而,對於更大影象,如 96×96 畫素大小的影象的學習來說,由於連線是全連線的形式來做特徵學習,計算代價是很大的——網路大概會有 104 數量級的輸入單元,假設要學習 100 個特徵(譯者注:即下一層有 100 隱含層單元,該過程是在學習一種基於原始資料的壓縮特徵表達),那就會有 106 數量級(譯者注:輸入層 104 個輸入單元與第一個隱含層的 100 個隱含單元全連線需要 106 個引數)的引數需要學習。相較於 28×28 畫素大小的影象(譯者注:假設隱含層也是 100 個神經元,僅輸入層到第一個隱含層需要的引數就有 28×
28×100=78400
個,即需要的引數的量級為 104 ),在前向和反向傳播的計算上大影象比小影象也會慢大約 102 倍(譯者注:單純從二者相差的引數量級上的比較)。

區域性連線網路(Locally Connected Networks)

該問題的一種簡單解決方案是限制隱含單元與輸入單元的連線數目,也就是說,隱含單元只允許連線一部分的輸入單元(譯者注:即隱藏層的神經元與原圖中的一個小圖建立連線權重)。具體而言,每個隱藏單元將連線到輸入畫素中的一個小的連續區域。(對於不同於影象的資料形式,也有一種自然的方式來選擇從輸入單元到一個隱含單元需要處理的“連續組”,例如,對於音訊,一個隱藏單元可能被連線到一個與之特定時間跨度對應的音訊剪輯的輸入單元上。)

區域性連線網路的這一想法也借鑑了在生物學上早期視覺系統的觀點。具體而言,視覺皮層的神經元有著區域性感受區域(即,它們只會對某一位置的刺激做出反應)。

卷積(Convolutions)

自然世界中的影象有著“固定不變”的屬性(譯者注:或稱為“靜態性”),這也意味這影象的某一部分的資料和另一部分的資料是一樣的。這表明,在一張影象上某部分的特徵也可應用到該圖片的其它部分,基於這一觀點——網路可以使用不同的特徵,應用到區域性資料一樣但不同的位置上。

更確切地說,從一張高解析度影象上隨機地抽樣小圖片(比方說 8×8 大小的圖片)做特徵學習,將這個完成學習的 8×8 大小的特徵檢測器(譯者注:學習 8×8 特徵濾波器的權重)應用到這幅圖片的其它任何地方。可以把學到的 8×8 特徵(譯者注:濾波器),通過將它們與更大圖片“卷”起來的方式,在同一張圖片上獲得在每個位置處不同的特徵啟用值。

講個具體的例子,假設您已經從 96×96 大小的圖片上做了 8×8 大小的抽樣的特徵學習。再進一步假設,這一特徵學習過程是通過有著 100 個隱含單元的自動編碼器完成的。為了獲得卷積特徵(即 96×96 大小的圖片上每 8×8 大小範圍的特徵,這個 8×8 區域是從 (1,1),(2,2),...(89,89) ),您將會從原圖提取 8×8 大小的小圖片,通過您訓練的稀疏自動編碼器來獲取特徵啟用。這將會產生 100 組(譯者注:對應這一卷積層的 100 個神經元或者稱為濾波器)的 89×89 大小的卷積特徵。

正式地說,給定解析度大小為 r×c 的影象 xlarge ,首先對這些影象進行抽樣,抽樣出大小為 a×b 的小影象 xsmall ,利用這些小影象通過稀疏自動編碼器來進行 k 個特徵的學習(譯者注:這裡特徵的學習,即濾波器或神經元權重的學習。 k 是卷積層神經元或濾波器的數目,也是該卷積層輸出的通道數),這個學習過程是通過給出的從可見單元(譯者注:原文中是visibleunits,推測是輸入單元,一般來說可見單元既包括輸入單元也包括輸出單元)到隱含單元的權重 W(1) 和偏置 b(1),計算 f=σ(W(1)xsmall+b(1)) (其中, σ 是 S 型函式)。對從大影象抽樣出的每個大小為 a×b 的小影象 xs ,計算該小影象的 fs=σ(W(1)xs+b(1)) (譯者注:其中, l=1,...,k ),將這一張大圖上的小圖計算完,得出這張大影象的 fconvolved,這個卷積特徵是一個規模為 k×(ra+1)×(cb+1) 的三維張量。

下一節中,將進一步介紹如何將這些特徵“池化”到一起,以獲得用於分類的更好特徵。