1. 程式人生 > >DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition閱讀報告(2)

DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition閱讀報告(2)

4、實驗

本文采用的深度卷積神經網路的原型是(Krizhevsky et al 2012)。利用這個網路訓練得到多種特徵,然後在多個視覺任務上進行測試。本節討論的”向前路徑“計演算法在ILSVRC-2010取得了很好的效果。問題是:利用CNN提取的特徵是否可以應用到其他資料集上?CNN的效能是如何隨著網路的深度變化的?本文定性和定量的說明了這兩個問題,通過視覺化語義簇,實驗對比和“基準”方法的差別。

本節展示了CAFFE在一些基準資料集上的實驗結果,對比了不同的特徵提取法和分類法。試驗中,CNN網路的第n層啟用值,表示成 。 表示最後一個隱層提取的特徵(即在最後一個輸出分類結果的全連線層之前), 是 前面的啟用層, 是 前面的啟用層。 是穿過卷積網路的第一個啟用層。本文沒有評價網路中更低階的層了,因為這些卷積層和高階層相比,沒有豐富的語義表示。隱層的啟用值就是特徵,卷積層之間共享權重。

4.1對CAFFE的測試實驗

本文采用的CNN基本的架構來自於(Krizhevsky et al 2012),Krizhevsky贏得了ILSVRC2012的冠軍,它的錯誤率是40.7%。選擇這個架構是因為它在複雜多分類任務上的效能不錯,並且假設每一個神經元的激勵是一個很強的特徵。網路輸入時RGB的平均值,然後向前傳播,穿過5個卷積層(包括對應的pooling層和RuLU非線性單元),3個全連線層,然後得到了最後一層的神經元激勵(輸出),即1000個類的分佈。本文模型的一個例項得到錯誤率是42.9%,比2012年paper的40.7%差。

本文引用2012年的paper,詳細討論了網路結構和訓練規則,以下是兩個小的差異:首先,本文忽略了影象原始比例,把它伸縮到256X256,而不是剪裁。然後,本文沒有增加資料集的每個畫素點的RGB的主成分(的倍數),而是捕獲亮度和顏色變化中的不變數。

decaf_reading2_image_4

圖 1. 利用t-SNE特徵在LISVRC-2012驗證集上視覺化。(a)是LLC特徵,(b)是GIST特徵,(c)是CNN的 層特徵,(d)是 層特徵

decaf_reading2_image_5

圖 2. 把在ILSVRC-2012上學習到的模型遷移到資料集SUN-397上,不同的顏色表示不同的語義。

4.2特徵的推廣和視覺化

本文可視化了模型特徵,來顯示CAFFE的語義,也可視化了其他在cv應用廣泛的特徵。特別的,本文對比了GIST特徵(Oliva&Torralba, 2011)和LLC特徵(Wang et al., 2010)。視覺化的演算法是tSNE方法(van der Maaten&Hinton, 2008),把高維的特徵空間投影到2維的嵌入空間中。不同的顏色代表不同的語義類別。一個強的特徵,可以把”室內“和“室外”區分開。

圖1顯示了第一個pooling層的特徵和最後一層的特徵。可以發現,後面的層的特徵更加的聚集和易區分。LLC特徵和GIST特徵是重疊的,不能分離的。

圖2是SUN-397資料集的CAFFE-7的特徵對映圖。“室內”和“室外”就很好的區分開來。顯示出了語義類別的很好的聚集。在特徵聚集的中間部分的點,可能暗示了其他有意思的類別。

4.3時間分析

CNN的運算需要很長時間。本文把CAFFE的框架的計算時間進行分解對比。

圖3a列出每一層計算時間,並標出了最耗時的層。本文發現卷積和全連線層耗時最大,因為涉及了大規模的矩陣乘法。圖3b是按照層的類別(如卷積層,全連線層等)劃分,計算出消耗時間。發現全連線層耗時最大,因為涉及大量變換矩陣。所以,當考慮對類別數很多的資料集分類時,可以使用一些“稀疏方法”,如Bayesian輸出編碼(Hsu et al., 2009)。

decaf_reading2_image_6

圖 3. (a)表示計算單個輸入影象的時候,每一層所花費的時間。(b)表示不同類別層的花費時間,fc=fully connected layers,conv=convolution layers,pool=pooling layers,neuron=neuron layers,比如ReLU,sigmoid或dropout。

4.4目標識別

為了分析深度特徵在低水平目標類別的能力,在Caltech-101資料集(Fei-Fei et al., 2004)上進行試驗。利用“dropout”正則化技術(Hilton et al., 2012),在 和 評價分類器效能。把節點一半進行隨機的置零,並在測試階段把機或者乘以0.5。

實驗中,每一類隨機選擇30個樣本,在剩餘樣本中進行測試,交叉驗證比是25/5。圖4是averaged mean error。

可以發現最好的方法是  with Dropout方法,測試集準確率是86.9%。 的特徵效能明顯低於 和 的效能,所以實驗的時候就沒有再考慮更低層的特徵了。Dropout正則化方法比沒有正則化的方法,效能提高2%左右,SVM方法和logistic方法效能相近。

本文把CAFFE效能和該資料集上最好的方法(Yang et al., 2009)對比,Yang的方法把5個影象特徵結合起來,基於多核的分類器。本文效能比Yang的方法高出2.6%。也比Jarrett et al(2009)的2個卷積層的方法高出20%。證明了深度網路在特徵提取的重要性。

decaf_reading2_image_7

圖 4. 左表表示2個分類器,在3個隱層的訓練效果。資料集Caltech-101上每一類選取30個圖片作為訓練樣本。右圖表示平均準確率根據訓練樣本數的變化情況。

4.5區域適應

本節測試CAFFE在區域適應任務上的效能。資料集是office dataset(Saenko et al., 2010)。資料集包含三部分:amazon(來自amazon.com的產品影象),webcam和Dslr(辦公環境影象,分別用網路攝像和單反拍攝)。

對於這個資料集,之前的工作大多用的是SURF方法(Bay et al., 2006)進行特徵提取。本文依然用t-SNE演算法把SURF和CAFFE特徵投影到2維空間。圖5顯示的是webcam和Dslr兩個子資料集的特徵投影。可以發現,CAFFE的類別聚集更好,並且能聚集不同區域的統一類別物體。表明了CAFFE移除了區域偏差。

decaf_reading2_image_8

圖 5. 分別把webcam(green)資料集和dslr(blue)資料集利用SURF特徵和 特徵視覺化。

下面在office資料集上進行定性實驗,驗證結論。表1是展示了多類別平均準確率,表示區域轉換Dslr-Webcam,Amazon-Webcam。實驗引數配置參考Saenko et al(2010)。把SURF特徵和DeCAF6和DeCAF7特徵進行對比,求出每一個方法的多類別平均準確率,分類器是SVM和LogRe,用3個方式訓練:只用源資料(S);只用目標資料(T);源資料和目標資料都用(ST)。表中還顯示了3個自適應方法。

decaf_reading2_table_1

4.6子類識別

本節測試CAFFE在子類識別上的效能。使用的資料集是Caltech-UCSD鳥類資料集(Welinder et al., 2010)。這裡採用了兩種方法,分別介紹如下。

方法1:把 影象剪裁成bounding box的1.5倍長寬,resize成 大小,在CNN網路裡,用 的特徵進行logistic迴歸分類。

方法2:應用deformable part descriptors(DPD,Zhang et al., 2013)和deformable part model(Felzenszwalb et al., 2010),把CAFFE應用在與訓練的DPM模型中。

表2是本文的方法和文獻的方法效能對比。CAFFE和LogReg組合,比現有方法效能更好,表明這些特徵,儘管不是專門設計用來解決子分類問題,但是可以很好的表示資訊。此外,如果加入結構資訊(如部分位置),使得效能提升,達到64.96%。超過了DPD方法和POOF方法(Bo et al., 2010)。

本文注意到:由於本文分析的是如何把DeCAF推廣到不同的任務,所以就沒有討論微調(fine tune)的問題。為了獲得最佳結果,可以執行full bp。然而,本節說明了,沒有微調也可以有不錯的效能提升,表明CAFFE也許是一個現成的視覺表現方式,不需要大量的計算。

decaf_reading2_table_2_3

4.7場景識別

本節測試CAFFE在SUN-397大規模場景識別資料集上的效能。目標識別的目的是確定和分類影象中的物件,而場景識別的任務是分類整個影象。SUN-397資料集中,有397個語義場景類別,如教堂、小餐館、清真寺和體育館。

基於  with dropout和  with dropout,本文在SUN-397上訓練線性分類器,如表3。

5、總結

本文研究的是把一個大規模資料集學習到的模型,遷移到其他資料集上進行預測。主要用來解決某些資料集的有標籤資料少的問題。這得益於imagenet資料集的發明。在imagenet上學習到的特徵有較強的表達能力,此階段叫做pre-training。模型遷移之後,進行fine-tuning,即使用bp演算法對特定的資料集進行調優。通過實驗證明深度卷積網路具有以下特徵:

1、可以逐層提取影象的特徵,語義從低到高。不需要人工的設計特徵。

2、泛化能力較強。可以適用於目標識別、場景識別和區域適應等。

3、魯棒性強。對影象的扭曲、偏移、縮放等完全適應。

本文另一個貢獻是開發出了開源的深度學習軟體包CAFFE,基於GPU,效能比純CPU的程式碼提高十倍以上。

6、參考文獻

Jake Bouvrie. Notes on Convolutional Neural Networks, 2006

Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng and Trevor Dareell. DeCAF: A Deep Convolutional Activation Fearture for Generic Visual Recognition. In ICML, 2014

Krizhevsky, A., Sutskever, I., and Hinton, G. E. ImageNet classification with deep convolutional neural networks. In NIPS, 2012.

LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. Gradient-based learning applied to document recognition. In IEEE, 1998