1. 程式人生 > >Visualizing and Understanding Convolutional Networks筆記

Visualizing and Understanding Convolutional Networks筆記

Contents

本文為20141024週報。

在所有深度網路中,卷積神經網和影象處理最為密切相關,卷積網路在很多圖片分類競賽中都取得了很好的效果,但卷積網調參過程很不直觀,很多時候都是碰運氣。為此,卷積網路發明者Yann LeCun的得意門生Matthew Zeiler在2013年專門寫了一篇論文,闡述瞭如何用反捲積網路視覺化整個卷積網路,並進行分析和調優。

在所有深度網路中,卷積神經網和影象處理最為密切相關,卷積網路在很多圖片分類競賽中都取得了很好的效果,但卷積網調參過程很不直觀,很多時候都是碰運氣。為此,卷積網路發明者Yann LeCun的得意門生Matthew Zeiler在2013年專門寫了一篇論文,闡述瞭如何用反捲積網路視覺化整個卷積網路,並進行分析和調優。

反捲積

文章所用結構與12年Krizhevsky et al的結構相同,如圖1。卷積之後利用啟用函式進行矯正,再利用Max-pooling進行降取樣,最後通過幾層全連線層進行分類,最終得到結果。

QQ截圖20140911124920圖1

與之不同的是:1.由於在單塊GPU執行,所以將之前3.4.5層的稀疏連線變成稠密連線;2.改變了卷積核大小和步長(根據視覺化的結果)。

通過反捲積Deconvnet實現視覺化:

在每個卷積層都加上了一個反捲積層。在卷積、ReLU、Max-pooling之後,不僅輸出給下一層用作輸入,也為反捲積提供輸入。而反捲積層依次進行unpooling、ReLU和反捲積。見圖2。

Unpooling:在max-pooling中利用switches

表格記錄每個最大值的位置,然後在unpooling中獎該位置填回最大數值,其餘位置填0。

ReLU:直接利用ReLU函式,仍然確保輸出為非負數。

反捲積:利用相同卷積核的轉置作為核,與輸入做卷積運算。

訓練過程跟以前一樣,仍然是從256*256中擷取中心和邊框五,224*224切片再進行中心翻轉,batchsize128,學習率0.01,採用dropout策略。所有權值初始0.01,偏置為0。

圖片2圖2

在進行試驗過程中,發現:

1.層數越高,所提取的特徵越抽象,如圖3。層2展示了物體的邊緣和輪廓,顏色等,層3展示了紋理,層4層5開始體現類與類的差異。

Unnamed QQ Screenshot20141010184533Unnamed QQ Screenshot20141010184543圖3

2.經過一定次數的迭代之後,底層特徵趨於穩定,但更高層特徵要更多次迭代才能收斂,如圖4。

Unnamed QQ Screenshot20141010185116圖4

圖示分別是迭代1.2.5.10.20.30.40.64次迭代之後的結果。

3.特徵不變性,如圖5。層數越低,很小的變化都能導致輸出特徵的變化,但層數越高,影響的結果較小。在最終的正確概率中,略微的位移和縮放都不會改變正確率,但卷積網路無法對旋轉產生良好的魯棒性(如果有良好的對稱性,則正確率會產生頻率一定的波動)。

QQ截圖20141016133257圖5

列1表示影象變化(垂直移動、縮放和旋轉),列2表示層1中原始影象特徵向量與改變後特徵向量的歐氏距離,列3為層7中的歐氏距離,列4是最後分類器輸出正確的概率。

結構選取

第一層卷積核從11*11調整為7*7,步幅大小從4調整為2,優化了最後的結果。

遮擋敏感性

研究圖片內部哪個區域產生的作用最大,所以進行了遮擋實驗。

QQ截圖20141016140004圖6

列1表示影象被隨機遮擋,列2表示第五層特徵圖最強輸出,列3帶黑框為被遮擋後特徵向量投影到畫素空間,列4為被遮擋後分類的正確率,列5為被遮擋後最可能的分類。

列1表示影象被隨機遮擋,列2表示第五層特徵圖最強輸出,列3帶黑框為被遮擋後特徵向量投影到畫素空間,列4為被遮擋後分類的正確率,列5為被遮擋後最可能的分類。

圖片內特徵相關性分析

對圖片內某些特徵進行遮擋,如圖7。

QQ截圖20141016220541圖7

對圖片內某些特徵進行遮擋,如圖7。

然後計算遮擋前與遮擋後的差值:QQ截圖20141017103136

l是層號,QQ截圖20141017113016表示在l層中,圖i在進行遮擋前與遮擋後的差值。通過Δ來計算特徵的相關性。QQ截圖20141017101207

Sign為符號函式,H為漢明距離,如果Δ值越小,則該操作所遮擋的影象特徵和影象其他特徵的相關性越高。最後得出結果如表1。

QQ截圖20141017103806表1

與隨機進行遮擋相比,遮擋眼睛和鼻子所得到的Δ值較小,證明眼睛和鼻子與圖片內部其他特徵存在相關性。特別的,與層5相比,在層7中的Δ值普遍不大,證明在高層中,已經不關注影象的部件級特徵,而更關注品類等高階資訊。

實驗

QQ截圖20141017122721表2

在通過復現了網路(表中(a))之後,通過改變卷積核大小、步幅和特徵圖大小(第一層卷積核從11*11調整為7*7,步幅大小從4調整為2,最終達到了14.8%的Top-5準確率,比當時公開的資料都要精確,且只用了12年的dataset。

QQ截圖20141017130906表3

表3刪除了一些層和引數來驗證不同的層和引數會對結果造成什麼影響,在每個刪除後都會進行重新訓練。最終發現刪除6、7層全連線層,錯誤率只有輕微提升,刪掉兩層卷積層錯誤率也沒有明顯提升,但刪除這四層之後,錯誤率急劇提升,這可能表明總體深度對模型很重要。擴大全連線層基本無效,擴大卷積層有一點提升,但擴大他們會導致過擬合。

特徵泛化能力

在不改變模型1~7層訓練結果,只訓練softmax層的情況下,又進行了Caltch-101、Caltch-256、PASCAL VOC 2012三個庫的測試。還應用到了其他分類器。

Caltch-101庫:如表4。重新訓練的準確率並不高,但經過ImageNet資料訓練後的網路比歷史最好成績還要好2.2%。

QQ截圖20141017142802表4

Caltch-256庫:如表5。重新訓練的準確率並不高,但經過ImageNet資料訓練後的網路比歷史最好成績還要好19%。

QQ截圖20141017142817表5

Caltch-256庫:如表6。重新訓練的準確率並不高,但經過ImageNet資料訓練後的網路比歷史最好成績還要好19%。

QQ截圖20141017142839表6

結論和感謝省略……

想法

1.在擴充訓練集的時候,調整影象角度是關鍵,不需要過多的將影象切割成多片進行訓練(如將影象切成左上、右上、左下、右下、中五片這種形式);

2.仔細考慮每個層對其他層的影響,可適當精簡層,特別是全連線層;

3.可先進行其他資料集的預訓練。

相關連結:http://www.360doc.com/content/16/0329/18/1317564_546327648.shtml

相關推薦

Visualizing and Understanding Convolutional Networks筆記

Contents 本文為20141024週報。 在所有深度網路中,卷積神經網和影象處理最為密切相關,卷積網路在很多圖片分類競賽中都取得了很好的效果,但卷積網調參過程很不直觀,很多時候都是碰運氣。為此,卷積網路發明者Yann LeCun的得意門生Matthew Ze

Visualizing and Understanding Convolutional Networks 閱讀筆記-網路視覺化NO.1

Visualizing and Understanding Convolutional Networks 閱讀筆記 綜述:此篇paper是CNN視覺化的開山之作(由Lecun得意門生Matthew Zeiler發表於2013年),主要解決了兩個問題  1)

Visualizing and Understanding Convolutional Networks翻譯總結

Zfnet 論文:《Visualizing and Understanding Convolutional Networks》 1.     概述 這篇論文主要的貢獻是將卷及神經網路的隱藏層的特徵進行視覺化,後面通過視覺化的展示來分析如何構建更好的網路結構。最後還描述了該網

【CV+DL學習路02】CNN視覺化學習2——Visualizing and Understanding Convolutional Networks

第二篇論文記錄,對於第一次搜尋文獻的本小白和為圖偷懶第一篇論文直接看的翻譯的本童鞋來說,真的是。。。。做科研不能偷懶,不然後面是真有點麻煩,在經過了三天的谷歌加百度加CSDN下載了10多篇文章不知道先看那一篇之後,我終於確定了要看的第二篇和第三篇論文。。。。也是無語了這篇論文

CNN入門必讀經典:Visualizing and Understanding Convolutional Networks

本文主要是藉助deconvnet來視覺化卷積網路,這對於理解卷積網路還是非常重要的,同時本文又是13年ImageNet分類任務的冠軍。 程式碼: https://github.com/guruucsd/CNN_visualization 1 Decon

Visualizing and Understanding convolutional networks

Large convolutional networks model on ImageNet  (Krizhevsky, A., Sutskever, I. and Hinton, G. E. ImageNet Classification with Deep Convo

深度學習論文翻譯解析(十):Visualizing and Understanding Convolutional Networks

論文標題:Visualizing and Understanding Convolutional Networks   標題翻譯:視覺化和理解卷積網路 論文作者:Matthew D. Zeiler  Rob Fergus 論文地址:https://arxiv.org/pdf/1311.2901v3.

Protein Secondary Structure Prediction Using Cascaded Convolutional and Recurrent Neural Networks筆記

利用級聯卷積和遞迴神經網路預測蛋白質二級結構  Abstract        蛋白質二級結構預測是生物資訊學中的一個重要問題。受近期深度神經網路成功的啟發,在本文中,我們提出了一種端到端深度網路,可以從整合的區域性和全域性上下文特徵預測蛋白質二級結構。我們的深層架構

Visualizing and Understanding ConvNet---CNN可視化理解

卷積 ati 分享 adding 分享圖片 deep -c pool learn 1. 感受野的定義(receptive field) ? ? ? ?此處拋出感受野(receptive field)的定義和理解: ? ? ? ?感受野其實就是卷積神經網絡每一層輸出的特征圖

A Beginner's Guide To Understanding Convolutional Neural Networks Part One 筆記

不同 there level cto all guid line feature 函數 原文鏈接:https://adeshpande3.github.io/adeshpande3.github.io/A-Beginner‘s-Guide-To-Understanding-

Region-based Convolutional Networks for Accurate Object Detection and Segmentation----R-CNN論文筆記

一、為什麼提出R-CNN 目標檢測效能停滯不前,效能最好的整合方法又太複雜,所以作者提出了一個既能大幅提升效能,又更簡單的R-CNN。 二、R-CNN的框架 上面的框架圖清晰的給出了R-CNN的目標檢測流程: 1) 輸入測試影象 2) 利用s

【論文筆記】Region-based Convolutional Networks for Accurate Object Detection and Segmentation

《Region-based Convolutional Networks for Accurate Object Detection and Segmentation》是將卷積神經網路應用於物體檢測的一篇經典文章。 整個識別過程可以用下面的一張圖片來清晰的表示: 首先給定一

Neural Networks and Deep Learning學習筆記ch1 - 神經網絡

1.4 true ole 輸出 使用 .org ptr easy isp 近期開始看一些深度學習的資料。想學習一下深度學習的基礎知識。找到了一個比較好的tutorial,Neural Networks and Deep Learning,認真看完了之後覺

Understanding Convolutional Neural Networks for NLP

n) rnn eas published previous depend tput parameter www. When we hear about Convolutional Neural Network (CNNs), we typically think of Co

FCN筆記(Fully Convolutional Networks for Semantic Segmentation)

width height training 註意 die str 指標 his repl FCN筆記(Fully Convolutional Networks for Semantic Segmentation) (1)FCN做的主要操作 (a)將之前分類網絡的全連接

【OverFeat】《OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks

ICLR-2014 全稱為「International Conference on Learning Representations」(國際學習表徵會議),由位列深度學習三大巨頭之二的 Yoshua Bengio 和 Yann LeCun 牽頭創辦。詳細介紹可

[論文理解]Region-Based Convolutional Networks for Accurate Object Detection and Segmentation

Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括 這是一篇2016年的目標檢測的文章,也是一篇比較經典的目標檢測的文章。作者介紹到,現在表現最好的方法非常的複雜,而本文的方法,簡單又容

論文閱讀筆記二十四:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition(SPPNet CVPR2014)

分享圖片 介紹 bin con strong map com 提高 https 論文源址:https://arxiv.org/abs/1406.4729 tensorflow相關代碼:https://github.com/peace195/sppnet 摘要

《Deformable Convolutional Networks》論文簡單理解筆記

作者:起名什麼的最煩啦 連結:https://zhuanlan.zhihu.com/p/27965213 來源:知乎 著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。   CNN由於固定的幾何結構,導致對幾何形變的建模受到限制。為了解決或減輕這個問題,這篇論文的工作

VGG學習筆記-Very Deep Convolutional Networks for Large-Scale Image Recognition

主要是針對論文,進行了自我解讀,抽絲而成,請大家多多指教。              摘要        在這項工作中,主要研究卷積網路Convolutional networks (ConvNets)深度在大規模的影象識別環境下對準確性的影響。主要貢獻是使用非常小的