Grad-CAM:Visual Explanations from Deep Networks via Gradient-based L閱讀筆記-網路視覺化NO.3

阿新 • • 發佈：2019-01-23

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization 閱讀筆記

這是網路視覺化的第三篇，其餘兩篇分別是：

①《Visualizing and Understanding Convolutional Networks》閱讀筆記-網路視覺化NO.1
②《Learning Deep Features for Discriminative Localization》閱讀筆記-網路視覺化NO.2
歡迎大家批評指正，留下寶貴意見

綜述：
　1）paper中華提出了一種新的視覺化CNN的方法-Gradient-weighted Class Activation Mapping (Grad-CAM)，可以說是CAM的升級版
　2）Grad-CAM可適用於任何網路結構，省去了修改網路結構並訓練的煩惱，一定程度上是對CAM的泛化
　3）使用此種結構，可以應用到以下幾個問題中：
　3.1）之前的CAM必須對包含多層的FC進行修改(使用GAP進行替換)，而Grad-CAM則不必修改網路，從而避免了一些麻煩
　3.2）可用於結構化輸出，such as captioning(這一塊還不是很瞭解)
　3.3）可用於視覺問題解答或者增強學習中
　4）有關CAM的介紹，可以參閱

《Learning Deep Features for Discriminative Localization》這篇論文的閱讀筆記
對於網路視覺化，我們可以採用兩種方式：
　1）deconvnet(反捲積)
　2）guided-backpropagation(導向反向傳播)
　這兩種方式在一定程度上幫助我們理解在CNN中
　反向傳播(backpropagation)/反捲積(deconvnet)/導向反向傳播(guided-backpropagation)這三者究竟有什麼區別？？？
　　反捲積和導向反向傳播的基礎是反向傳播，就是對梯度進行求導，然後更新我們的引數，就是學習的過程，具體見paper

，論文中有一張圖十分清楚的對比了正向傳播/反向傳播/反捲積/導向反向傳播，4者不同之處主要體現在經過ReLU時對梯度的選擇性，見下圖：
　　
　　注：圖中粗略解釋了幾者的區別，雖說區別並不大，只是經過ReLU時對梯度的取捨方式不同，但這微小的改變卻使得視覺化的效果大有不同
paper中舉了一個小demo，使用Grad-CAM的效果如下：
　
　注：這樣的結果十分符合我們人眼的觀測效果，當我們說一張圖中有一條狗狗的時候，也主要依靠狗狗的頭部進行判別，貓咪也是如此。
實現方法：
　1）在CAM中，我們根據最後一層的FC學到的權重作為對應feature map的權重，而後upsampling到原畫素空間，看起來利索應當，但當我們在最後一次適用conv之後，得到對應的feature map,之後多次使用FC，我們如何計算feature map對應的權重呢？
　這裡有一個小問題，我們為什麼使用conv階段最後一次得到的feature map呢？因為最後一次conv得到的feature map是前面多次conv+ReLU+pooling的結果，具有最強的空間資訊和語義資訊，隨後的FC和softmax所提取的資訊已經很難理解，所以我們若想實現CNN的視覺化，必須好好利用最後一次conv得到的feature map。
　下面開始我們的計算過程：

接下來我們言歸正傳，如何計算我們經過FC之後的feature map權重呢？計算公式如下：
$α_{k}^{c} = \frac{1}{Z} \sum_{i \in w} \sum_{j \in h} \frac{\partial y^{c}}{\partial A_{i j}^{k}}$
　其中 $α_{k}^{c}$ 代表針對類C，第k個feature map的權重， $Z$ 代表feature map的大小， $w, h$ 分別代表feature map的寬度和高度， $y^{c}$ 代表未經過softmax之前時類C的得分， $A_{i j}^{k}$ 代表第k個feature map中位置(i,j)的啟用值。
由此我們得到了類C的Grad-CAM，如下： $L_{G r a d - C A M}^{c} = R e L U (α_{k}^{c} * A^{k})$
　此處我們為何進行ReLU運算呢?因為在我們的Grad-CAM中，我們只關注那些對預測結果起到positive influence on the class，倘若出現了negative則直接將其過濾掉。
由此我們得到了類C的得分，如下： $S_{c} = \sum_{k \in K} α_{k}^{c} * \frac{1}{Z} \sum_{i \in w} \sum_{j \in h} A_{i, j}^{k}$
　其中 $α_{k}^{c}$ 代表第k個feature map對類C的權重, $\sum_{i \in w} \sum_{j \in h} A_{i, j}^{k}$ 代表第k個feature map

整體結構如下所示：

注：paper中還強調Grad-CAM視覺化方法不僅僅可用於一般的影象分類網路的視覺化、輸出結構化網路的視覺化還可用於視覺問答網路的視覺化等等
Guided Grad-CAM(導向反向傳播和Grad-CAM的結合)
　1）問題：雖然Grad-CAM可以很好的類別判別能力，也可以將相關區域定位出來，但是其不具備畫素空間梯度視覺化(比如導向反向傳播和反捲積這種細粒度重要性視覺化)的方法
　2）解決問題：
　　2.1）首先對影象使用插值法進行上取樣
　　2.2）然後將導向反向傳播和Grad-CAM結合起來，實現視覺化
實驗
　1）首先進行了定位實驗
　　我們首先在ImageNet資料集上進行預測，然後獲取對應的Grad-CAM，選擇最大啟用值得15%作為threshold，畫出bounding box，結果如下：
　　
　　注：paper中解釋到，在物體定位實驗中，Grad-CAM取得了較好的實驗效果；但在分類實驗中，由於修改了網路結構，致使分類效能下降了2.98%
　2）之外還做了一些其他實驗，有時間了會補充上，再和大家一起交流

*作者：gengmiao 時間：2018.02.19,原創文章，轉載請保留原文地址、作者等資訊*

Grad-CAM:Visual Explanations from Deep Networks via Gradient-based L閱讀筆記-網路視覺化NO.3

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization 閱讀筆記這是網路視覺化的第三篇，其餘兩篇分別是： ①《Visualizing and

Visualizing and Understanding Convolutional Networks 閱讀筆記-網路視覺化NO.1

Visualizing and Understanding Convolutional Networks 閱讀筆記綜述：此篇paper是CNN視覺化的開山之作(由Lecun得意門生Matthew Zeiler發表於2013年)，主要解決了兩個問題　１）

《Self-Protection of Android Systems from Inter-component Communication Attacks》論文閱讀筆記

前言本篇部落格是用來記錄自己在閱讀《Self-Protection of Android Systems from Inter-component Communication Attacks》這篇論文期間的閱讀筆記，方便自己日後翻閱檢視，如果對於這篇論文的閱讀有什麼不正確的地方，歡迎大家批評指

Deep learning基於theano的keras學習筆記-網路層

Deep learning基於theano的keras學習筆記-網路層轉自 https://blog.csdn.net/zhili8866/article/details/53262114 1. 常用層 1.1 Dense層 keras.layers.core.Dense(outp

Squeeze-and-Excitation Networks（SE network）閱讀筆記

SE Block詳解 SE Block通過學習通道之間的關係，調節特徵圖通道之間的權重，從而達到attention集中的目的，改善網路的表達能力。 SE Block可以替代任意的卷積操作。上圖為SE Block描述圖。可以看到，通過SE Block以後特

DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

step with 圖片 eight enter sub img layer each 1、Introduction DL解決VO問題：End-to-End VO with RCNN 2、Network structure a.CNN based Feature Ext

23.Deep Networks for Saliency Detection via Local Estimation and Global Search

Deep networks for saliency detection via Local Estimation and Global Search 摘要本文提出了一種將區域性估計和全域性搜尋相結合的顯著性檢測演算法。在區域性估計階段，我們通過使用深度神經網路（DNN

論文閱讀筆記二十四：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

分享圖片介紹 bin con strong map com 提高 https 論文源址：https://arxiv.org/abs/1406.4729 tensorflow相關代碼：https://github.com/peace195/sppnet 摘要

grad-cam 、cam 和熱力圖，基於keras的實現

abs guide ring 不一定作用自然 team 拍攝類別 http://bindog.github.io/blog/2018/02/10/model-explanation/ http://www.sohu.com/a/216216094_473283 h

閱讀筆記：ImageNet Classification with Deep Convolutional Neural Networks

時間 ica gpu ati 做了 alexnet 小數而且響應概要：本文中的Alexnet神經網絡在LSVRC-2010圖像分類比賽中得到了第一名和第五名，將120萬高分辨率的圖像分到1000不同的類別中，分類結果比以往的神經網絡的分類都要好。為了訓練更快，使用了

Estimating the number of receiving nodes in 802.11 networks via machine learning

當前網絡通信 works 存儲 bsp ron 測量分析輸入來源：IEEE International Conference on Communications 作者：Matteo Maria 年份：2016 摘要：現如今很多移動設備都配有多個無線接口，比如藍牙

【R-FCN】《R-FCN: Object Detection via Region-based Fully Convolutional Networks》

NIPS-2016 目錄目錄 1 Motivation 2 Innovation 3 Advantages 4 Methods

Flower classification using deep convolutional neural networks 閱讀筆記

** Flower classification using deep convolutional neural networks ** 本部落格主要是對該篇論文做一個閱讀筆記，用FCN+CNN去做識別期刊： IET Computer Vision 內容：（1）自動分割

Towards Image Understanding From Deep Compression Without Decoding閱讀筆記

ABSTRACT　　　　　　最近基於深度神經網路（DNN）的影象壓縮方法的研究顯示了影象質量的潛在改進，儲存節省和頻寬減少，我們建議直接對由此產生的壓縮表示執行影象理解任務，如分類和分割。　　由於基於DNN的壓縮方法中的編碼器和解碼器是具有特徵對映作為影象內部表示的神經網路，

R-FCN:Object Detection via Region-based Fully convolutional Networks && light-head RCNN

一、R-FCN 1、概述本文作者Jifeng Dai，Yi Li，Kaiming He，Jian Sun。本文主要是在特徵的通道維度上分塊後，每一塊取空間上某一部分組合成新的feature map來解決分類需空間不變性和檢測任務需空間敏感性的矛盾。 R-FCN是在fa

paper:Generating Images with Perceptual Similarity Metrics based on Deep Networks

主要內容：本文主要從傳統深度網路生成圖片比較模糊出發，分析其原因為影象的details並不能全部的存在於feature中，所以通常loss傾向於平均化所有可能存在細節的locations，導致最後生成的圖片blurry，但是準確的locations並不重要，重要的是the distributio

論文閱讀筆記二十九：One pixel attack for fooling deep neural networks（CVPR2017）

論文源址：https://arxiv.org/abs/1710.08864 tensorflow程式碼: https://github.com/Hyperparticle/one-pixel-attack-keras 摘要

Detail-Preserving Pooling in Deep Networks閱讀

理解首先，主要講下對文章的主要理解。簡而言之，這篇文章目的是保留影象細節，拒絕最大或者平均池化的簡單粗暴操作，可以自適應的學習的加權型池化。文章借鑑的思想是DDIP。綜述池化的作用：降低引數量，擴大感受野，增強不變性。目前常用的池化：最大，平均，帶步長

(DaSiamRPN)Distractor-aware Siamese Networks for Visual Object Tracking 閱讀筆記

2018年的VOT競賽結果已出，基於深度特徵(Deep Feature)的相關濾波依舊強勢，但值得注意的是，基於孿生網路(Siamese Network)的方法異軍突起，在主賽上有不俗表現的同時，在實時

深度學習基礎--不同網路種類--反饋深度網路(feed-back deep networks, FBDN)

深度神經網路可以分為3類： 1）前饋深度網路(feed-forwarddeep networks, FFDN) 2）反饋深度網路(feed-back deep networks, FBDN) 3）雙向深度網路(bi-directionaldeep n

Grad-CAM:Visual Explanations from Deep Networks via Gradient-based L閱讀筆記-網路視覺化NO.3

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization 閱讀筆記

這是網路視覺化的第三篇，其餘兩篇分別是：

相關推薦