論文筆記：Image Caption(Show, attend and tell)

阿新 • • 發佈：2019-01-12

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

Show, Attend and Tell

1、四個問題

要解決什麼問題？
- Image Caption（自動根據影象生成一段文字描述）。
用了什麼方法解決？
- 在Show and Tell提出的Encoder-Decoder架構的基礎之上進行了改進，引入注意力機制。
- 提出了兩種注意力機制的變種：“hard” attention和"soft" attention。
效果如何？
- 在MS COCO以及Flickr8k和Flickr30k上取得了state-of-the-art的效果。
還存在什麼問題？
- Encoder採用了ImageNet上預訓練好的VGG網路，然而VGG的特徵提取能力相比ResNet、DenseNet等較弱，一定程度上會影響網路效能。
- 訓練LSTM時one-hot編碼的詞向量沒有采用預訓練的word embedding模型，也可能會影響。

2、論文概述

2.1、簡介

研究難點：
- 影象標註模型既要能夠處理計算機視覺任務如確定影象中有哪些物體，但他們也必須能夠以自然語言的形式捕獲並表示出這些物體之間的關係。
架構：
- 使用CNN來提取影象中的視覺資訊，並用RNN來解碼這些視覺資訊轉換成自然語言。
注意力機制：
- 此前的工作中，大家廣泛認同的是：使用視覺特徵（比如從CNN後面的層中的特徵圖）提取影象中的顯著物體的資訊。
- 但是這個方法有一個可能的缺點：會損失一部分可能對生成影象描述有用的資訊。
- 使用低層的特徵有助於解決這個問題，但是使用低層特徵需要一個有效的機制來讓模型關注對這個任務有用的資訊。
- 為此，提出了兩個注意力機制的變種：hard attention和soft attention。
貢獻：
- 提出了兩個基於注意力機制的Image Caption模型：soft attention，通過普通的反向傳播演算法即可訓練；hard attention，需要最大化一個近似的變化下邊界。
- 通過視覺化技術展示了網路在生成單詞都是在關注“哪裡”和“什麼”。
- 在三個基準資料集（MS COCO、Flickr8k、Flickr30k）上對模型進行測試，取得了state-of-the-art的效果。
除了神經網路之外，caption還有兩種典型的方法：
1. 使用模板的方法，填入一些影象中的物體；
2. 使用檢索的方法，尋找相似描述。
- 這兩種方法都使用了一種泛化的手段，使得描述跟圖片很接近，但又不是很準確。所以作者在此基礎上提出了自己的模型架構，將soft 和hard attention引入到caption，並利用視覺化手段理解attention機制的效果。
模型：

在這裡插入圖片描述

2.2、模型細節

論文中提出了兩個注意力機制的結構，hard attention較為複雜，暫時還沒搞懂。所以就著重介紹soft attention。
Encoder：
- 使用CNN來提取 $L$ 個 $D$ 維的特徵作為註釋向量。每個都對應影象中的一個區域： $a = \{ a_1, ..., a_L \}, a_i \in \mathbb{R}^D$ 。
- 與此前的工作中使用Softmax層之前的全連線層提取影象特徵不同，本文所提取的這些vector來自於 low-level 的卷積層，這使得decoder可以通過選擇所有特徵向量的子集來選擇性地聚焦於影象的某些部分，也就是將attention機制嵌入。
Decoder：
- 解碼階段用LSTM生成caption。
- 生成的結果： $y = \{ y_1, ... , y_C \}, y_i \in \mathbb{R}^K$ 。其中 $C$ 是句子長度， $K$ 是詞表大小， $y$ 是各個詞的one-hot編碼所構成的集合。

在這裡插入圖片描述

LSTM：
- 輸入、遺忘和輸出門由sigmod啟用，所以得到的值在0—1之間，可以直接作為概率值，候選向量 $c_t$ 和 $h_t$ 由tanh啟用，值在-1—1之間。三個輸入量分別是， $Ey_{t−1}$ 是look-up得到詞 $y_{t−1}$ 的 m 維詞向量； $h_{t−1}$ 是上一時刻的隱狀態； $z^t \in \mathbb{R}^D$ 是LSTM真正意義上的“輸入”，代表的是捕捉了特定區域視覺資訊的上下文向量。
- 隱狀態和細胞狀態的初始值，由兩個獨立的多層感知機得到。輸入是各個影象特徵的均值。 $c_0 = f_{init, c}(\frac{1}{L} \sum_i^L a_i)$ ， $h_0 = f_{init, h} (\frac{1}{L} \sum_i^L a_i)$ 。
- 根據以上，我們就可以通過最大概率求得當前時刻輸出的詞，並作為下一時刻的輸入，從而獲得caption結果。
attention：
- $z_t$ 是LSTM真正的輸入，是一個和時間相關的動態變數，不同時間關注在不同的影象區域內，那麼這裡就可以和attention結合起來，規定特定時間內關注某個區域。
- $z_t$ 由時間和位置區域決定，對於每個時間的每個區域都定義一個權重值 $\alpha_{ti}$ 。為了滿足權重的歸一化，則通過softmax函式實現，Softmax的輸入需要包含位置資訊和前一時刻隱層值。
- 接著， $z_t$ 就可以通過影象的特徵 $a_i$ 以及產生的權重 $\alpha_{ti}$ 得到。
- $\phi$ 函式實際上就是hard attention和soft attention了。
hard attention暫時還沒弄懂，暫時先不寫。
soft attention：
- 在hard attention中，權重屬於貝努利分佈，非0即1。不連續意味著不可導，即無法在反向傳播中利用梯度更新。
- 而soft attention中，不像hard attention那樣對特定時間特定區域只有關注與不關注，而是對所有區域都關注，只是關注的重要程度不一樣。
- 直接使用前面得到權重 $\alpha_t$ ，加權求和得到 $z_t$ ：
- 由於模型是連續可導的，現在可以直接使用BP演算法對梯度進行更新。
- 此外，soft attention模型還要引入閾值 $\beta$ ，用來讓解碼器決定是把重點放在語言建模還是在每個時間步驟的上下文中。
- 最終的損失函式：
- soft attention最終通過最小化上式實現。
- 式中的正則項是為了讓 $\sum_t^C \alpha_{ti} \simeq 1$ ，目的是為了讓attention平等的對待圖片的每一區域。

2.3、實驗

作者用了三個資料集進行實驗，Flickr8k採用RMSProp優化方法， Flickr30k和COCO採用Adam進行優化，用vgg在ImageNet上進行預訓練，採取64的mini-batch，用bleu和meteor作為指標進行評分，下表是實驗結果，可以看出本文所提出的方法取得了很好的結果。

在這裡插入圖片描述

視覺化，為了更好地瞭解attention的效果，作者還對模型進行了視覺化，如下圖所示，可以看出attention機制可以學習到類似於人注意力一樣的資訊。

在這裡插入圖片描述

3、參考資料

論文筆記：Image Caption(Show, attend and tell)

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Show, Attend and Tell 1、四個問題要解決什麼問題？ Image Cap

論文筆記：Image Caption(Show and Tell)

Show and Tell: A Neural Image Caption Generator Show and Tell 1、四個問題要解決什麼問題？ Image Caption（自動根據影象生成一段文字描述）。用了什麼方法

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention 閱讀筆記

0 模型在做什麼圖0-0 Image Caption效果簡介本文介紹的模型，將圖片資訊與相應的文字資訊進行結合，在預測文字中相應單詞的時候不同的影象區域被啟用如在圖0-0 第一對圖片中，當用於生成句子中的dog單詞時，圖片中狗相關的區域變的高亮類似的第二張

Show, attend and tell演算法詳解及原始碼

mark一下，感謝作者分享！ https://blog.csdn.net/shenxiaolu1984/article/details/51493673 原論文：https://arxiv.org/pdf/1502.03044v2.pdf 原始碼：https://github.c

image caption筆記（三）：《Show, Attend and Tell_Neural Image Caption》

一、基本思想文章在NIC的基礎上加入了attention機制二、模型結構對LSTM部分做出的改動，其餘與NIC相同。 &nbs

image caption解讀系列（二）：《Show, Attend and Tell_Neural Image Caption》

一、相關工作二、基本思想文章在NIC的基礎上加入了attention機制三、模型結構對LSTM部分做出的改動，其餘與NIC相同。四、程式碼分析 (0)預處理首先是把資料中長度大於2

論文筆記：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

1.歷史方法 1）基於字元的DCNN,比如photoOCR.單個字元的檢測與識別。要求單個字元的檢測器效能很強，crop的足夠好。 2）直接對圖片進行分類。9萬個單詞，組合成無數的單詞，無法直接應用 3）RNN,訓練和測試均不需要每個字元的位置。但是需要預處理，從圖片得到特

論文筆記：Histology Image Classification using Supervised Classification and Multimodal Fusion

該部落格由EMMA原創，隨意轉載，部落格原連結 Histology Image Classification using Supervised Classification and Multimodal Fusion 原文連結：paper 出處

論文筆記：Visual Object Tracking based on Adaptive Siamese and Motion Estimation Network

Visual Object Tracking based on Adaptive Siamese and Motion Estimation 本文提出一種利用上一幀目標位置座標，在本幀中找出目標可能出現的位置的網路--motion es

論文筆記：IRGAN：A Minimax Game for Unifying Generative and Discriminative Information

2017 SIGIR 簡單介紹 IRGAN將GAN用在資訊檢索（Information Retrieval）領域，通過GAN的思想將生成檢索模型和判別檢索模型統一起來，對於生成器採用了基於策略梯度的強化學習來訓練，在三種典型的IR任務上（四個資料集）得到了更顯著的效果。生成式和判別式的檢索模型生成式檢索模

論文筆記：MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching

Abstract MatchNet：一個用來從patches中提取特徵的深度卷積網路 + 一個用來比較提取出的特徵相似度的三層全連結網路構成。 Introduction 在MatchNet中，每個patch輸入卷積網路，生成一個固定維度的類似

論文筆記：Deep Image Prior

&nbs

論文筆記：Fisher Kernels on Visual Vocab ularies for Image Categorization

Fisher Kernels on Visual Vocabularies for Image Categorization 論文連結：CVPR 2006 在模式分類領域，Fisher Vector（FV）是一個強有力的構架，因為他結合了生成式（概率密

論文筆記：DRAW: A Recurrent Neural Network For Image Generation

DRAW: A Recurrent Neural Network For Image Generation 2019-01-14 19:42:50 Paper：http://proceedings.mlr.press/v37/gregor15.pdf 本文將 V

論文筆記：Residual Attention Network for Image Classification

前言深度學習中的Attention，源自於人腦的注意力機制，當人的大腦接受到外部資訊，如視覺資訊、聽覺資訊時，往往不會對全部資訊進行處理和理解，而只會將注意力集中在部分顯著或者感興趣的資訊上，這樣有助於濾除不重要的資訊，而提升資訊處理的效率。最早將A

論文筆記：Self-critical Sequence Training for Image Captioning

引言現在image caption主要存在的問題有： exposure bias：模型訓練的時候用的是叫“Teacher-Forcing”的方式：輸入RNN的上一時刻的單詞是來自訓練集的ground-truth單詞。而在測試的時候依賴的是自己

論文筆記：Learning Social Image Embedding with Deep Multimodal Attention Networks

感想這篇文章我看了一下作者是北航和微軟亞洲研究院合起來做的一篇文章，我感覺最深的是它的那個image-text network embedding的思想，用取樣的方法來降低訓練的複雜度。這也是一個深度學習注意力模型，更開心的是，論文裡面說程式碼是用keras來寫的，論文接

論文筆記：Perceptual Losses for Real-Time Style Transfer and Super-Resolution[doing]

1.transformation: image to image 2.perceptual losses: psnr是per-pixel的loss,值高未必代表圖片質量好，廣泛應用只是因為

LightRNN 論文筆記：LightRNN: Memory and Computation-Efficient Recurrent Neural Networks

Introduction 近年來RNN被廣泛的應用於基於神經網路的NLP任務當中，比如說語言模型，QA等等，並且通常來說由RNN的相關結構能夠在這些任務當中取得state of art的表現。不過呢，雖然RNN相關的網路在NLP任務中表現十分優異，但是其也

論文筆記：目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

exploit orm dom ons tail red 最好早期形式化基於自適應顏色屬性的目標追蹤 Adaptive Color Attributes for Real-Time Visual Tracking 基於自適應顏色屬性的實時視覺追蹤 3月講的第一

論文筆記：Image Caption(Show, attend and tell)

Show, Attend and Tell

1、四個問題

2、論文概述

2.1、簡介

2.2、模型細節

2.3、實驗

3、參考資料

相關推薦