論文解讀：Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA

阿新 • • 發佈：2018-12-09

這是關於VQA問題的第五篇系列文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering。

1，主要思想：

論文采用基於空間（影象）的記憶網路（記憶網路是NLP領域中的模型，用於處理邏輯推理的問題）。Spatial Memory Network把影象存區域當做記憶單元的內容，然後用問題去選擇相關的區域回答問題。論文同時採用多次attention，模擬尋找答案的推理過程。

2模型：

模型的結構和記憶網路的結構很相似：End to End Memory Network
在這裡插入圖片描述

a.問題特徵部分：

這裡處理的很少，只是用詞向量做embedding，得到句子的詞向量矩陣。shape：（T,N）T是問題長度。

b.影象特徵部分：

這裡處理的也很少，用CNN提取各個區域的特徵，GoogLeNet (inception 5b=output)。shape：（L,M）L是特徵個數。
之後為了使得影象特徵和問題特徵維度一樣，採用了兩個矩陣進行變換，W_a,W_e。

c.Word Guided Spatial Attention in One-Hop Model（一次attention）：

Word-guided attention：圖b中，用單詞詞向量去計算與影象的相關性。計算過程就是選擇關係最大的，然後用softmax進行歸一化。（公式符號對應圖中）
計算第一次attention的結果：如圖a
可以用這一次的attention的結果，加上問題進行預測了：如圖a

d.Spatial Attention in Two-Hop Model（多次attention，模擬推理）

計算第一次attention的結果，加上問題：如圖a
計算下一次attention的權重：如圖a
計算這一次attention的結果：
預測答案：

3，論文貢獻：

提出使用Spatial Memory Network，模擬多次關注的尋找答案的推理過程。
在第一次attention時，提出了用每一個單詞去計算與影象的相關性。從而實現第一次的相關性權重的計算。
實現了，多次attention，很好的結合的每次計算的結果用於答案的預測，從而實現模擬推理過程。

論文解讀：Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA

這是關於VQA問題的第五篇系列文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Ans

論文解讀：Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

這是關於VQA問題的第三篇系列文章，這篇文章是一篇比較經典的文章，所以跟大家分享。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Ask Your Neurons: A Neural-based Approach to Answering Questions abo

論文解讀：DeLiGAN: Generative Adversarial Networks for Diverse and Limited Data

前言：DeLiGAN是計算機視覺頂會CVPR2017發表的一篇論文，本文將結合Python原始碼學習DeLiGAN中的核心內容。DeLiGAN最大的貢獻就是將生成對抗網路（GANs）的輸入潛空間編碼為混合模型（高斯混合模型），從而使得生成對抗網路（GANs）在數量有限但具有多樣性的訓練資料上表現出較

論文解讀：記憶網路（Memory Network）

在瞭解vqa問題的論文時，發現有很多論文采用了記憶網路的思路，模擬推理過程，這篇文章主要總結關於記憶網路的三篇經典論文，目的是對記憶網路有個認識。分別是： MEMORY NETWORKS，End-To-End Memory Networks，Ask Me Anything: Dynami

論文解讀：A Focused Dynamic Attention Model for Visual Question Answering

這是關於VQA問題的第四篇系列文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：A Focused Dynamic Attention Model for Visual Question Answering。 1，主要思想： Focused Dynami

論文解讀：Stacked Attention Networks for Image Question Answering

這是關於VQA問題的第二篇系列文章，這篇文章在vqa領域是一篇比較有影響的文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Stacked Attention Networks for Image Question Answering。原論文中附有作者原始碼。

論文解讀：Where To Look: Focus Regions for Visual Question Answering

可能要很久時間開始關注vqa問題，vqa問題就是影象的問答問題，即對影象提問，併產生答案。關於影象問答綜述性文章推薦：Visual Question Answering: Datasets, Algorithms, and Future Challenges。今天開始可能要跟大家分析關於

哈佛NLP組論文解讀：基於隱變數的注意力模型 | 附開原始碼

作者丨鄧雲天學校丨哈佛大學NLP組博士生研究方向丨自然語言處理摘要Attention 注意力模型

CVPR 2017論文解讀：特徵金字塔網路FPN

這裡介紹的文章是來自 Facebook 的特徵金字塔網路 Feature Pyramid Networks(FPN)。FPN 主要解決的是物體檢測中的多尺度問題，通過簡單的網路連線改變，在基本不增加原有模型計算量情況下，大幅度提升了小物體檢測的效能。我們將從論文背景，論

論文閱讀：Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis

這篇論文是在2017年3月22日發表在CVPR上的，作者在這篇論文中提出了一個叫做深度從粗糙到精細化的多工卷積神經網路（Deep MANTA），該模型可以用於對一張圖片中的車輛進行多工的分析。該網路同時執行的多工包括：車輛檢測、部件定位、可見性描述和三維形

【轉】CVPR 2017論文解讀：用於單目影象車輛3D檢測的多工網路

轉自：https://baijiahao.baidu.com/s?id=1573792022850309&wfr=spider&for=pc 昨日，CVPR 2017獲獎論文公佈，引起了業內極大的關注。但除了這些獲獎論文，還有眾多精彩的論文值得一讀。因此在

阿里NIPS 2017論文解讀：如何降低TensorFlow訓練的視訊記憶體消耗？

阿里妹導讀：被譽為國際頂級的機器學習和神經網路學術會議NIPS 2017於12月4日-9日在美國加州長灘市舉行。在本屆會議上，阿里巴巴除有兩篇論文入選Workshop並進行Oral和Poster形式報告外，三大技術事業部連續3天在阿里展區舉行多場技術研討會，向5000餘名參會人員介紹阿里在機器學習、人工智

LightRNN 論文筆記：LightRNN: Memory and Computation-Efficient Recurrent Neural Networks

Introduction 近年來RNN被廣泛的應用於基於神經網路的NLP任務當中，比如說語言模型，QA等等，並且通常來說由RNN的相關結構能夠在這些任務當中取得state of art的表現。不過呢，雖然RNN相關的網路在NLP任務中表現十分優異，但是其也

前沿 | VLDB論文解讀：阿里雲超大規模實時分析型資料庫AnalyticDB

前言一年一度的資料庫領域頂級會議VLDB 2019於美國當地時間8月26日-8月30日在洛杉磯召開。在本屆大會上，阿里

image caption解讀系列（二）：《Show, Attend and Tell_Neural Image Caption》

一、相關工作二、基本思想文章在NIC的基礎上加入了attention機制三、模型結構對LSTM部分做出的改動，其餘與NIC相同。四、程式碼分析 (0)預處理首先是把資料中長度大於2

論文筆記：Image Caption(Show, attend and tell)

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Show, Attend and Tell 1、四個問題要解決什麼問題？ Image Cap

手勢跟蹤論文學習：Realtime and Robust Hand Tracking from Depth（三）Cost Function

引入 tail track col div 理想問題 from details iker原創。轉載請標明出處：http://blog.csdn.net/ikerpeng/article/details/39050619 Realtime and Robust Hand

論文：ORB-SLAM：a Versatile and accurate Monocular SLAM System

軌跡關鍵幀 lam lns auto 排除校正超出 mathjax 前言一、介紹 PTAM（parallel tracking and Mapping）系統局限於小尺度場景中，提供簡單但是有效的關鍵幀選擇、特征匹配、三角化、重定位技術，但是具有以下缺點：（1）缺

Optical Flow Guided Feature A Fast and Robust Motion Representation for Video Action Recognition論文解讀

Optical Flow Guided Feature A Fast and Robust Motion Representation for Video Action Recognition論文解讀 1. Abstract 2. 論文解讀 3

論文筆記：Visual Object Tracking based on Adaptive Siamese and Motion Estimation Network

Visual Object Tracking based on Adaptive Siamese and Motion Estimation 本文提出一種利用上一幀目標位置座標，在本幀中找出目標可能出現的位置的網路--motion es

論文解讀：Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA

1，主要思想：

2模型：

a.問題特徵部分：

b.影象特徵部分：

c.Word Guided Spatial Attention in One-Hop Model（一次attention）：

d.Spatial Attention in Two-Hop Model（多次attention，模擬推理）

3，論文貢獻：

相關推薦