1. 程式人生 > >論文解讀:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA

論文解讀:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA

這是關於VQA問題的第五篇系列文章。本篇文章將介紹論文:主要思想;模型方法;主要貢獻。有興趣可以檢視原文:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering

1,主要思想:

論文采用基於空間(影象)的記憶網路(記憶網路是NLP領域中的模型,用於處理邏輯推理的問題)。Spatial Memory Network把影象存區域當做記憶單元的內容,然後用問題去選擇相關的區域回答問題。論文同時採用多次attention,模擬尋找答案的推理過程。

2模型:

模型的結構和記憶網路的結構很相似:End to End Memory Network
在這裡插入圖片描述

a.問題特徵部分:

這裡處理的很少,只是用詞向量做embedding,得到句子的詞向量矩陣。shape:(T,N)T是問題長度。

b.影象特徵部分:

  • 這裡處理的也很少,用CNN提取各個區域的特徵,GoogLeNet (inception 5b=output)。shape:(L,M)L是特徵個數。
  • 之後為了使得影象特徵和問題特徵維度一樣,採用了兩個矩陣進行變換,W_a,W_e。

c.Word Guided Spatial Attention in One-Hop Model(一次attention):

  • Word-guided attention:圖b中,用單詞詞向量去計算與影象的相關性。計算過程就是選擇關係最大的,然後用softmax進行歸一化。(公式符號對應圖中)
    在這裡插入圖片描述
    在這裡插入圖片描述

  • 計算第一次attention的結果:如圖a
    在這裡插入圖片描述

  • 可以用這一次的attention的結果,加上問題進行預測了:如圖a
    在這裡插入圖片描述
    在這裡插入圖片描述

d.Spatial Attention in Two-Hop Model(多次attention,模擬推理)

  • 計算第一次attention的結果,加上問題:如圖a
    -

  • 計算下一次attention的權重:如圖a
    在這裡插入圖片描述
    在這裡插入圖片描述

  • 計算這一次attention的結果:
    在這裡插入圖片描述

  • 預測答案:
    在這裡插入圖片描述

3,論文貢獻:

  • 提出使用Spatial Memory Network,模擬多次關注的尋找答案的推理過程。
  • 在第一次attention時,提出了用每一個單詞去計算與影象的相關性。從而實現第一次的相關性權重的計算。
  • 實現了,多次attention,很好的結合的每次計算的結果用於答案的預測,從而實現模擬推理過程。