論文解讀:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA
阿新 • • 發佈:2018-12-09
這是關於VQA問題的第五篇系列文章。本篇文章將介紹論文:主要思想;模型方法;主要貢獻。有興趣可以檢視原文:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering。
1,主要思想:
論文采用基於空間(影象)的記憶網路(記憶網路是NLP領域中的模型,用於處理邏輯推理的問題)。Spatial Memory Network把影象存區域當做記憶單元的內容,然後用問題去選擇相關的區域回答問題。論文同時採用多次attention,模擬尋找答案的推理過程。
2模型:
模型的結構和記憶網路的結構很相似:End to End Memory Network
a.問題特徵部分:
這裡處理的很少,只是用詞向量做embedding,得到句子的詞向量矩陣。shape:(T,N)T是問題長度。
b.影象特徵部分:
- 這裡處理的也很少,用CNN提取各個區域的特徵,GoogLeNet (inception 5b=output)。shape:(L,M)L是特徵個數。
- 之後為了使得影象特徵和問題特徵維度一樣,採用了兩個矩陣進行變換,W_a,W_e。
c.Word Guided Spatial Attention in One-Hop Model(一次attention):
-
Word-guided attention:圖b中,用單詞詞向量去計算與影象的相關性。計算過程就是選擇關係最大的,然後用softmax進行歸一化。(公式符號對應圖中)
-
計算第一次attention的結果:如圖a
-
可以用這一次的attention的結果,加上問題進行預測了:如圖a
d.Spatial Attention in Two-Hop Model(多次attention,模擬推理)
-
計算第一次attention的結果,加上問題:如圖a
-
計算下一次attention的權重:如圖a
-
計算這一次attention的結果:
-
預測答案:
3,論文貢獻:
- 提出使用Spatial Memory Network,模擬多次關注的尋找答案的推理過程。
- 在第一次attention時,提出了用每一個單詞去計算與影象的相關性。從而實現第一次的相關性權重的計算。
- 實現了,多次attention,很好的結合的每次計算的結果用於答案的預測,從而實現模擬推理過程。