1. 程式人生 > >論文解讀:Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

論文解讀:Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

這是關於VQA問題的第三篇系列文章,這篇文章是一篇比較經典的文章,所以跟大家分享。本篇文章將介紹論文:主要思想;模型方法;主要貢獻。有興趣可以檢視原文:Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

1,想法

模型以CNN和LSTM為基礎,以一種新的使用方式,設計了一個預測結果長度可變的模型。該模型將視覺問答任務視為結合影象資訊作為輔助的sequence to sequence任務。


2,模型

模型:首先由一個預訓練好的深度CNN模型抽取出要回答的圖片特徵

,然後將圖片特徵和轉化為詞向量的問題詞一起送入LSTM網路,在每次送入一個問題詞的同時將圖片特徵送入網路,直到所有的問題特徵資訊抽取完畢。接下來用同一個LSTM網路產生答案,直至產生結束符($)為止。該模型的訓練過程是結合影象特徵的LSTM網路的訓練以及詞向量的生成器的訓練。
在這裡插入圖片描述在這裡插入圖片描述

a.影象特徵:

用一個訓練好的cnn提取影象特徵,然後把這個影象特徵送入每一個LSTM網路的輸入中。

b.文字特徵,以及LSTM網路的輸入

在這裡插入圖片描述
文字採用詞向量的輸入,即每個詞的詞向量。訓練時,文字特徵包括問題和答案:
在這裡插入圖片描述
測試時,文字特徵包括,問題和前一個詞的預測答案:
在這裡插入圖片描述

c.採用概率最大的方式預測答案

在這裡插入圖片描述
損失函式:只考慮了答案預測部分的損失函式,即問好前面的部分不考慮損失函式。

3.論文的貢獻

  • 論文提出了seq2seq的方式,長生變長的的答案
  • 論文提出了兩個新的評估指標,相親見原論文