1. 程式人生 > >image caption筆記(三):《Show, Attend and Tell_Neural Image Caption》

image caption筆記(三):《Show, Attend and Tell_Neural Image Caption》

一、 基本思想

      文章在NIC的基礎上加入了attention機制

 

二、模型結構

對LSTM部分做出的改動,其餘與NIC相同。

                       

                                

與原本的lstm公式相比  多了一個就是attention應 用的結果。

首先 我們給不同位置的特徵設定權重  權重的值和為1  這很自然就會想到使用softmax

在每個時刻t,我們都要設定不同位置的權重。在每個時刻,根據前一刻的狀態確定當前的權重,權重不同,代表對不同位置的關注度不同。

 

其中,是一個多層感知器,也就是簡單的全連線網路。得到權重以後,

                                                       

                    

這裡的有兩種  hard attention 和soft attention  ,因為soft簡單,只介紹soft。