image caption解讀系列（二）：《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Capt》

阿新 • • 發佈：2018-12-11

本文主要是在這篇部落格的基礎上結合程式碼進行分析。

文章依然採用了encoder-decoder的框架。作者認為decoder的時候非視覺詞多依賴的是語義資訊而不是視覺資訊。而且，在生成caption的過程中，非視覺詞的梯度會誤導或者降低視覺資訊的有效性。因此，本文提出了帶有視覺標記的自適應的attention模型（adative attention model with a visual sentinel），在每一個time step，模型決定更依賴於影象還是visual sentinel。其中，visual sentinel存放了decoder已經知道的資訊。

本文的貢獻在於： 1、提出了帶有視覺標記的自適應的attention模型

2、提出了新的spatial attention機制

3、提出了LSTM的擴充套件，在hidden state以外加入了一個額外的visual sentinel vector

模型結構：

1、首先是encoder部分：

encoder分別提取影象的全域性特徵和區域性特徵。採用的是resnet-152，去除最後兩層，提取卷積特徵。

v_g代表全域性特徵（[batch_size,256]），v代表區域性特徵([batch_size,49,512])。

區域性特徵分為v1,v2.v3.....v49

        A = self.resnet_conv( images )#[batch_size,2048,7,7]

        
        a_g = self.avgpool( A )             #[batch_size,2048,1,1]
        a_g = a_g.view( a_g.size(0), -1 )   #[batch_size,2048]
        
        
        # V = [ v_1, v_2, ..., v_49 ]
        V = A.view( A.size( 0 ), A.size( 1 ), -1 ).transpose( 1,2 )#[2, 49, 2048]
          
        V = F.relu( self.affine_a( self.dropout( V ) ) )#[2, 49, 512]  
        v_g = F.relu( self.affine_b( self.dropout( a_g ) ) )
        
        return V, v_g   
        #V:[batch_size, 49, 512(hidden size)]   v_g:[batch_size,256(embeding size)]

2、其次是decoder部分

先上模型結構圖

首先LSTM的輸入不再只是當前時刻的word_embedding，而是和全域性影象特徵cat起來。

即

作者在LSTM中加入sentinel(哨兵機制)，產生s_t:

具體做法是：

相應程式碼為：

g_t的定義與公式略有不同。

        # g_t = sigmoid( W_x * x_t + W_h * h_(t-1) )        
        gate_t = self.affine_x( self.dropout( x_t ) ) + self.affine_h( self.dropout( h_t_1 ) )
        gate_t = F.sigmoid( gate_t )
        
        # Sentinel embedding
        s_t =  gate_t * F.tanh( cell_t )
        
        return s_t

attention機制：

輸入各個區域性特徵V，各個時刻的hidden_state、s_t

對於普通的attention：

基於hidden_state，decoder會關注影象的不同區域，ct就是該區域經過CNN後提取出的feature map。

這就是在不使用自適應時對各個區域性特徵加權得到的最終影象特徵。

相關程式碼：

        # W_v * V + W_g * h_t * 1^T
        content_v = self.affine_v( self.dropout( V ) ).unsqueeze( 1 ) \
                    + self.affine_g( self.dropout( h_t ) ).unsqueeze( 2 )
        
        # z_t = W_h * tanh( content_v )
        z_t = self.affine_h( self.dropout( F.tanh( content_v ) ) ).squeeze( 3 )
        alpha_t = F.softmax( z_t.view( -1, z_t.size( 2 ) ) ).view( z_t.size( 0 ), z_t.size( 1 ), -1 )
        
        # Construct c_t: B x seq x hidden_size
        c_t = torch.bmm( alpha_t, V ).squeeze( 2 )

在本文中，作者使用了自適應，context vector變為：

權重也變為：

上述公式可以簡化為：

相應程式碼：

        # W_s * s_t + W_g * h_t
        content_s = self.affine_s( self.dropout( s_t ) ) + self.affine_g( self.dropout( h_t ) )
        # w_t * tanh( content_s )
        z_t_extended = self.affine_h( self.dropout( F.tanh( content_s ) ) )
        
        # Attention score between sentinel and image content
        extended = torch.cat( ( z_t, z_t_extended ), dim=2 )
        alpha_hat_t = F.softmax( extended.view( -1, extended.size( 2 ) ) ).view( extended.size( 0 ), extended.size( 1 ), -1 )
        beta_t = alpha_hat_t[ :, :, -1 ]
        
        # c_hat_t = beta * s_t + ( 1 - beta ) * c_t
        beta_t = beta_t.unsqueeze( 2 )
        c_hat_t = beta_t * s_t + ( 1 - beta_t ) * c_t

        return c_hat_t, alpha_t, beta_t

最後計算單詞的概率分佈：

相應公式為

相應程式碼為：

scores = self.mlp( self.dropout( c_hat + hiddens ) )#最後單詞的概率分佈

計算損失函式：

loss = LMcriterion( packed_scores[0], targets )#評價

最後放一下程式碼連結

image caption解讀系列（二）：《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Capt》

本文主要是在這篇部落格的基礎上結合程式碼進行分析。文章依然採用了encoder-decoder的框架。作者認為decoder的時候非視覺詞多依賴的是語義資訊而不是視覺資訊。而且，在生成caption的過程中，非視覺詞的梯度會誤導或者降低視覺資訊的有效性。因此，本文提出

image caption解讀系列（二）：《Show, Attend and Tell_Neural Image Caption》

一、相關工作二、基本思想文章在NIC的基礎上加入了attention機制三、模型結構對LSTM部分做出的改動，其餘與NIC相同。四、程式碼分析 (0)預處理首先是把資料中長度大於2

容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析

容器控制臺摘要：容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析（二）：Kubernetes如何助力Spark大數據分析概述本文為大家介紹一種容器化的數據服務Spark + OSS on ACK，允許Spark分布式計算節點對阿裏雲OSS對象存儲的直接訪問。

JavaScript夯實基礎系列（二）：閉包

情況全局環境賦值命名因此沒有部分 .com 查詢 ??在JavaScript中函數是一等公民。所謂一等公民是指函數跟其他對象一樣，很普通，可以進行把函數存在數組中、作為參數傳遞、賦值給變量等操作。當函數作為另一個函數的返回值在外部調用時，跟該函數在函數內部調用時

ELK系列（二）：.net core中使用ELK

正常 etc () 完成後 class -c tro 訪問 ret ELK安裝好後，我們現在.net Core中使用一下，大體思路就是結合NLog日誌組件將數據寫入ELK中，其它語言同理。 ELK的安裝還是有些復雜的，我們也可以在Docker中安裝ELK：docker ru

eShopOnContainers學習系列（二）：數據庫連接健康檢查

技術分享負載 star bsp 方法 containe 需要正常連接項目裏使用數據庫的時候，我們有時候需要知道數據庫當前的健康狀態，特別是當數據庫連接不上的時候能夠立馬獲悉。eShopOnContainers裏存在著大量的服務健康、連接健康的檢查，數據庫連接是其中之

linux系列（二）：cd命令

1、命令格式：　　cd [目錄名] 2、命令功能：　　切換當前目錄至目錄名目錄 3、常用例項（1）、進入系統根目錄命令：　　cd / 輸出： [email protected]:~/軟體$ cd / [email protected]-computer:/

Windows Service 學習系列（二）：C# windows服務：安裝、解除安裝、啟動和停止Windows Service

一、通過CMD安裝、解除安裝、啟動、停止Windows Service　　　　方法一　　1.以管理員身份執行cmd 　　2.安裝windows服務　　　　切換cd C:\Windows\Microsoft.NET\Framework\v4.0.30319(InstallUtil.e

faster rcnn pytorch 復現系列（二）：generate_anchors原始碼解析

目錄 1. 總函式 generate_anchors 2. 函式分功能寫，首先是ratios的實現，其次是scale的實現 3. anchor2WHXY函式+WsHsXsYs2anchors函式[s表示複數] 4. _ratio_enum(anchor,r

Fragment全解析系列（二）：正確的使用姿勢

Fragment是可以讓你的app縱享絲滑的設計，如果你的app想在現在基礎上效能大幅度提高，並且佔用記憶體降低，同樣的介面Activity佔用記憶體比Fragment要多，響應速度Fragment比Activty在中低端手機上快了很多，甚至能達到好幾倍！如果你的app當前或以後有移植平板等平臺時，

詳解SVM系列（二）：拉格朗日對偶性

拉格朗日函式有什麼用？在約束最優化問題中，常常利用拉格朗日對偶性將原始問題轉換為對偶問題，通過解對偶問題而得到原始問題的解。原始問題：假設 f (

深度學習論文翻譯解析（二）：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

論文標題：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition 論文作者： Baoguang Shi, Xiang B

image caption解讀系列（二）：《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Capt》

image caption解讀系列（二）：《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Capt》

image caption解讀系列（二）：《Show, Attend and Tell_Neural Image Caption》

容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析

JavaScript夯實基礎系列（二）：閉包

ELK系列（二）：.net core中使用ELK

eShopOnContainers學習系列（二）：數據庫連接健康檢查

linux系列（二）：cd命令

Windows Service 學習系列（二）：C# windows服務：安裝、解除安裝、啟動和停止Windows Service

faster rcnn pytorch 復現系列（二）：generate_anchors原始碼解析

Fragment全解析系列（二）：正確的使用姿勢

詳解SVM系列（二）：拉格朗日對偶性

深度學習論文翻譯解析（二）：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

Docker系列（二）：通過Docker安裝使用 Kubernetes （K8s）

redis系列（二）：資料操作

STM32開發筆記48：STM32F4+DP83848乙太網通訊指南系列（二）：系統時鐘

Web安全系列（二）：XSS 攻擊進階（初探 XSS Payload）

爬蟲入門系列（二）：優雅的HTTP庫requests

keras系列（二）：模型設定

TiDB EcoSystem Tools 原理解讀系列（二）TiDB-Lightning Toolset 介紹

文字編輯器啟用系列（二）：UltraEdit安裝、啟用、漢化教程

image caption解讀系列（二）：《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Capt》

相關推薦