1. 程式人生 > >視覺場景理解論文閱讀筆記:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

視覺場景理解論文閱讀筆記:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

一、文章相關資料

3.發表時間:2018

二、閱讀筆記

1.論文思想

        文章提出一種自上而下與自下而上相結合的注意力模型方法,應用於視覺場景理解和視覺問答系統的相關問題。其中基於自下而上的關注模型(一般使用Faster R-CNN)用於提取影象中的興趣區域,獲取物件特徵;而基於自上而下的注意力模型用於學習特徵所對應的權重(一般使用LSTM),以此實現對視覺影象的深入理解。

       個人理解:文章中雖然沒有提及在目前研究中最為廣泛使用的Encode—Decode框架,但是基於自下而上的注意力模型的任務是獲取影象興趣區域提取影象特徵類似於對影象進行特徵編碼,實現編碼階段任務;而基於自上而下的注意力模型用於學習調整特徵權重,實現了影象內容的“時刻關注”,逐詞生成描述,相當於解碼階段。

2.為什麼使用Faster R-CNN 而不使用CNN?

       從圖中可以看出使用CNN需要使用比R-CNN更多的特徵,而且很多額特徵往往是無用的。R-CNN的目標檢測方法,首先針對影象獲取興趣區域,然後對每個興趣區域應用目標檢測器,這樣就可以準確的獲得影象類別;而CNN方法需要輸入整幅影象,而且用於大樣本分類的網路往往很複雜,計算量更大。另外,Faster R-CNN對之前幾代R-CNN方法進行改進,實現了只輸入一次就可以識別所有物件的能力,極大的提高的處理效率。

3.自下而上的關注模型

        文中提及使用Faster R-CNN實現基於自下而上的注意力模型,Faster R-CNN論文筆記


        文中提及使用Faster R-CNN實現自下向上的關注模型,從圖中可以看出相比之前不同之處在於,通過設定的閾值允許興趣框的重疊,這樣可以更有效的理解影象內容。文中對每一個感興趣區域不僅使用物件檢測器還使用屬性分類器,這樣可以獲得對物件的(屬性,物件)的二元描述。這樣的描述更加貼合實際應用。

4.自上而下的關注模型

        文中提到使用;兩層LSTM模型,一層用於實現自上而下的注意力,一層實現語言模型。

        文章中提到的公式如下:

       這些公式不做詳細介紹,具體可以從LSTM相關理論,以及機器翻譯中應用注意機制文章中進行理解:將注意力模型引入機器翻譯的早期文章

      這裡只提及我的一個疑問:的關係,從公式和圖出發,我個人將其理解為同一物件的不同表示,應該是為了避免混淆而用兩種寫法。

5.實驗結果

        從實驗結果可以看出,文中所提方法的確獲得良好結果.

注:本人因基礎知識和表達能力的限制,對文章內容理解可能存在偏差,如有錯誤,請指出。