《Bidirectional Attention Fusion with ...》閱讀筆記
轉載請註明出處:西土城的搬磚日常
論文連結: CVPR_2018_paper.pdf" target="_blank" rel="nofollow,noindex">《Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning》
來源:CVPR 2018
dense captioning任務簡介:
dense captioning不同於video captioning, 是在video captioning的基礎上加入了action location任務。video captioning僅僅要求對給定的視訊生成一句或者一段描述,而這樣可能錯過視訊中的很多事件。為了能夠捕捉到視訊中的每個事件,2016年李飛飛團隊在論文 《Dense-Captioning Events in Videos》 中提出了dense captioning任務。這個任務包括兩項任務:temporal action location 和 video captioning。任務的整個流程是:先利用action location的方法,對每個視訊片段生成可能包含動作的多個proposal,然後再對每個候選的proposal生成caption。
文章簡介:
本文針對dense captioning任務。在利用已經發生的事情進行caption的同時,同時進一步利用未來的事情。此外,以前的方法都是利用decoder的ht直接產生caption,本文提出把video的特徵和ht融合在一起輸入後面的caption模型。但是由於每段video的proposal數目不等,如果直接利用所有proposal的mean放進模型,效果也不好,所以作者又進一步提出了融合方法。

- Proposal Module
作者把所有的ground truth的proposal長度聚類成K類。每一類代表一個可能的proposal的長度。 作者把encoder後的ht輸入K個二元分類器獲得K個置信分數,代表每個K個不同長度proposal裡出現動作的可能性。一個正向lstm用於考慮過去的事情,一個反向lstm用於考慮未來還未發生的事情,最後,每個時間點的正反向置信分數相乘,即為當前時刻發生動作的可能性。後續工作中,分數高的video clip才被放進caption模型。



2. Captioning Module

以前的方法中都是直接利用decoder的ht放入caption模型,文字提出把video特徵和ht先融合再放入caption模型,Ft即為融合後的向量。
由於每個video的proposal數目不等,直接融合效果會不好,所以作者提出了一下的融合方法。先用attention去生成新的video特徵。然後利用類似於lstm門的想法,提出了一個context門,用於控制ht和video特徵。從而生成新的內容特徵用於後續生成caption,即為Ft。

