《Bidirectional Attention Fusion with ...》閱讀筆記

技術 · 發表 2018-11-27 15:12:49

摘要：轉載請註明出處：西土城的搬磚日常論文連結：《Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning》來源：CVPR 2018 dense captioning任務簡介： ...

轉載請註明出處：西土城的搬磚日常

論文連結： CVPR_2018_paper.pdf" target="_blank" rel="nofollow,noindex">《Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning》

來源：CVPR 2018

dense captioning任務簡介：

dense captioning不同於video captioning, 是在video captioning的基礎上加入了action location任務。video captioning僅僅要求對給定的視訊生成一句或者一段描述，而這樣可能錯過視訊中的很多事件。為了能夠捕捉到視訊中的每個事件，2016年李飛飛團隊在論文《Dense-Captioning Events in Videos》中提出了dense captioning任務。這個任務包括兩項任務：temporal action location 和 video captioning。任務的整個流程是：先利用action location的方法，對每個視訊片段生成可能包含動作的多個proposal，然後再對每個候選的proposal生成caption。

文章簡介：

本文針對dense captioning任務。在利用已經發生的事情進行caption的同時，同時進一步利用未來的事情。此外，以前的方法都是利用decoder的ht直接產生caption,本文提出把video的特徵和ht融合在一起輸入後面的caption模型。但是由於每段video的proposal數目不等，如果直接利用所有proposal的mean放進模型，效果也不好，所以作者又進一步提出了融合方法。

Proposal Module

作者把所有的ground truth的proposal長度聚類成K類。每一類代表一個可能的proposal的長度。作者把encoder後的ht輸入K個二元分類器獲得K個置信分數，代表每個K個不同長度proposal裡出現動作的可能性。一個正向lstm用於考慮過去的事情，一個反向lstm用於考慮未來還未發生的事情，最後，每個時間點的正反向置信分數相乘，即為當前時刻發生動作的可能性。後續工作中，分數高的video clip才被放進caption模型。