《Reconstruction Network for Video Captioning》閱讀筆記
轉載請註明出處:西土城的搬磚日常
論文連結: ofollow,noindex">《Reconstruction Network for Video Captioning》
來源:CVPR 2018
文章簡介:
文章針對video captioning任務,利用重建video視覺特徵的方法,來促進對視訊語義的學習,從而為給定的video生成更好的caption。

本文依舊利用常用的方法,一個encoder-decoder結構,從視訊特徵生成文字描述。encoder-decoder都是採用LSTM模型。文字的新意就是在encoder-docder上面又加了一個reconstructor,利用decoder的狀態ht去重建video的視訊特徵。

對於重建視訊特徵,文章提出了兩個結構,一個是重建視訊的總體特徵,一個是重建每個time step的區域性特徵。視訊特徵重建依舊是用lstm。
1. 重建視訊的總體特徵

作者在重建總體特徵時不光利用了decoder的ht,同時放入了所有ht的mean,用於考慮整個句子的語義,即解釋為重建視訊的總體特徵。重建部分loss如下:
Line"/>
在這部分loss只考慮了總體的loss
2. 重建視訊的區域性特徵

作者在這裡沒有直接利用decoder的ht,而且是進一步用attention進行了篩選,生成了每個time step的context ,這裡考慮了每個time step的loss。
最後,模型的總體loss是encoder-decoder和重建部分的總和:
