1. 程式人生 > >eccv 2018 image caption generation論文導讀

eccv 2018 image caption generation論文導讀

全部論文下載連線:連結:https://pan.baidu.com/s/1Di0K1jN7FMVFGsKIAF_ltg
提取碼:ifjj

“Factual” or “Emotional”: Stylized Image Captioning with Adaptive Learning and Attention
來自University of Rochester的Professor Jiebo Luo課題組的論文,掛名的包括已經畢業去Microsoft Research的學生,還有Adobe Research的幾個作者。
摘要:為影象生成風格化的描述是影象描述中一個新興的主題。給定一個影象作為輸入,它要求系統生成一個具有特定風格的標題(例如,幽默、浪漫、積極和消極),同時在語義上準確地描述影象內容。在本文中,我們提出了一種新的程式化影象描述模型,有效地考慮了這兩種需求。為此,我們首先設計了一種新的LSTM變體,稱為風格-事實LSTM,作為我們模型的構建塊。它使用兩組矩陣分別捕獲事實知識和風格化知識,並根據先前的上下文自動學習兩組知識的詞級權重。此外,在訓練模型捕獲樣式元素時,我們提出了一種基於參考事實模型的自適應學習方法,該方法在模型學習時向模型提供事實知識,並能自適應地計算每一時間步驟提供的資訊量。我們對兩個風格化的影象描述資料集進行了評價,它們分別包含幽默/浪漫字幕和正負字幕。實驗表明,我們提出的模型的效能優於先進的方法,而不需要額外的真實標籤資訊作為監督.
網路結構上的修改很簡單,就是分成了一個事實部分,一個風格部分。
在這裡插入圖片描述

在這裡插入圖片描述
重點是在訓練的時候,分為了兩個訓練階段,第一階段就用普通的訓練方式來訓練生成表述事實的網路。在第二個階段,這裡使用瞭如下的損失函式:
在這裡插入圖片描述
更詳細的可以去檢視論文。

Boosted Attention: Leveraging Human Attention for Image Captioning
來自University of Minnesota的的工作。
摘要:視覺注意在影象描述中顯示了有用的功能,目的是使描述模型能夠有選擇地聚焦於感興趣的區域。現有的模型通常依賴於自上而下的語言資訊,通過優化目標函式來隱式學習注意力。雖然有些有效,但學習到的自上而下的注意力可能由於沒有直接監督資訊的注意力使得學到的注意力機制無法集中於正確的感興趣區域。受人類視覺系統的啟發,人類視覺系統不僅受到特定任務的自頂向下訊號的驅動,而且還受到視覺刺激的啟發,本文提出將兩種型別的注意用於影象描述。特別是,我們強調了這兩類關注的互補性,並開發了一種模型(Boosted Attention),將它們整合到影象描述中。我們對所提出的方法進行了驗證,並在不同的評估指標中使用了最先進的效能。
框架也很簡單,同時使用從上到下的attention和從下到上的attention。
在這裡插入圖片描述

Exploring Visual Relationship for Image Captioning
來自JD AI Research的一個工作。
摘要:人們一直認為,物件之間的建模關係將有助於表示並最終描述影象。然而,沒有證據支援影象描述生成的想法。本文提出了一種新的設計方案,在基於注意力的編解碼框架下,探討物件之間的聯絡對影象描述的影像。具體來說,我們提出了一種圖形卷積網路和一種新的將語義和空間物件關係整合到影象編碼器中的LSTM (稱為GCN-LSTM)體系結構。在技術上,我們根據影象中檢測到的物件的空間和語義聯絡來構建圖形。然後通過GCN利用圖的結構來細化每個區域在物件上的表示。利用學習到的區域級特徵,我們的GCN-LSTM利用了基於LSTM的描述框架,並提供了自動生成的注意機制.在COCO影象字幕資料集上進行了廣泛的實驗,並與先進的方法進行了比較,得到了更好的結果。更值得注意的是,GCN-LSTM在COCO測試集上將CIDEr-D的效能從120.1%提高到128.7%.
在這裡插入圖片描述

NNEval: Neural Network based Evaluation Metric for Image Captioning
來自The University of Western Australia的工作。
摘要:影象描述的自動評估是一項複雜的任務,在描述系統的開發和細粒度分析中具有非常重要的意義。現有的自動評估影象描述系統的指標在句子級別上無法達到令人滿意的與人類判斷的相關性。此外,與人類不同的是,這些指標傾向於關注質量的特定方面,比如n-gram重疊或語義意義。在本文中,我們提出了第一個基於學習的度量來評價影象標題.我們提出的框架使我們能夠將詞彙和語義資訊合併到一個單一的學習度量中。這將導致評估人員考慮到各種語言特徵來評估標題的質量。我們所做的實驗評估了所提出的度量,顯示了在與人類判斷的相關性方面的最新進展,並展示了它對分心的更好的魯棒性。
框架如下:
在這裡插入圖片描述
和cvpr2018的Learning to Evaluate Image Captioning是同樣的思路,可以對照著看。

Recurrent Fusion Network for Image Captioning
來自Tencen AI Lab和Fudan University的一個工作。
摘要:近年來,影象描述的研究取得了很大進展,目前所有先進的影象描述模型都採用了編解碼框架。在此框架下,用卷積神經網路(CNN)對輸入影象進行編碼,再用遞迴神經網路(RNN)將輸入影象轉換成自然語言。基於該框架的現有模型只使用一種CNN,例如ResNet或Inception-X,它只從一個特定的角度描述影象內容。因此,無法全面理解輸入影象的語義含義,制約了輸入影象效能的提高。為了利用多個編碼器的互補資訊,提出了一種用於影象描述任務的遞迴融合網路(RFNet)。該模型中的融合過程可以利用影象編碼器輸出之間的互動作用,為解碼器生成新的緊湊、資訊豐富的表示。在MSCOCO資料集上的實驗證明了我們提出的RFNet的有效性,它提高了影象描述的現有水平。
在這裡插入圖片描述

Rethinking the Form of Latent States in Image Captioning
來自香港中文大學和清華的一篇論文。
摘要:RNN及其變體已被廣泛用於影象描述。在RNN中,描述的產生是由一個潛在狀態的序列來產生的。現有的影象描述模型通常將潛在狀態的形式定義為向量,並將這種做法視為理所當然。我們重新思考這種選擇和研究的替代方法,即使用二維對映來編碼潛在狀態。這是出於對一個問題好奇:潛在狀態中的空間結構如何影響描述結果?我們對MSCOCO和Flickr30k的研究發現兩個重要的觀察結果。首先,具有2D狀態的形式通常在字幕中更有效,在引數規模相近的情況下,總是能夠實現更高的效能。其次,2D狀態儲存空間位置的資訊。 利用這一點,我們在視覺上揭示描述生成過程中的內部動態以及在輸入視覺域和輸出語言域之間的連線。
詳細內容參見我的另一篇部落格:關於影象描述任務中潛在狀態形式的重新思考

Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data
來自香港中文大學Xiaogang Wang課題組和商湯科技的一個工作。
摘要:影象描述的目的是通過生成字幕來描述影象的內容.儘管做出了許多努力,但為影象生成有判別性的描述仍然不是一件小事。大多數傳統的方法都模仿語言結構模式,因此往往會陷入重複頻繁的短語或句子的刻板印象,以及每個影象的獨特方面。在本文中,我們提出了一個以自檢索模組為訓練指導的影象描述框架,該框架鼓勵了識別字幕的生成。它具有以下獨特的優點:(1)自檢索指導可以作為描述判別度的度量和評價器,以保證一般描述的質量。(2)生成的描述和影象之間的對應關係自然地包含在生成過程中,無需Human註解,因此我們的方法可以利用大量的未標記影象來提高影象描述的效能,而不需要額外的註釋。通過對CoCo和Flickr30k字幕資料集的檢索,驗證了該方法的有效性,並給出了具有更強區分性的影象描述效果。
在這裡插入圖片描述
具體內容可以參考我另一個地方的博文判別性Caption generation!Show, Tell and Discriminate

Unpaired Image Captioning by Language Pivoting
來自新加坡南陽理工的工作,掛名作者李還有一個alibaba ai labs的一個人。
摘要:影象描述是一項涉及計算機視覺和自然語言處理的多模態任務,其目的是學習從影象到自然語言描述的對映。通常,對映函式是從一組影象描述對的訓練集合中學習的.然而,對於某些語言來說,大規模的影象描述配對語料庫可能是不可用的.我們提出了一種通過語言Pivoting來解決這個未配對影象標題問題的方法。我們的方法可以有效地從樞軸語言(中文)中捕捉影象調整器的特徵,並使用另一個樞軸-目標(中-英)句子並行語料庫將其與目標語言(英文)對齊。我們對兩個影象到英語基準資料集:MSCOCO和Flickr30K進行了評估。與幾種基線方法的定量比較表明了我們方法的有效性。
在這裡插入圖片描述

Women Also Snowboard: Overcoming Bias in Captioning Models
來自加州伯克利和Boston University的一個工作。
摘要:大多數機器學習方法都是用來捕獲和利用訓練資料的偏差。有些偏見有利於學習,而另一些則有害。具體來說,影象描述模型傾向於誇大訓練資料中存在的偏差(例如,如果在60%的訓練句子中存在一個單詞,則在測試時70%的句子中可以預測到)。這可能導致不正確的標題,在領域,無偏見的描述是想要,或需要,由於過度依賴所學的先驗和形象的上下文。在本工作中,我們調查了基於人的外表或形象背景的特定性別的標題詞(例如,男人、女人)的生成。我們引入了一個新的均衡器模型,它鼓勵在場景中排除性別證據時,平等的性別概率,並在性別證據存在時進行有信心的預測。由此產生的模型被迫著眼於一個人,而不是使用上下文線索來做出特定性別的預測。構成模型的損失、外觀混亂損失和自信損失是通用的,可以新增到任何描述模型中,以減輕描述資料集中不必要的偏見的影響。我們提出的模型在描述人與人之間的影象和提到他們的性別時比以前的工作有更小的誤差,並且更接近於包括女性和男性在內的句子的基本真實比。最後,我們展示了我們的模型在預測人們的性別時更多地關注他們。
總結來說,是為了解決資料偏差的問題,題目很有意思,就是說因為資料庫裡大部分都是男的玩滑雪板,導致預測結果都是男的,但其實女的也有,只是因為資料庫中女的少,導致難以預測出女的。
在這裡插入圖片描述