1. 程式人生 > >Exploring Models and Data for Image Question Answering 論文翻譯

Exploring Models and Data for Image Question Answering 論文翻譯

這項工作旨在解決基於影象的問答(QA)與新模型和資料集的問題。 在我們的工作中,我們建議使用神經網路和視覺語義嵌入,而不需要諸如物件檢測和影象分割之類的中間階段來預測關於影象的簡單問題的答案。 我們的模型比現有影象質量保證資料集上的唯一公佈結果好1.8倍。 我們還提出了一種問題生成演算法,該演算法將廣泛可用的影象描述轉換為QA形式。 我們使用此演算法生成一個數量級更大的資料集,具有更均勻分佈的答案。 還提供了一套關於這個新資料集的基線結果

結合影象理解和自然語言互動是人工智慧的巨集偉夢想之一。 我們感興趣的是通過問答任務共同學習影象和文字的問題。 最近,研究影象標題生成的研究人員[1,2,3,4,5,6,7,8,9,10]已經開發出強大的方法,可以從影象和文字輸入中聯合學習,從卷積神經模型等模型中形成更高級別的表示。 網路(CNN)訓練有關物體識別,以及在大規模文字語料庫上訓練的文字嵌入。 影象質量保證涉及人與計算機之間的額外互動層。 這裡的模型需要注意影象的細節,而不是模糊的描述。 該問題還結合了許多計算機視覺子問題,例如影象標記和物件檢測。

在本文中,我們展示了我們對該問題的貢獻:使用視覺語義嵌入來連線CNN和遞迴神經網路(RNN)的通用端到端QA模型,以及與一套其他模型的比較; 一種自動問題生成演算法,可將描述語句轉換為問題; 以及使用該演算法生成的新QA資料集(COCO-QA),以及此新資料集上的大量基線結果。

286/5000

在這項工作中,我們假設答案只包含一個單詞,這使我們可以將問題視為分類問題。 這也使得模型的評估更容易,更穩健,避免了困擾多字生成問題的棘手評估問題

3 方法

這裡介紹的方法是雙重的。 在模型方面,我們開發並應用各種形式的神經網路和視覺語義嵌入這一任務,在資料集方面,我們提出了從當前可用的影象描述資料集合成QA對的新方法

653/5000

近年來,遞迴神經網路(RNN)在自然語言處理(NLP)領域取得了一些成功。 長期短期記憶(LSTM)[19]是RNN的一種形式,由於其線性誤差傳播和乘法門控,它比標準RNN更容易訓練。 我們的模型直接建立在LSTM句子模型之上,稱為“VIS + LSTM”模型。 它將影象視為問題的一個詞。 我們從Vinyals等人的標題生成工作中借用了將影象視為一個詞的想法。[1]。 我們將這個新提出的模型與實驗結果部分中的一套更簡單的模型進行比較。

  1. 我們使用在ImageNet 2014 Challenge [21]上訓練的19層牛津VGG Conv Net [20]的最後一個隱藏層作為我們的視覺嵌入。我們模型的CNN部分在訓練期間保持冷凍狀態。
  2. 我們嘗試了幾種不同的詞嵌入模型:隨機初始化嵌入,資料集特定的跳過 - 嵌入嵌入和通用跳過 - 嵌入嵌入模型[22]。單詞嵌入與模型的其餘部分一起訓練
  3. 然後我們將影象看作是句子的第一個單詞。與DeViSE類似[23],我們使用線性或仿射變換將4096個維度影象特徵向量對映到與單詞嵌入的維度匹配的300或500維向量。
  4. 我們可以選擇將影象視為問題的最後一個字,也可以通過不同的權重矩陣,並可選地新增一個反向LSTM,它具有相同的內容,但是以後向順序的方式操作。
  5. LSTM(s)輸出在最後一個時間步進入softmax層以生成答案

3.2 問答製作

當前可以利用的DAQUAR 資料集包好大約1500張圖片和7000個問題在37個普遍的物體類別,可能沒能足夠去訓練大的複雜的網路模型。另外一個問題用當前的資料集是簡單地猜測這個模型可能會產生很不錯的正確率。

我們致力於建立擰一個數據集,為了產生一個更大的數量的QA對和一個更詳細的問題的答案。收集人類的行為方式是一個重要的途徑,另一個是合成問題基於影象的標籤,我們相反的打算自動轉化描述為QA的形式。在一般情況下,圖片上提及到的目標描述比DAOUAR煩人人類產生的問題、合成的基於實際標籤的QA。這樣允許模型更多的依賴於未經加工的沒有任何邏輯的圖片理解。最後轉變理解保留語言的多樣性在最原始的描述中,結果會產生更過的類人問題而不是問題的標籤。

 

作為一個開端,我們使用MS-COCO資料集,但是相同的方法可以應用到其他的圖片描述資料集中,例如Flickr,SBU,或者甚至是因特網。

3.2.1 預處理和常見策略

我們使用斯坦福分析程式去獲得最原始影象的語義結構。我們也利用這些策略去形成問題。

  1. 合成句子到簡單的句子。

這裡我們只考慮一個簡單的例子:兩個句子被載入到一起通過連線詞。我們分離原來的句子,變成兩個獨立的句子。

  1.  模糊的限定詞‘an’去定義限定詞‘the’。
  2. 詞移動限制

在英語中,問題傾向於以疑問詞例如‘what’開頭,這個演算法需要去移動動詞和以‘wh-’為成分的句子的開頭。例如:‘A man is riding a horse’ 變成‘what is the man riding?’,在這項工作中,我們考慮下面兩個簡單的約束:(1)限制wh-在名詞性短語中移動的原則。(2)我們的演算法不會移動任何包含在子句中的‘wh’單詞。

3.2.2 問題生成

問題生成仍然是一個開放式的話題。總的來說,我們採取一個比較保守的方法去生成問題試圖產生高質量的問題。我們考慮到生成以下四種類型的問題:

1、物體問題:首先,我們考慮使用‘what’去問一個物體。這個包含用‘what’替代句子中一個真實的物體,然後轉換句子的結構為了讓‘what’出現在句子的開頭。整個演算法有一下的階段:(1)將長句分割成簡單的句子。(2)轉變不確定的限定詞去定義限定詞。(3)貫穿句子,找到可能存在的答案,然後代替‘what’。在遍歷所有的物體型別的問題的時候,我們忽略所有的藉此短語(4)執行wh

-  的移動。為了與辨別一個可能存在的問題的答案,我們使用WordNet 和 NLTK 軟包去獲得名次分類。

  1. 數字問題:我們遵循和先前演算法相似的步驟,除了辨別潛在答案的方法:我們提取數字從最原始的句子中。分割合成句子,改變限定詞,然後wh-移動保持不變。
  2. 顏色問題:顏色問題更容易去生成。在僅僅需要定位顏色的形容詞和名次附屬的形容詞。然後它簡單的形成一個句子“what’s the color of the [object]?” 其中‘object’名詞被真實的物體所代替。
  3. 位置問題:跟生成物體問題相似。遍歷只會搜尋以介詞“in”開頭的PP成分。我們同樣新增規則與過濾以便於答案將更可能是地方、場景、或者是包含小物體的大物體。

3.2.3 後期處理

我們拒絕太稀有或者太頻繁的答案在我們生成的資料集中。在 QA 拒絕操作之後,最常見的回答詞的頻率從24.98%減少到7.30%在COCO-QA資料集中。

4 實驗結果

 4.1 資料集

表格一總結了COCO-QA的統計。應該注意的是,自從我們使用了QA 對拒絕處理,模型猜測表現的非常糟糕在COCO-QA資料集上。但是,COCO-QA資料集上的問題確實比DAOUAR上的問題更容易回答從人類的角度上來看。這個鼓勵模型去開發顯著的目標之間的關係而不是用盡一切地搜尋所有可能存在的關係。COCO-QA 資料集可以在以下網址中下載:http://www.cs.toronto.edu/~mren/imageqa/data/cocoqa/

 

這裡我們提供了一些簡短的新資料集的統計資料,最大問題的長度是55,平均是9.65.最普遍的回答是“two”(3116,2.65%),“white”(2851,2.42%),“red”(2443,0.02%),最不普遍是“eagle”(25,0.02%),“tram”(25,0.02%),“sofa”(25,0.02%)。比較適中數量的答案是“bed”(867,0.737%)。在整個測試集合中(38948 QAs),9072(23.29%)與訓練問題重疊,有7284(18.7%)重疊在問題-答案對。

4.2 模型細節

 1.VIS-LSTM:最開始的模型是有著降維的權重矩陣的CNN和LSTM。我們把它稱作是“VIS+LSTM”在我們的表格和圖形中。

 2. 2-VIS+BLSTM:第二個模型有兩個影象特徵的輸入,在開始和結尾的句子中,有著不同的學習線性轉換,同樣也有著LSTM的朝著不同的方向前進。BOTH LSTM 輸出到softmax 層在最後的一個時間步驟中。

 3. IMG+BOW :這個模型表現出多項式的邏輯迴歸基於影象的特徵,在沒有降維的情況下(4096維),通過總結所有學到的問題的詞向量來獲得詞袋向量。

 4.FULL :最後,,FULL 模型是一個簡單的以上三個模型的平均。

我們模型的細節放在以下的網址中:https://github.com/renmengye/imageqa-public

4.3基準線

 為了評估我們,我們模型的有效性,我們設計了一些基準線。

  1. GUESS:一個非常簡單的基準線是預測基於問題型別的模型。例如,如果問題包含“how many”,這個模型將會輸出“two”。在DAQUAR,模式是“table”,‘two’,‘white’,然而在coco-qa 資料集模式是“cat”,”two ”,”white”和“room”
  2. BOW:我們設計一系列的“看不見的”模型,只給出了問題而沒有圖片。其中一個看不見的模型表現邏輯迴歸在BOW向量中迴歸問題的答案。
  3. LSTM :另外一個“看不見的”模型我們實驗的有著簡單的額問題輸入單詞進入LSTM網路中。
  4. IMG: 我們同時也訓練一個副本“deaf”模型,對每一種型別的問題,我們訓練一個單獨的CNN分類層(在訓練的過程中將所有的低層次的網路凍結)。需要注意的是,這個模型需要知道問題的型別,以便於使他對於可以考慮到縮小範圍空間的問題答案更有比較性。然而這個模型不知道任何的問題除了他的型別。
  5. IMG+PRIOR:這個基線結合一個物體先前的知識和“deaf model”的影象理解。例如一個問題問一隻正在藍藍天上飛的白鳥的顏色可能輸出的白而不是藍僅僅是因為鳥的藍色先驗概率較低。我們將c表示為顏色,將o表示為感興趣物件的類,將x表示為圖片。假設o和x在顏色方面是有條件獨立的,

這個可以被計算如果 p(c|x) 是CNN的邏輯迴歸的特徵獨立輸出,我們很容易地用經驗估計 p(o|c):: 。我們在這種經驗分佈上使用拉普拉斯平滑。

  1. KNN:在圖片標題生成的任務中,Devlin et al 展示最近鄰居基線方法表現的確實特別不錯。為了看到我們的模型是否能記住我們的訓練資料對於新的問題來說,我們在結果中包含了一個KNN基線。不像影象標題生成,我們使用詞袋去代表從IMG+BOW中學到的東西,然後將它附加到CNN的影象特徵中。我們使用歐式距離作為相似度度量;通過學習相似性度量,可以改善最近鄰居結果。

4.4  效能標準

 為了評估模型的效能,我們使用簡單答案准確性以及Wu-Palmer相似度(WUPS)度量。WUPS 評估  相似度在基於分類樹的最長子序列的兩個單詞中,如果兩個單詞的相似度與一個閾值還低,一個零分將會給這個候選的答案。在Malinowski和Fritz ,我們採取所有的模型依據精確度,WUPS 0.9,和WUPS 0.0。

4.5 結果和分析

表格二中介了DAQUAR 和 COCO-QA 資料集上學習的結果。對於DAQUAR 來說,我們比較我們的結果with [32] and [14]。值得注意的是,我們的額DAQUAR 結果是資料集的一部分有著單一單詞的答案。在我們的論文發表後,,Ma et al 在兩個資料集中取得了更好的成果。

 從以上的結果來看我們看到我們的模型勝過基線和現存的途徑對於問題的準確度來說和WUPS . 我們VIS + LSTM  和 Malinkowski et al 的迴圈神經網路模型取得有一點相似的效能在DAQUAR .一個簡單的三種模型的平均促進增加效能1%~2%,勝過其他的模型。

我們很驚喜去看到IMG+BOW 模型是非常的強大在兩個模型的表現上。我們模型的一個限制是我們不能夠使用高達1096維的影象的特徵在一個時間片中,所以降維可能會失去一些有用的資訊。我們嘗試給IMG+BOW 一個變暗的影象向量,但是它比VIS+LSTM表現的更差。

 

通過比較盲版的BOW和LSTM模型,我們假定在影象QA任務中特別是在這裡的簡單的問題學習中,互動順序詞可能沒有自然語言任務一樣重要。

 同樣有趣的是,盲模型在DAQUAR 資料集上並沒有損失多少,我們推測很可能IMAGENET 圖片和室內的場景非常的不同,大部分是由傢俱組成的。可是,不盲的模型大幅度勝過盲的模型在COCO-qa 資料集上。這裡有一些可能的原因:1、MS-COCO 上的物體與ImageNet上的物體更加類似。2、MS-COCO影象具有較少的物件,而室內場景具有相當大的混亂。(3)MS-COCO 有著更多的資料去訓練更復雜的模型。

這裡有許多有趣的例子,但是由於空間的限制,我們只能呈現一些在圖一和圖二。完整的結果在以下的網址中。http://www.cs.toronto.edu/~mren/imageqa/results/ 對於一些圖片,我們新增一些額外的問題,這些可以更深入地瞭解模型對影象和問題資訊的表示,幫助說明我們的模型可能意外得到正確的結果的問題。括號代表的是各自模型在softmax層上的信任度。

模型的選擇:我們並沒有發現使用不同的詞向量在最後的分類中有重大的影響。我們觀察到微調單詞嵌入會帶來更好的效能,並將CNN隱藏影象特徵歸一化為零均值和單位方差有助於縮短訓練時間。雙向的LSTM模型可以將結果推向新的高度。

物體問題:因為最原始的CNN網路實在ImageNet挑戰賽上訓練的,IMG+BOW 模型非常顯著地得益於他的單個物體識別能力。然而,具有挑戰性的部分是考慮多個物件之間的空間關係並關注影象的細節,我們的模型僅僅做一個適度的、可接受的工作在這個方面。例子在第一張圖和第二張圖。有時候一個模型可能 不能做一個正確的決定,但是輸出一個最顯著的物體,然而有時候盲的模型可以僅僅基於這個問題猜測出這個物件(例如椅子應該在桌子的旁邊)儘管如此,與IMG模型相比,FULL模型將準確度提高了50%,IMG模型顯示了純物件分類和影象問答之間的差異。

計算:在DAQUAR,我們不能夠任何的計算能力優勢用iMG+BOW模型 ,對比於盲的模型VIS+LSTM也沒有任何的計算優勢。在COCO=QA 資料集上,我們可以觀測到計算能力在有著單一物體的非常清晰的影象中。這些模型有時最多可以計算五到六個。可是,正如圖三的第二張圖片所展示的那樣,能力相當弱,因為當存在不同的物件型別時它們不能正確計數。計數任務有很大的改進空間,實際上這可能是一個單獨的計算機視覺問題。

 

顏色:在COCO-QA中,IMG + BOW和VIS + LSTM在彩色型別問題上對盲人有明顯的勝利。我們進一步發現,這些模型不僅能夠識別影象的主色,而且有時將不同的顏色與不同的物件相關聯,如圖3的第一張圖所示。可是他們仍然在一些簡單的例子中失敗了。

新增先驗知識可以在顏色和數字問題的準確性方面立即獲得IMG模型。IMG + PRIOR和IMG + BOW之間的差距顯示了CNN影象表示中的一些區域性顏色關聯能力。

 

5 總結和當前的方向

在本文中,我們考慮影象QA問題並呈現我們的端到端神經網路模型。我們的影象呈現了合理的問題理解和比較粗糙的影象理解,但它在一些場合仍然比較簡單。當迴圈當迴圈神經網路已經變成一個流行的選擇在學習影象和文字方面,我們呈現一個 bag-of-words  可以表現一樣好,借用了影象標題生成框架。我們提出了一套更完整的基線,可以為開發更復雜的端到端影象問答系統提供潛在的洞察力。由於當前可用的資料集不夠大,我們開發了一種演算法,可幫助我們從影象描述中收集大規模影象QA資料集。我們的問題生成演算法可以擴充套件到許多影象描述資料集,並且可以自動化而無需大量的人力。我們希望新資料集的釋出將在未來鼓勵更多資料驅動的方法來解決這個問題。

影象問題回答是一個相當新的研究課題,我們在這裡提出的方法有許多侷限性。首先,我們的模型只是回答分類器。理想情況下,我們希望允許更長的答案,這將涉及一些複雜的文字生成模型或結構化輸出。但這需要一個自動的自由形式答案評估指標。其次,我們只關注有限的問題領域。然而,這一有限的問題範圍使我們能夠更深入地研究結果。最後,也難以解釋為什麼模型會輸出一定的答案。通過比較我們的模型和一些基線,我們可以粗略地推斷出他們是否理解影象。視覺注意是另一個未來方向,它既可以改善結果(基於最近影象字幕的成功[8]),也可以通過檢查每個時間步的注意力輸出來幫助解釋模型預測。