語言理解：影象檢索的大規模視覺編碼

阿新 • • 發佈：2018-11-03

編者：楊柳依依

日期：2018年9月16日

今天給大家介紹一篇來自2018年ACL會議上的論文，講的是如何利用影象檢索的特徵表達詞嵌入特徵。

1.背景知識

在介紹論文之前，我們先簡單瞭解下本文的思路和做法。

作者引入了Picturebook，通過影象檢索得到的物理世界的詞彙的查詢表。對於詞庫中的每一個詞，作者在谷歌搜尋引擎中檢索得到前k張的影象，並將影象輸入到卷積網路中提取詞嵌入向量。作者加入了多模型的門函式去融合Picturebook嵌入和其他的詞表徵。同時引入了逆Picturebook，一種機制將Picturebook嵌入向量對映到詞。並且作者將這種嵌入方法在多個任務中實驗，比如詞相似度、自然語言介面、語義相關度、情感、主題分類、影象/文字排序和機器翻譯中。

1.1視覺與詞彙的組合

近幾年中，大量的研究在整合視覺與語言來得到視覺為基礎的詞及句子的表達。在這些研究中，現在使用的有影象搜尋引擎的方法。搜尋引擎允許得到語言和影象上的關聯，而不需要受限於現存的詞彙有限的大規模資料集的影響。搜尋引擎幫助我們得到我們的客觀世界的詞彙覆蓋度高的形式。

這些表徵應用的場景比如將詞彙對映到向量的查詢表。學習分散式詞表示的主流方法是寫入矩陣中。查詢表主要是學習物體的共現的關係或者任務約束的激勵訊號。得到詞向量的另一種的方法是通過影象檢索整合得到特徵。這種方法包括檢索出前k張影象，訓練卷積網路提取再組合特徵。

1.2作者的貢獻點

a.通過影象檢索得到Glove詞庫中出現的2.2百萬的單詞的Picturebook嵌入，使得每個單詞既有Glove嵌入又有對應的影象嵌入。

b.引入了多模型門機制去在glove和PictureBook上自動選擇。

c.引入了逆Picturebook，實現了逆向的查詢表的使用。

d.在門機制上做了大量的研究，結果表明門機制是與人類對實體的認知相關的，同時Picturebook與影象的散度相關度不高。表明嵌入向量的選擇取決於抽象的層級。

e.卷積網路對提取嵌入作用很大。

2.Picturebook嵌入

現在重點介紹下Picturebook的思想。

2.1 picturebook的推導

卷積網路可用來獲取Picturebook的嵌入。比如是搜尋，正例，反例圖片的三元組。作者定義下面的hingeloss

f（pi）是影象pi的嵌入，D(.,.)是歐式距離，g是邊界的超引數。假設我們有關係對

，表明影象pi和pj的相似度。

優化函式如下：

是鬆弛變數，W是網路模型引數向量。模型是根據100+百萬的資料集端到端訓練的。wang et al.(2014)有具體的訓練細節，包括網路的特殊設計。

模型訓練之後，作者使用卷積網路作為影象的特徵提取器。假設我們想得到單詞w的PitureBook的嵌入。作者首先用queryw去檢索影象，得到排好序的影象。PictureBook的嵌入可表示為：

以檢索順序排列的特徵的級聯。在模型中，每個嵌入得到64維的向量，最終Picturebook得到64*k維。實驗中k=10.得到的詞嵌入為640維。

2.2視覺與語義相似度

訓練過程是受相似度影響的。我們考慮兩種影象的相似度：視覺的與語義的。比如藍色的車可能在視覺上與更多別的藍色的車相似度高，與語義上的其他的車相比。在實驗中考慮兩種相似度。實驗表明，語義的相似度比視覺的要好。

2.3 多模型門機制融合

在表示實物的單詞的詞嵌入時，Picturebook效果好但是對於抽象詞效果的不太明確。所以將Picturebook和其他來源資訊的嵌入融合。比如glove嵌入或隨機初始化的嵌入eg。融合多模型嵌入如下：

門機制允許模型視覺嵌入的比例。

2.4 上下文門機制

上面提到的門機制是無上下文資訊的，在一些情況下，使用單詞出現的上下文資訊可以決定PictureBook和Glove的權重。

將替代成

2.5 逆Picturebook

給定Picturebook，如何找到表達中最近的詞或句子呢。比如。給定英語中的bicycle和picturebook,想要找到產生該表達的法語詞。

作者介紹了一種不同機制可以將詞在不同的源語言和目標語言中對映。比如h是模型的內在表達，ei是第i個Picturebook中嵌入矩陣Ep中的詞：

給定表達h，公式6簡單發現了在嵌入空間中的相似詞，增加引數便於學習：

e‘和bi度是訓練的詞向量和偏置。

3.實驗結果

語義相似度的結果：

機器翻譯：

語言理解：影象檢索的大規模視覺編碼