Distributed Representations of Words and Phrases and their Compositionality

阿新 • • 發佈：2018-11-29

最近提出的連續skip-gram模型是學習高質量分散式詞向量表示的有效方法，它捕獲了大量精確地語法和語義資訊。本文的擴充套件是提高向量的質量和訓練的速度。通過下采樣一些頻繁的詞獲得速度很大的提升，並且學得更規則的詞表示，並且提出了一個可以替換層次級softmax的方法，叫負取樣。

1 Introduction

在NLP中，向量空間中的詞的分散式表示有助於獲得更好的效能。最早使用詞的表示可以追溯到1986年，這個方法運用在統計語言模型取得很好的成就，工作包括自動語音識別，機器翻譯和其他NLP任務。

最近Mikolov提出了skip-gram模型，從大量無結構化的文字學習高質量的向量表示的有效方法，和其他學習詞的向量表示的神經網路不同，訓練skip-gram模型不涉及稠密矩陣乘法，這讓訓練變得非常有效，一個優化好的單個機器可以每天訓練1億個詞。

使用神經網路訓練的詞向量非常有趣，因為他們學習到的向量有很多語言學的規則和模式，奇怪的是，一些模式可以進行線性操作。例如：vec(“Madrid”) - vec(“Spain”) + vec(“France”) 接近 vec(“Paris”)

本文提出了原始skip-gram模型的擴充套件，我們發現對於頻繁的詞進行下采樣可以增加訓練速度，還提高了頻率少的詞的準確率。另外提出NCE（噪音對比估計）來訓練skip-gram模型，對於頻繁的詞可以訓練得更快，和層次級的softmax對比，頻繁的詞獲得更好的向量表示。

詞的表示受限於無法表示習語，這些詞不是獨自的單詞，例如：“Boston Globe”是一家報紙，而不是單詞‘Boston’和‘Globe’的組合。因此，使用向量表示整個短語讓skip-gram模型變得更有表達力，組合詞向量來表示句子的意思，比如迴圈自動編碼器，使用短語向量比使用詞向量更好。

擴充套件模型從基於詞到基於短語是比較簡單的，首先使用大資料獲得很多短語，每個短語都作為單獨個體，評價短語向量的質量是設計一個數據集，包含短語的單詞的資料，比如“Montreal”:“Montreal Canadiens”::“Toronto”:“Toronto Maple Leafs”，如果

vec(“Montreal Canadiens”) - vec(“Montreal”) +vec(“Toronto”) 接近 vec(“Toronto Maple Leafs”)

那麼這些向量就是好的。

最後，是skip-gram模型的另一個有趣的性質，發現簡單的向量加法可以獲得有意義的結果，比如vec(“Russia”) + vec(“river”)接近vec(“Volga River”)，vec(“Germany”) + vec(“capital”)接近 vec(“Berlin”)

2 The Skip-gram Model

2.1 Hierarchical Softmax

整個sotfmax的計算有效方法是層次級softmax，在神經網路語言模型裡，主要的優點不是估計W個輸出節點來獲得概率分佈，而僅需要估計log2(W)個節點。

層次級softmax在輸出層使用二叉樹來表示W個詞，W個詞是葉子，每個節點表示他的子節點的相對概率，這些隨機線路給每個詞賦予概率。

2.2 Negative Sampling

層次級softmax的代替方法是Noise Contrastive Estimation (NCE)，NCE認為可以通過邏輯迴歸區分資料和噪音，這個hinge loss相似。

NCE可以近似最大化softmax的對數概率，skip-gram模型只關注學習高質量的詞向量，所以可以在保持向量的質量的前提下，簡化NCE，定義負取樣（NEG）公式如下：

2.3 Subsampling of Frequent Words

在大語料庫上，頻繁的詞可以出現上百萬次（in，the，a），這些詞比出現少的詞提供很少的資訊，例如，skip-gram模型可以從共現詞‘France’和‘Paris’獲得很好的資訊，但是對於共現‘France’和‘the’的獲益就較少了。這個原理也可以應用在反面，頻繁的詞的詞向量在訓練百萬級別的樣本後變化不大。

3 Empirical Results

這節評估層次級softmax（HS），噪音對比估計，下采樣和訓練詞語的次取樣。

Distributed Representations of Words and Phrases and their Compositionality

1 Introduction