1. 程式人生 > >Distributed Representations of Words and Phrases and their Compositionality

Distributed Representations of Words and Phrases and their Compositionality

最近提出的連續skip-gram模型是學習高質量分散式詞向量表示的有效方法,它捕獲了大量精確地語法和語義資訊。本文的擴充套件是提高向量的質量和訓練的速度。通過下采樣一些頻繁的詞獲得速度很大的提升,並且學得更規則的詞表示,並且提出了一個可以替換層次級softmax的方法,叫負取樣。

 

1 Introduction

在NLP中,向量空間中的詞的分散式表示有助於獲得更好的效能。最早使用詞的表示可以追溯到1986年,這個方法運用在統計語言模型取得很好的成就,工作包括自動語音識別,機器翻譯和其他NLP任務。

最近Mikolov提出了skip-gram模型,從大量無結構化的文字學習高質量的向量表示的有效方法,和其他學習詞的向量表示的神經網路不同,訓練skip-gram模型不涉及稠密矩陣乘法,這讓訓練變得非常有效,一個優化好的單個機器可以每天訓練1億個詞。

使用神經網路訓練的詞向量非常有趣,因為他們學習到的向量有很多語言學的規則和模式,奇怪的是,一些模式可以進行線性操作。例如:vec(“Madrid”) - vec(“Spain”) + vec(“France”) 接近 vec(“Paris”)

本文提出了原始skip-gram模型的擴充套件,我們發現對於頻繁的詞進行下采樣可以增加訓練速度,還提高了頻率少的詞的準確率。另外提出NCE(噪音對比估計)來訓練skip-gram模型,對於頻繁的詞可以訓練得更快,和層次級的softmax對比,頻繁的詞獲得更好的向量表示。

詞的表示受限於無法表示習語,這些詞不是獨自的單詞,例如:“Boston Globe”是一家報紙,而不是單詞‘Boston’和‘Globe’的組合。因此,使用向量表示整個短語讓skip-gram模型變得更有表達力,組合詞向量來表示句子的意思,比如迴圈自動編碼器,使用短語向量比使用詞向量更好。

擴充套件模型從基於詞到基於短語是比較簡單的,首先使用大資料獲得很多短語,每個短語都作為單獨個體,評價短語向量的質量是設計一個數據集,包含短語的單詞的資料,比如“Montreal”:“Montreal Canadiens”::“Toronto”:“Toronto Maple Leafs”,如果

vec(“Montreal Canadiens”) - vec(“Montreal”) +vec(“Toronto”) 接近 vec(“Toronto Maple Leafs”)

那麼這些向量就是好的。

最後,是skip-gram模型的另一個有趣的性質,發現簡單的向量加法可以獲得有意義的結果,比如vec(“Russia”) + vec(“river”)接近vec(“Volga River”),vec(“Germany”) + vec(“capital”)接近 vec(“Berlin”)

2 The Skip-gram Model

 

2.1 Hierarchical Softmax

整個sotfmax的計算有效方法是層次級softmax,在神經網路語言模型裡,主要的優點不是估計W個輸出節點來獲得概率分佈,而僅需要估計log2(W)個節點。

層次級softmax在輸出層使用二叉樹來表示W個詞,W個詞是葉子,每個節點表示他的子節點的相對概率,這些隨機線路給每個詞賦予概率。

 

2.2 Negative Sampling

層次級softmax的代替方法是Noise Contrastive Estimation (NCE),NCE認為可以通過邏輯迴歸區分資料和噪音,這個hinge loss相似。

NCE可以近似最大化softmax的對數概率,skip-gram模型只關注學習高質量的詞向量,所以可以在保持向量的質量的前提下,簡化NCE,定義負取樣(NEG)公式如下:

2.3 Subsampling of Frequent Words

在大語料庫上,頻繁的詞可以出現上百萬次(in,the,a),這些詞比出現少的詞提供很少的資訊,例如,skip-gram模型可以從共現詞‘France’和‘Paris’獲得很好的資訊,但是對於共現‘France’和‘the’的獲益就較少了。這個原理也可以應用在反面,頻繁的詞的詞向量在訓練百萬級別的樣本後變化不大。

3 Empirical Results

這節評估層次級softmax(HS),噪音對比估計,下采樣和訓練詞語的次取樣。

4 Learning Phrases

4.1 Phrase Skip-Gram Results

5 Additive Compositionality

6 Comparison to Published Word Representations

7 Conclusion