【論文閱讀】A Neural Probabilistic Language Model

《A Neural Probabilistic Language Model》

Yoshua Bengio 2003

Abstract

統計語言模型建模（Statistical Language Modeling）目標是學習一種語言中單詞序列的聯合概率函式。維度限制會導致：模型中測試的單詞序列與訓練集中的單詞序列不同。本文提出通過學習單詞的分散式表示來解決維度問題。模型通過訓練語句對指數級語義相關的句子進行建模。同時學習（1）每個單詞的分散式表示（2）單詞序列的概率函式。泛化（Generalization）是指從未出現的單詞序列，可以通過類似的詞的組成的已經出現的句子來獲得較高的概率。本文介紹了使用神經網路的概率函式的實驗，改進了n-gram模型，可以利用更長的上下文，並在兩個文字預料上都顯示了很好的效果。

關鍵詞： 統計語言模型人工神經網路分散式表示維數災難

1 Introduction

當要模擬許多離散的隨機變數之間的聯合分佈時，如句子中的單子和資料探勘中的離散屬性，維度災難尤其明顯。對於離散空間，泛化結構不明顯：任何離散變數的變化都可能對估計函式造成重大影響。而每個離散變數的取值數目很大時，大多數觀察物件的漢明距離就幾乎是最遠的。

根據給定的前 $t-1$ 個詞，統計語言模型可以由第 $t$ 個詞的條件概率表示

P^(wt1)=∏t=1TP^(wt=i|wt−11) $\hat{P}(w_1^{t})=\prod_{t= 1}^T \hat{P}(w_t=i|w_1^{t-1})$

其中，

wt $w_t$ 是第

t $t$ 個單詞，將子序列寫為

wji=(wi,wi+1,...,wj−1,wj) $w_i^{j}=(w_i,w_{i+1},...,w_{j-1},w_j)$ 。這種統計語言模型被證明在設計自然語言的許多技術應用中非常有用，如語音識別、語言翻譯個資訊檢索。

建立自然語言模型時可以利用詞序顯著降低建模問題的難度。對於大量上下文中的 $n-1$ 個單詞組合，n-gram模型為下一個單詞構造條件概率函式：

P^(wt|wt−11

)≈P^(wt|wt−1t−n+1) $\hat{P}(w_t|w_1^{t-1})\approx\hat{P}(w_t|w_{t-n+1}^{t-1})$
我們只考慮語料庫中實際出現的連續詞組合，或者頻繁出現的連續詞組合。
對於語料庫中未出現的n元單詞新組合，為避免為其分配零概率，考慮 back-off trigram models (Katz, 1987)或者 smoothed (or interpolated) trigram models(Jelinek and Mercer, 1980)中使用的方法：使用更小的語料進行概率預測。獲得新的單詞序列的方法主要是與插值(interpolated)或者n元回退(backoff n-gram)模型相關的生成模型，通過“粘合(gluing)”訓練資料中短且重複的長度為1,2甚至n個頻繁出現的單詞來生成新的單詞序列。

1.2 Previous Work

利用神經網路對高維離散的分佈進行建模，對於學習 $Z_1...Z_n$ 的聯合概率分佈有很大用處(Bengio and Bengio, 2000a,b)。在該模型中，聯合概率分佈被分解為條件概率的乘積：
$\hat{P}(Z_t=z_1,...,Z_n=z_n)=\prod_{i}\hat{P}(Z_i=z_i|g_i(Z_{i-1}=z_{i-1},Z_{i-2}=z_{i-2},...,Z_1=z_1))$
使用神經網路進行語言建模：Miikkulainen and Dyer, 1991；基於字元的文字壓縮，利用神經網路預測下一個字元的概率(Schmidhuber, 1996)；模型由於沒有隱藏單元和單個輸入詞而被限制為捕獲單資料和二元資料統計(Xu and Rudnicky, 2000)
發現單詞相似關係獲得新序列的泛化：基於學習詞彙聚類的方法(Brown et al., 1992, Pereira et al., 1993, Niesler et al., 1998, Baker and McCallum, 1998)
向量空間表示方法在文字中的使用：資訊檢索(Schutze, 1993)

2 A Neural Model

模型： $f(w_t,...,w_{t-n+1})=\hat{P}(w_t|w_1^{t-1})$

其中，訓練集由 $w_1...w_t$ 序列組成， $w_t\in{V}$ ,單詞 $V$ 是有限的集合。將模型分解為兩個部分：

將詞彙表 $V$ 中的元素 $i$ 對映到實向量 $C(i)\in{\mathbb{R}}$ 中，該向量表示詞彙表中每個詞的分散式特徵向量。 $C(i)$ 是一個大小為 $|V|\times{m}$ 的自由引數矩陣。
函式 $g$ 將上下文單詞的特徵向量 $(C(w_{t-n+1}),...,C(w_{t-1}))$ 作為輸入序列，將它們對映為 $V$ 中下一個單詞 $w_t$ 的條件概率分佈。 $g$ 的輸出是第 $i$ 個單詞的估計概率向量 $\hat{P}(w_t=i|w_1^{t-1})$ 。如下圖所示

這裡寫圖片描述

f(i,wt−1,...,wt−n+1)=g(i,C(wt−1),...,C(wt−n+1)) $f(i,w_{t-1},...,w_{t-n+1})=g(i,C(w_{t-1}),...,C(w_{t-n+1}))$
函式

f $f$ 是對映

C $C$ 和

g $g$ 的組合，

C $C$ 在上下文所有單詞間共享。矩陣

C $C$ 的第

i $i$ 行對應第

i $i$ 個單詞的特徵向量

C(i) $C(i)$ 。函式

g $g$ 通過帶有引數

w $w$ 的前饋或遞迴神經網路或其他引數化函式來實現。整體引數集

θ=(C,w) $\theta=(C,w)$ 。
訓練通過最大化訓練語料庫的懲罰似然估計

【論文閱讀】A Neural Probabilistic Language Model

《A Neural Probabilistic Language Model》

Abstract

1 Introduction

2 A Neural Model

【論文閱讀】A Neural Probabilistic Language Model

【論文閱讀】Siamese Neural Networks for One-shot Image Recognition

【論文閱讀】A Correlated Topic Model Using Word Embeddings

【論文閱讀】A Closer Look at Spatiotemporal Convolutions for Action Recognition

【論文閱讀】Sequence to Sequence Learning with Neural Networks

【論文閱讀】Clustering Convolutional Kernels to Compress Deep Neural Networks

【論文閱讀】Learning Dual Convolutional Neural Networks for Low-Level Vision

【論文閱讀】Non-local Neural Networks

【論文閱讀】Aggregated Residual Transformations for Deep Neural Networks Saining（ResNext）

【論文閱讀】Bag of Tricks for Image Classification with Convolutional Neural Networks

【論文閱讀】Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

【論文閱讀】Meta-SR: A Magnification-Arbitrary Network for Super-Resolution

【論文閱讀】Accelerating the Super-Resolution Convolutional Neural Network

【論文閱讀】Learning a Deep Convolutional Network for Image Super-Resolution

【論文閱讀】The Ubuntu Dialogue Corpus

【論文閱讀】韓鬆《Efficient Methods And Hardware For Deep Learning》節選《Learning both Weights and Connections 》

【論文閱讀】Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

【論文閱讀】Between-class Learning for Image Classification

【論文閱讀】Deep Adversarial Subspace Clustering

【論文閱讀】：Embedding-based News Recommendation for Millions of Users

【論文閱讀】A Neural Probabilistic Language Model

《A Neural Probabilistic Language Model》

Abstract

1 Introduction

2 A Neural Model

相關推薦