1. 程式人生 > >【論文閱讀】A Neural Probabilistic Language Model

【論文閱讀】A Neural Probabilistic Language Model

《A Neural Probabilistic Language Model》

Yoshua Bengio 2003

Abstract

統計語言模型建模(Statistical Language Modeling)目標是學習一種語言中單詞序列的聯合概率函式。維度限制會導致:模型中測試的單詞序列與訓練集中的單詞序列不同。本文提出通過學習單詞的分散式表示來解決維度問題。模型通過訓練語句對指數級語義相關的句子進行建模。同時學習(1)每個單詞的分散式表示(2)單詞序列的概率函式。泛化(Generalization)是指從未出現的單詞序列,可以通過類似的詞的組成的已經出現的句子來獲得較高的概率。本文介紹了使用神經網路的概率函式的實驗,改進了n-gram模型,可以利用更長的上下文,並在兩個文字預料上都顯示了很好的效果。

關鍵詞: 統計語言模型 人工神經網路 分散式表示 維數災難

1 Introduction

當要模擬許多離散的隨機變數之間的聯合分佈時,如句子中的單子和資料探勘中的離散屬性,維度災難尤其明顯。對於離散空間,泛化結構不明顯:任何離散變數的變化都可能對估計函式造成重大影響。而每個離散變數的取值數目很大時,大多數觀察物件的漢明距離就幾乎是最遠的。

根據給定的前 t1 個詞,統計語言模型可以由第 t 個詞的條件概率表示

P^(wt1)=t=1TP^(wt=i|wt11)

其中, wt 是第 t 個單詞,將子序列寫為 wji=(wi,wi+1,...,wj1,wj) 。這種統計語言模型被證明在設計自然語言的許多技術應用中非常有用,如語音識別、語言翻譯個資訊檢索。

建立自然語言模型時可以利用詞序顯著降低建模問題的難度。對於大量上下文中的 n1 個單詞組合,n-gram模型為下一個單詞構造條件概率函式:

P^(wt|wt11
)P^(wt|wt1tn+1)

我們只考慮語料庫中實際出現的連續詞組合,或者頻繁出現的連續詞組合。
對於語料庫中未出現的n元單詞新組合,為避免為其分配零概率,考慮 back-off trigram models (Katz, 1987)或者 smoothed (or interpolated) trigram models(Jelinek and Mercer, 1980)中使用的方法:使用更小的語料進行概率預測。獲得新的單詞序列的方法主要是與插值(interpolated)或者n元回退(backoff n-gram)模型相關的生成模型,通過“粘合(gluing)”訓練資料中短且重複的長度為1,2甚至n個頻繁出現的單詞來生成新的單詞序列。

1.2 Previous Work

  • 利用神經網路對高維離散的分佈進行建模,對於學習 Z1...Zn 的聯合概率分佈有很大用處(Bengio and Bengio, 2000a,b)。在該模型中,聯合概率分佈被分解為條件概率的乘積:
    P^(Zt=z1,...,Zn=zn)=iP^(Zi=zi|gi(Zi1=zi1,Zi2=zi2,...,Z1=z1))
  • 使用神經網路進行語言建模Miikkulainen and Dyer, 1991;基於字元的文字壓縮,利用神經網路預測下一個字元的概率(Schmidhuber, 1996);模型由於沒有隱藏單元和單個輸入詞而被限制為捕獲單資料和二元資料統計(Xu and Rudnicky, 2000)
  • 發現單詞相似關係獲得新序列的泛化:基於學習詞彙聚類的方法(Brown et al., 1992, Pereira et al., 1993, Niesler et al., 1998, Baker and McCallum, 1998)
  • 向量空間表示方法在文字中的使用:資訊檢索(Schutze, 1993)

2 A Neural Model

模型: f(wt,...,wtn+1)=P^(wt|wt11)

其中,訓練集由 w1...wt 序列組成, wtV ,單詞 V 是有限的集合。將模型分解為兩個部分:

  • 將詞彙表 V 中的元素 i 對映到實向量 C(i)R 中,該向量表示詞彙表中每個詞的分散式特徵向量。 C(i) 是一個大小為 |V|×m 的自由引數矩陣。
  • 函式 g 將上下文單詞的特徵向量 (C(wtn+1),...,C(wt1)) 作為輸入序列,將它們對映為 V 中下一個單詞 wt 的條件概率分佈。 g 的輸出是第 i 個單詞的估計概率向量 P^(wt=i|wt11) 。如下圖所示

這裡寫圖片描述

f(i,wt1,...,wtn+1)=g(i,C(wt1),...,C(wtn+1))
函式 f 是對映 C g 的組合, C 在上下文所有單詞間共享。矩陣 C 的第 i 行對應第 i 個單詞的特徵向量 C(i) 。函式 g 通過帶有引數 w 的前饋或遞迴神經網路或其他引數化函式來實現。整體引數集 θ=(C,w)
訓練通過最大化訓練語料庫的懲罰似然估計

相關推薦

論文閱讀A Neural Probabilistic Language Model

《A Neural Probabilistic Language Model》 Yoshua Bengio 2003 Abstract 統計語言模型建模(Statistical Language Modeling)目標是學習一種語言中單詞序列的聯合概率函式。維度限制會導致:模

論文閱讀Siamese Neural Networks for One-shot Image Recognition

 關鍵詞:      one-short learning :  待解決的問題只有少量的標註資料,先驗知識很匱乏,遷移學習就屬於one-short learning的一種 zero-short learning: 這個種情況下完全沒有

論文閱讀A Correlated Topic Model Using Word Embeddings

《A Correlated Topic Model Using Word Embeddings》 Abstract 傳統的主題模型能夠通過用邏輯正態分佈代替先驗的Dirichlet來捕捉潛在主題之間的相關結構。word embeddings 已經被證明能夠捕捉語義規律,因此語義相

論文閱讀A Closer Look at Spatiotemporal Convolutions for Action Recognition

【論文閱讀】A Closer Look at Spatiotemporal Convolutions for Action Recognition 這是一篇facebook的論文,它和一篇google的論文連結地址的研究內容非常相似,而且幾乎是同一時刻的研究,感覺這兩個公司真的冤家路窄,

論文閱讀Sequence to Sequence Learning with Neural Networks

看論文時查的知識點 前饋神經網路就是一層的節點只有前面一層作為輸入,並輸出到後面一層,自身之間、與其它層之間都沒有聯絡,由於資料是一層層向前傳播的,因此稱為前饋網路。 BP網路是最常見的一種前饋網路,BP體現在運作機制上,資料輸入後,一層層向前傳播,然後計算損失函式,得到損失函式的殘差

論文閱讀Clustering Convolutional Kernels to Compress Deep Neural Networks

文章:Clustering Convolutional Kernels to Compress Deep Neural Networks 連結:http://openaccess.thecvf.com/content_ECCV_2018/papers/Sanghyun_Son_Clustering_Kern

論文閱讀Learning Dual Convolutional Neural Networks for Low-Level Vision

論文閱讀(【CVPR2018】Jinshan Pan - Learning Dual Convolutional Neural Networks for Low-Level Vision)      本文針對低層視覺問題,提出了一般性的用於解決低層視覺問題的對偶卷積神經網路。作者認為,低層視覺問題,如常見的有

論文閱讀Non-local Neural Networks

Non-local Neural Networks Non-local Neural Networks是何凱明大佬組最近發表的一篇文章。一作Xiaolong Wang,本科畢業於華南農業大學,研究生是中山大學,博士去了CMU,然後做出了這麼好的工作,可以說非常勵志了。 類似於Ba

論文閱讀Aggregated Residual Transformations for Deep Neural Networks Saining(ResNext)

這篇文章是kaiming大神的組的工作,在resnet上繼續改進。一作謝賽寧,2013年從上海交大本科畢業後去UCSD讀博士,現在他引1400+了(不知道我畢業時能不能有這個的一半QAQ),導師是Zhuowen Tu。 Introduction 現代的網路設計中通常會次堆疊

論文閱讀Bag of Tricks for Image Classification with Convolutional Neural Networks

Bag of Tricks for Image Classification with Convolutional Neural Networks 論文:https://arxiv.org/pdf/1812.01187.pdf 本文作者總結了模型訓練過程中可以提高準確率的方法,如題,

論文閱讀Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

【論文閱讀】Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 這是一篇2017CVPR的論文,我感覺這篇論文最大的貢獻就是提出了kinetics資料集,這個資料集與之前的行為識別資料集相比有質的飛躍。同

論文閱讀Meta-SR: A Magnification-Arbitrary Network for Super-Resolution

開發十年,就只剩下這套架構體系了! >>>   

論文閱讀Accelerating the Super-Resolution Convolutional Neural Network

開發十年,就只剩下這套架構體系了! >>>   

論文閱讀Learning a Deep Convolutional Network for Image Super-Resolution

開發十年,就只剩下這套架構體系了! >>>   

論文閱讀The Ubuntu Dialogue Corpus

論文題目: The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems 語料庫: a. train.csv和論文所述一致。 1,000,000

論文閱讀韓鬆《Efficient Methods And Hardware For Deep Learning》節選《Learning both Weights and Connections 》

Pruning Deep Neural Networks 本節內容主要來自NIPS 2015論文《Learning both Weights and Connections for Efficient Neural Networks》。 這部分主要介紹如何剪枝網路

論文閱讀Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

簡述 看這篇論文,並實現一下這個。(如果有能力實現的話) 實時任意風格轉換(用自適應Instance Normalization) instanceNorm = batchsize=1 的 batchNorm 1 Abstract Gatys et al

論文閱讀Between-class Learning for Image Classification

文章:Between-class Learning for Image Classification 連結:https://arxiv.org/pdf/1711.10284.pdf CVPR2018 作者嘗試了將在音訊上的方法用在影象上的,並提出了一種將影象作為波形處理的混合方法(作者認為圖形波長融

論文閱讀Deep Adversarial Subspace Clustering

導讀:   本文為CVPR2018論文《Deep Adversarial Subspace Clustering》的閱讀總結。目的是做聚類,方法是DASC=DSC(Deep Subspace Clustering)+GAN(Generative Adversarial Networks)。本文從以下四個方面來

論文閱讀:Embedding-based News Recommendation for Millions of Users

非常實用性的一個推薦新聞的模型 摘要: 新聞推薦非常重要,但是傳統的基於使用者id的協同過濾和低秩分解推薦演算法不完全適用於新聞推薦,因為新聞類文章過期的太快了 基於單詞的方法效能不錯,但是有處理同義詞和定義使用者需求的問題 因此本文提出一種基於嵌入式的演算法,基於一種去噪自編碼器的