1. 程式人生 > >神經概率語言模型

神經概率語言模型

  • 統計語言建模的目標是學習語言中單詞序列的聯合概率函式。由於 the curse of dimensionality,這本質上是困難的:測試模型的單詞序列可能與訓練期間看到的所有單詞序列不同。一種基於n-gram的傳統的但非常成功的方法是,通過連線訓練集中看到的非常短的重疊序列來獲得泛化。我們建議通過學習詞的分散式表示來對抗 the curse of dimensionality,這允許每個訓練 sentence 告訴模型關於語義相鄰句子的指數個數(inform the model about an exponential number of semantically neighboring sentences.)。該模型同時學習每個單詞的分散式表示以及單詞序列的概率函式,用這些表示來表達。如果單詞序列是由已經見過的單詞(在具有附近表示的意義上)的相似單詞構成的,那麼獲得泛化是因為之前從未見過的單詞序列具有較高的概率。在合理的時間內訓練這樣的大型模型(具有數百萬個引數)本身就是一個重大挑戰。我們闡述了使用神經網路進行概率函式的實驗,展示了在在兩個文字語料庫中所提出的方法顯著改進了最先進的n-gram模型,並且所提出的方法允許利用更長的上下文。