1. 程式人生 > >【NLP_Stanford課堂】語言模型

【NLP_Stanford課堂】語言模型

ron 獨立 nlp .... 語音識別 鏈式 ima 馬爾可夫模型 alt

一、語言模型

旨在:給一個句子或一組詞計算一個聯合概率技術分享圖片

作用:

  • 機器翻譯:用以區分翻譯結果的好壞
  • 拼寫校正:某一個拼錯的單詞是這個單詞的概率更大,所以校正
  • 語音識別:語音識別出來是這個句子的概率更大
  • 總結或問答系統

相關任務:在原句子的基礎上,計算一個新詞的條件概率技術分享圖片,該概率與P(w1w2w3w4w5)息息相關。

任何一個模型計算以上兩個概率的,我們都稱之為語言模型LM。

二、如何計算概率

方法:依賴概率的鏈式規則技術分享圖片

從而有:

技術分享圖片

問題:如何預估這些概率

方法一:計數和細分

技術分享圖片

但是不可能做到!

原因:句子數量過於龐大;永遠不可能有足夠的數據來預估這些(語料庫永遠不可能是完備的)

方法二:馬爾可夫假設

技術分享圖片

或者:

技術分享圖片

即:

技術分享圖片

所以:

技術分享圖片

三、馬爾可夫模型

1. Unigram model

技術分享圖片

其假設詞是相互獨立的

2. Bigram model

技術分享圖片

3. N-gram models

但是並不有效,因為語言本身存在長距離依存關系

比如"The computer which ......crashed" 單詞crash本身其實是依賴於主語computer的,但是中間隔了一個很長的從句,在馬爾可夫模型中就很難找到這樣的依存關系

但是在實際應用中,發現N-gram可以一定程度上解決這個問題

【NLP_Stanford課堂】語言模型