1. 程式人生 > >自然語言處理(一)——基礎

自然語言處理(一)——基礎

現在流行的自然語言處理方法中,主要分為基於統計的經典模型和基於火熱的深度學習模型.統計模型主要會涉及到概率論和資訊理論方面的知識,在這裡會首先對其進行回顧.

未完

資訊理論

噪聲通道模型

在自然語言處理的過程中,常常類比於訊號傳輸的過程,將預處理的語料文本當做訊號源,編碼後資訊通過一個通道,再經過解碼得到訊號.這樣一個噪聲通道模型的目標是就是通過帶有噪聲的輸出訊號恢復輸入訊號.

這裡寫圖片描述

這一過程由貝葉斯公式可以表達為

I=argmaxIP(I|O)=argmaxIP
(O|I)P(I)P(O)=argmaxIP(O|I)P(I)

以上的描述框架可以放在語音識別(聲訊號對應於一個語句,需要找到對應可能性最大的文字),機器翻譯(從源語言到目標語言),詞性標註文字識別等

N-Gram語言模型

再到語言模型,語言模型的本意就是根據語料庫確定詞序列出現的概率,即P(S)=P(w1,w2,...,wn)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,..,wn1),但是這種方法需要解決引數空間過大以及資料稀疏的問題,因此借鑑馬爾科夫類似的思想,即下一個詞的出現僅僅依賴於前面的幾個詞,根據依賴前面詞的數量分為bigram

trigram等,上式也就簡化為

P(w1)P(w2|w1)...P(wn|w1,..,wn1)=P(w1)P(w2|w1)...P(wn|wn1)

或者

P(w1)P(w2|w1)...P(wn|w1,..,wn1)=P(w1)P(w2|w1)...P(wn|wn1wn2)
$$

N-gram也就是對下一個詞的條件概率逼近,N-gram

的通用表示式為

P(wn|w1n1)P(wn|