srilm語言模型中的平滑演算法——Good-Turing平滑演算法

阿新 • • 發佈：2019-01-13

最近使用使用python自己寫的語言模型和srilm得到的語言模型做對比，srilm裡還是有很多trick的，尤其是平滑演算法，集成了很多資料平滑演算法，研究的時候，記錄一下。

在srilm中有回退和差值兩類平滑演算法，簡單來說，回退就是將出現過的ngram的概率打個折扣，將那部分折扣下來的概率均攤為未出現的ngram作為他們的概率，而插值呢，一樣是對出現過的ngram打折扣，但是折扣下來的概率值均攤到所有的ngram上。對於那些出現的ngram來說，他們使用最大似然得到的真正概率(頻率)A大於使用插值得到的概率B大於使用回退得到的概率C，即

A>B>C

主要使用的平滑演算法

Good-Turing平滑演算法

Good-Turing演算法的思想是，對於出現次數大於某一閾值的ngram使最大似然用頻率計算是比較準確的，但是如果小於這個閾值，最大似然估計就不準了。這時候，演算法的處理就是利用出現次數較多的N階元組去調整出現比他少的N階元組的估計量。演算法的

對於中產（那些發生次數小於閾值的元組）發生了r次，假設它發生了r*次：

$\boldsymbol{r}*=\boldsymbol{(r+1)}\frac{N_{r+1}}{N_{r}}$

$\boldsymbol{N_{r}}$ 是所有發生次數為r的元組個數，同樣 $\boldsymbol{N_{r+1}}$ 是所有發生次數為r+1的元組個數，一般來說，發生次數為r的元組個數多餘發生次數為r+1的元組個數，這裡不要弄混發生次數和元組個數，如果做個比喻的話，那元組就是字典的key，元組個數是字典的value，元組個數是key的個數，不太嚴謹，但是好理解。

這樣的話，對於發生個數為0的元組的計數就不為0了，每個中產的概率都比以前要小了，小的那部分，分給了窮人。這裡的發生個數為0指的是在訓練集中發生次數為0，即在訓練集中沒有出現，在測試集中第一次出現，然後用的是在訓練集中出現1次的元組來估計，這樣那些第一次出現的次數為不為0，實現了平滑。

證明所有元組概率之和為1的推到如下：

nr是所有發生次數為r的元組個數，同樣nr+1是所有發生次數為r+1的元組個數，一般來說，發生次數為r的元組個數多餘發生次數為r+1的元組個數，這裡不要弄混發生次數和元組個數，如果做個比喻的話，那元組就是字典的key，元組個數是字典的value，元組個數是key的個數，不太嚴謹，但是好理解。

證明所有元組概率之和為1的推到如下：

上式是對於次數為r概率重新估計的元組，概率為θ

保證概率的總和為1，出現同樣次數的元組具有相同的概率，所以總的概率就是出現在不同次數的概率與這個次數的元組總數的乘積之和，即θ(r)N的總和:

其中

$\sum (r+1) N_{r+1}=\sum rN_{r}$

因此最後保證了概率之和為1：

參考：

srilm語言模型中的平滑演算法——Good-Turing平滑演算法

srilm語言模型中的平滑演算法——Good-Turing平滑演算法

SRILM語言模型格式解讀

Mac OSX下安裝配置SRILM語言模型訓練工具

n-gram語言模型及平滑演算法

NLP中的語言模型及文字特徵提取演算法

SRILM使用之訓練無平滑語言模型

word2vec 中的數學原理三背景知識語言模型

自然語言處理中的語言模型預訓練方法

為什麼使用神經網路訓練得到的語言模型不需要做資料平滑

NLP中語言模型預訓練方法

語言模型訓練工具SRILM

自然語言處理中CNN模型幾種常見的Max Pooling操作

自然語言處理中的詞袋模型

R語言︱機器學習模型評估方案（以隨機森林演算法為例）

自然語言處理中的N-Gram模型詳解

EM(期望最大演算法)在高斯混合模型中的python實現

EM演算法在高斯混合模型中的應用（詳細解釋與求解）

概率語言模型 Probabilistic Language Modeling (二) --- 模型估計演算法介紹

語言模型：Trigram-模型的平滑估計

語言模型訓練工具：SRILM的使用

srilm語言模型中的平滑演算法——Good-Turing平滑演算法

相關推薦