最大熵模型python實現

本文參考nltk MaxentClassifier實現了一個簡單的最大熵模型，主要用於理解最大熵模型中一些數學公式的實際含義。
最大熵模型：

Pw(y|x)Zw(x)=1Zw(x)exp(∑i=1nwifi(x,y))=∑yexp(∑i=1nwifi(x,y))
這裡fi(x,y)代表特徵函式,wi代表每個特徵函式對於的權值。

如何計算測試資料x被分為類別y的概率呢？
總結成一句話：我們把x和y傳給每個特徵函式得到相應的特徵值(0或者1)，然後乘上相應的權值，最後通過softmax得到。

現在面臨兩個問題。
1.這裡的fi(x,y)究竟是什麼鬼，如何得到？
2.wi又如何求得？

先來看看第一個問題。
f

i(x,y)反映的是x和y的特徵，也就是說它是對輸入和輸出同時抽取特徵的
它的定義是

f(x,y)={1,x與y滿足某一事實0,否則
值得注意的是，這裡在判斷x,y是否滿足某一事實的時候不是簡單判斷x整體與y的關係，而是判斷x的特徵與y的關係。舉個例子：

x＝dict(a=1, b=1, c=1)
y='1'

這樣一個訓練資料,我們對它進行特徵提取時：
對x的第一個特徵抽取，用一個三元組表示就是(x某一特徵名，特徵名對應的值，y)
分別對x的特徵進行抽取得到三個特徵函式:
(‘a’,1,’1’)
(‘b’,1,’1’)
(‘c’,1,’1’)
抽取樣本中所有特徵函式的程式碼實現：

def maxent_train(train_toks):
    ...
    mapping = {}  # maps (fname, fval, label) -> fid
    for(tok, label) in train_toks:
        for(fname, fval) in tok.items():
            if (fname,fval,label) not in mapping:
                mapping[(fname,fval,label)] = len(mapping)
    ...

程式碼中mapping儲存了所有特徵函式，所以判斷x,y是否滿足某一事實就是看mapping能不能找到(x某一特徵名，特徵名對應的值，y)這樣的三元組。

來看看第二個問題，如何求wi
我們通過GIS演算法求它，這裡省略數學推導直接看結果。
演算法流程如下：
1.任意初始化wi,一般為0：

w(0)i=0,i∈{1,2,3,...,n}
這裡的下標表示第i個特徵對於的w,上標表示第t輪迭代。
2.重複以下更新直至收斂：w(t+1)i=w(t)i+1ClogEp̂ (fi)Ep(n)(fi),i∈{1,2,...,n}
其中C一般取樣本的最大特徵數，反應了w更新速度。
Ep̂ (f)=∑x,yP̂ (x,y)f(x,y)
表示的是某一個特徵函式關於經驗分佈P̂ (x,y)的期望值
Ep(f)=∑x,yP̂ (x)P(y|x)f(x,y)
表示的是某一個特徵函式關於模型P(y|x)與經驗分佈P̂ (x)的期望值

先來看P̂ (x,y)和P̂ (x)

P̂ (X=x,Y=y)=v(X

最大熵模型python實現

最大熵模型python實現

最大熵模型及其python實現

用最大熵模型進行字標註中文分詞（Python實現）

最大熵模型

通俗理解最大熵模型

淺談最大熵模型中的特徵

斯坦福大學-自然語言處理入門筆記第十一課最大熵模型與判別模型（2）

斯坦福大學-自然語言處理入門筆記第八課最大熵模型與判別模型

【統計學習方法-李航-筆記總結】六、邏輯斯諦迴歸和最大熵模型

統計學習---邏輯斯蒂迴歸與最大熵模型

leetcde 014 最大公共字首 python 實現

【機器學習】最大熵模型原理小結

最大熵模型（MaxEnt）解析

一些對最大熵模型的理解

最大熵模型中的數學推導

NLP --- 最大熵模型的解法（GIS演算法、IIS演算法）

NLP --- 最大熵模型的引入

《統計學習方法（李航）》邏輯斯蒂迴歸與最大熵模型學習筆記

深入解析最大熵模型

十、最大熵模型與EM演算法

最大熵模型python實現

相關推薦