【中文分詞】最大熵馬爾可夫模型MEMM

阿新 • • 發佈：2019-01-18

Xue & Shen '2003 [2]用兩種序列標註模型——MEMM (Maximum Entropy Markov Model)與CRF (Conditional Random Field)——用於中文分詞；看原論文感覺作者更像用的是MaxEnt (Maximum Entropy) 模型而非MEMM。MEMM是由McCallum et al. '2000 [1]提出MEMM，針對於HMM的兩個痛點：一是其為生成模型（generative model），二是不能使用更加複雜的feature。

1. 前言

首先，將簡要地介紹HMM與MaxEnt模型。

HMM

概率圖模型（probabilistic graphical model, PGM）指用圖表示變數相關（依賴）關係的概率模型，主要分為兩類：

有向圖模型或貝葉斯網（Bayesian network），使用有向圖表示變數間的依賴關係；
無向圖模型或馬爾可夫網（Markov network），使用無向圖表示變數間相關關係。

監督學習的任務就是學習一個模型，對於給定的輸入\(X\)，能預測出類別\(Y\)。所學習到的模型一般可表示為決策函式：

\begin{equation}
Y = f(X)
\label{eq:deci}
\end{equation}

或者為條件概率

\begin{equation}
\arg \mathop{max}\limits_{Y} P(Y|X)
\label{eq:cond}
\end{equation}

監督學習的模型分為生成模型（generative model）與判別模型（discriminative model）。生成模型學習聯合概率分佈\(P(X, Y)\)，然後通過貝葉斯定理求解條件概率\eqref{eq:cond}，而判別模型則是直接學習決策函式\eqref{eq:deci}或條件概率\eqref{eq:cond}。HMM屬於生成模型的有向圖PGM，通過聯合概率建模：

\[ P(S,O) = \prod_{t=1}^{n}P(s_t|s_{t-1})P(o_t|s_t) \]

其中，\(S\)、\(O\)分別表示狀態序列與觀測序列。HMM的解碼問題為\(\arg \mathop{max}\limits_{S} P(S|O)\)

；定義在時刻\(t\)狀態為\(s\)的所有單個路徑\(s_1^t\)中的概率最大值為

\[ \delta_t(s) = \max P(s_1^{t-1}, o_1^{t}, s_t=s) \]

則有

\[ \begin{aligned} \delta_{t+1}(s) & = \max P(s_1^{t}, o_1^{t+1}, s_{t+1}=s) \\ & = \max_{s'} P(s_1^{t-1}, o_1^{t}, s_t=s') P(s_{t+1}|s_t) P(o_{t+1}|s_{t+1}) \\ & = \max_{s'} [\delta_t(s') P(s|s')] P(o_{t+1}|s) \end{aligned} \]

上述式子即為（用於解決HMM的解碼問題的）Viterbi演算法的遞推式；可以看出HMM是通過聯合概率來求解標註問題的。

最大熵模型

最大熵（Maximum Entropy）模型屬於log-linear model，在給定訓練資料的條件下對模型進行極大似然估計或正則化極大似然估計：

\begin{equation}
P_w(y|x) = \frac{exp \left( \sum_i w_i f_i(x,y) \right)}{Z_w(x)}
\label{eq:me-model}
\end{equation}

其中，\(Z_w(x) = \sum_{y} exp \left( \sum_i w_i f_i(x,y) \right)\)為歸一化因子，\(w\)為最大熵模型的引數，\(f_i(x,y)\)為特徵函式（feature function）——描述\((x,y)\)的某一事實。

最大熵模型並沒有假定feature相互獨立，允許使用者根據domain knowledge設計feature。

2. MEMM

MEMM並沒有像HMM通過聯合概率建模，而是直接學習條件概率

\begin{equation}
P(s_t|s_{t-1},o_t)
\label{eq:memm-cond}
\end{equation}

因此，有別於HMM，MEMM的當前狀態依賴於前一狀態與當前觀測；HMM與MEMM的圖模型如下（圖來自於[3]）：

一般化條件概率\eqref{eq:memm-cond}為\(P(s|s',o)\)。MEMM用最大熵模型來學習條件概率\eqref{eq:memm-cond}，套用模型\eqref{eq:me-model}則有：

\begin{equation}
P(s|s',o) = \frac{ exp \left( \sum_a \lambda_a f_a(o,s) \right)}{ Z(o,s')}
\label{eq:memm-model}
\end{equation}

其中，\(\lambda_a\)為學習引數；\(a=<b,s>\)且\(b\)為feature，\(s\)為destination state；特徵函式\(f_a(o,s)\)的示例如下（圖出自於[6]）：

類似於HMM，MEMM的解碼問題的遞推式：

\[ \delta_{t+1}(s) = \max_{s'} \delta_t(s') P(s|s', o_{t+1}) \]

但是，MEMM存在著標註偏置問題（label bias problem）。比如，有如下的概率分佈（圖來自於[7])：

根據上述遞推式，則概率最大路徑如下：

但是，從全域性的角度分析：

無論觀測值，State 1 總是更傾向於轉移到State 2；
無論觀測值，State 2 總是更傾向於轉移到State 2.

從式子\eqref{eq:memm-model}可以看出MEMM所做的是本地歸一化，導致有更少轉移的狀態擁有的轉移概率普遍偏高，概率最大路徑更容易出現轉移少的狀態。因MEMM存在著標註偏置問題，故全域性歸一化的CRF被提了出來[3]。欲知CRF如何，請看下一篇分解。

3. 參考資料

[1] McCallum, Andrew, Dayne Freitag, and Fernando CN Pereira. "Maximum Entropy Markov Models for Information Extraction and Segmentation." Icml. Vol. 17. 2000.
[2] Xue, Nianwen, and Libin Shen. "Chinese word segmentation as LMR tagging." Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17. Association for Computational Linguistics, 2003.
[3] Lafferty, John, Andrew McCallum, and Fernando Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." Proceedings of the eighteenth international conference on machine learning, ICML. Vol. 1. 2001.
[4] 李航,《統計學習方法》.
[5] 周志華,《機器學習》.
[6] Nikos Karampatziakis, Maximum Entropy Markov Models.
[7] Ramesh Nallapati, Conditional Random Fields.

【中文分詞】最大熵馬爾可夫模型MEMM

1. 前言

HMM

最大熵模型

2. MEMM

3. 參考資料

【中文分詞】最大熵馬爾可夫模型MEMM

【中文分詞】二階隱馬爾可夫模型2-HMM

自然語言期末複習筆記—最大熵馬爾科夫模型MEMM

[白話解析]用水滸傳為例學習最大熵馬爾科夫模型

【統計學習方法-李航-筆記總結】十、隱馬爾可夫模型

中文分詞--逆向最大匹配

【閾值分割】最大熵分割法

【中文分詞】結構化感知器SP

【中文分詞】隱馬爾可夫模型HMM

【中文分詞】簡單高效的MMSeg

【中文分詞】條件隨機場CRF

中文分詞——正向最大匹配法

轉：從頭開始編寫基於隱含馬爾可夫模型HMM的中文分詞器

隱馬爾可夫模型（HMM）和 jieba分詞原始碼的理解

【機器學習筆記18】隱馬爾可夫模型

【演算法】隱馬爾可夫模型 HMM

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（二）

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（一）

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（三）

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（五）

【中文分詞】最大熵馬爾可夫模型MEMM

1. 前言

HMM

最大熵模型

2. MEMM

3. 參考資料

相關推薦