【NLP】揭祕馬爾可夫模型神祕面紗系列文章（一）

阿新 • • 發佈：2019-01-13

2016年7月10日20:34:20

摘要：最早接觸馬爾可夫模型的定義源於吳軍先生《數學之美》一書，起初覺得深奧難懂且無什麼用場。直到學習自然語言處理時，才真正使用到隱馬爾可夫模型，並體會到此模型的妙用之處。馬爾可夫模型在處理序列分類時具體強大的功能，諸如解決：詞類標註、語音識別、句子切分、字素音位轉換、區域性句法剖析、語塊分析、命名實體識別、資訊抽取等。另外廣泛應用於自然科學、工程技術、生物科技、公用事業、通道編碼等多個領域。本文寫作思路如下：第一篇對馬爾可夫個人簡介和馬爾科夫鏈的介紹；第二篇介紹馬爾可夫鏈（顯馬爾可夫模型）和隱馬爾可夫模型以及隱馬爾可夫模型的三大問題（似然度、編碼、引數學習）；第三至五篇逐一介紹三大問題相關演算法：（向前演算法、維特比演算法、向前向後演算法

）；最後非常得益於馮志偉先生自然語言處理教程一書，馮老研究自然語言幾十餘載，在此領域別有建樹。

1 馬爾可夫個人簡介

安德烈·馬爾可夫，俄羅斯人，物理-數學博士，聖彼得堡科學院院士，彼得堡數學學派的代表人物，以數論和概率論方面的工作著稱，他的主要著作有《概率演算》等。1878年，榮獲金質獎章，1905年被授予功勳教授稱號。馬爾可夫是彼得堡數學學派的代表人物。以數論和概率論方面的工作著稱。他的主要著作有《概率演算》等。在數論方面，他研究了連分數和二次不定式理論，解決了許多難題。在概率論中，他發展了矩陣法，擴大了大數律和中心極限定理的應用範圍。馬爾可夫最重要的工作是在1906～1912年間，提出並研究了一種能用數學分析方法研究自然過程的一般圖式——馬爾可夫鏈。同時開創了對一種無後效性的隨機過程——馬爾可夫過程的研究。馬爾可夫經多次觀察試驗發現，一個系統的狀態轉換過程中第n次轉換獲得的狀態常取決於前一次（第（n-1）次）試驗的結果。馬爾可夫進行深入研究後指出：對於一個系統，由一個狀態轉至另一個狀態的轉換過程中，存在著轉移概率，並且這種轉移概率可以依據其緊接的前一種狀態推算出來，與該系統的原始狀態和此次轉移前的馬爾可夫過程無關。馬爾可夫鏈理論與方法在現代已經被廣泛應用於自然科學、工程技術和公用事業中。

2 馬爾可夫鏈

2.1 馬爾科夫鏈的基本概念

序列分類器：序列分類器或序列標號器是給序列中的某個單元指派類或者標號的模型。馬爾可夫模型（又叫顯馬爾可夫模型VMM）和隱馬爾可夫模型（HMM）都是序列分類器。諸如：詞類標註、語音識別、句子切分、字素音位轉換、區域性句法剖析、語塊分析、命名實體識別、資訊抽取都屬於序列分類。

【隨機過程的兩層含義】

（1）隨機過程是一個時間函式，其隨著時間變化而變化

（2）隨機過程的每個時刻上函式值是不確定的、隨機的，即每個時刻上函式值按照一定的概率進行分佈。

獨立鏈：隨機過程中各個語言符合或者詞是獨立的，不相互影響，則稱這種鏈是獨立鏈。反之，各語言詞或者符號彼此有關則是非獨立鏈。

等概率獨立鏈與非等概率獨立鏈：在獨立鏈中，各個語言符合或者詞是等概率出現的是等概率獨立鏈，各個語言詞或者語言符號是非等概率出現的則為非等概率鏈。

【馬爾可夫鏈】

馬爾可夫過程：在獨立鏈中，前面語言符號對後面的語言符號無影響，是無記憶沒有後效的隨機過程，在已知當前狀態下，過程的未來狀態與它的過去狀態無關，這種形式就是馬爾可夫過程。

馬爾可夫鏈：在隨機過程中，每個語言符號的出現概率不相互獨立，每個隨機試驗的當前狀態依賴於此前狀態，這種鏈就是馬爾可夫鏈。

鏈的解析：也可以當做一種觀察序列，諸如：“2016年是建黨95週年”，就可以看著一個字串鏈。其中如上字串中每個字元出現是隨機的，其他如果每個字出現是獨立的就是獨立鏈，如果每個字元出現有前面字元相關，即不獨立具有依賴性則為馬爾科夫鏈。

N元馬爾科夫鏈：

考慮前一個語言符號對後一個語言符號出現概率的影響，這樣得出的語言成分的鏈叫做一重馬爾可夫鏈，也是二元語法。

考慮前兩個語言符號對後一個語言符號出現概率的影響，這樣得出的語言成分的鏈叫做二重馬爾可夫鏈，也是三元語法。

考慮前三個語言符號對後一個語言符號出現概率的影響，這樣得出的語言成分的鏈叫做三重馬爾可夫鏈，也是四元語法。

類似的，考慮前（4,5，….,N-1）個語言符號對後一個語言符號出現概率的影響，這樣得出的語言成分的鏈叫做（4,5，….,N-1）重馬爾可夫鏈，也是（5，6，….,N）元語法。

馬爾科夫鏈在數學上描述了自然語言句子的生成過程，是一個早期的自然語言形式的模型，後來N元語法的研究，都是建立在馬爾科夫模型的基礎上，馬爾科夫鏈也就是顯性的馬爾科夫模型，馬爾科夫鏈和隱馬爾科夫模型都是有限自動機（狀態集合狀態之間的轉移集）的擴充。

加權有限狀態機：加權有限狀態機中每個弧與一個概率有關，這個概率說明通過這個弧的可能性，且某一個點出發的弧具有歸一化的性質，即某點出發的弧概率之和為1。

注意：馬爾科夫鏈不能表示固有歧義的問題，當概率指派給沒有歧義時，馬爾科夫鏈才有用。

2.2 馬爾可夫鏈描述

（1）具有初始狀態和終結狀態的馬爾科夫鏈描述如下：

（2）沒有初始狀態和終結狀態的馬爾科夫鏈描述如下：

在一個一階馬爾可夫鏈中，我們假設一個特定的概率只與它前面一個狀態有關，馬爾可夫假設可以表示如下：

從一個狀態i出發的所有弧的概率之和為1，即：

2.3 馬爾可夫鏈應用例項

無初始狀態和終結狀態下，天氣事件（1）hot hot hot hot 和（2）cold hot cold hot的馬爾科夫鏈的序列概率：

（1） hot hot hot hot =0.5*0.5*0.5*0.5=0.0625

（2） cold hot cold hot=0.3*0.2*0.2*0.2=0.0024

如上概率差別告訴我們用馬爾科夫鏈編碼實現世界天氣事實是什麼？天氣事件的概率可以直接觀察到。

3 參考文獻

【1】統計自然語言處理基礎 Christopher.Manning等著宛春法等譯

【2】自然語言處理簡明教程馮志偉著

【3】數學之美吳軍著

【4】Viterbi演算法分析文章王亞強

宣告：關於此文各個篇章，本人採取梳理扼要，順暢通明的寫作手法。一則參照相關資料二則根據自己理解進行梳理。避免冗雜不清，每篇文章讀者可理清核心知識，再找相關文獻系統閱讀。另外，要學會舉一反三，不要死盯著定義或者某個例子不放。諸如：此文章例子冰淇淋數量（觀察值）與天氣冷熱（隱藏值）例子，讀者不免問道此有何用？我們將冰淇淋數量換成中文文字或者語音（觀察序列），將天氣冷熱換成英文文字或者語音文字（隱藏序列）。把這個問題解決了不就是解決了文字翻譯、語音識別、自然語言理解等等。解決了自然語言的識別和理解，再應用到現在機器人或者其他裝置中，不就達到實用和聯絡現實生活的目的了？

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（一）

目錄

1 馬爾可夫個人簡介

2 馬爾可夫鏈

2.1 馬爾科夫鏈的基本概念

2.2 馬爾可夫鏈描述

2.3 馬爾可夫鏈應用例項

3 參考文獻

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（一）

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（二）

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（三）

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（五）

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（四）

【NLP】驀然回首：談談學習模型的評估系列文章（一）

【NLP】驀然回首：談談學習模型的評估系列文章（三）

【NLP】驀然回首：談談學習模型的評估系列文章（二）

【演算法】隱馬爾可夫模型 HMM

【機器學習筆記18】隱馬爾可夫模型

【中文分詞】隱馬爾可夫模型HMM

NLP之隱馬爾可夫模型

【統計學習方法-李航-筆記總結】十、隱馬爾可夫模型

【中文分詞】二階隱馬爾可夫模型2-HMM

【中文分詞】最大熵馬爾可夫模型MEMM

NLP-隱馬爾可夫模型及使用例項

隱馬爾可夫模型（三）

隱馬爾可夫模型（一）

簡單馬爾可夫模型的實現（簡單的機器學習）

轉：從頭開始編寫基於隱含馬爾可夫模型HMM的中文分詞器

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（一）

目錄

1 馬爾可夫個人簡介

2 馬爾可夫鏈

2.1 馬爾科夫鏈的基本概念

2.2 馬爾可夫鏈描述

2.3 馬爾可夫鏈應用例項

3 參考文獻

相關推薦