HMM與分詞、詞性標註、命名實體識別

阿新 • • 發佈：2018-12-11

HMM（隱馬爾可夫模型）是用來描述隱含未知引數的統計模型，舉一個經典的例子：一個東京的朋友每天根據天氣{下雨，天晴}決定當天的活動{公園散步,購物,清理房間}中的一種，我每天只能在twitter上看到她發的推“啊，我前天公園散步、昨天購物、今天清理房間了！”，那麼我可以根據她發的推特推斷東京這三天的天氣。在這個例子裡，顯狀態是活動，隱狀態是天氣。

2014年11月23日更新：

我已利用HMM角色標註實現了中國人名、翻譯人名、日本人名、地名、機構名等命名實體的識別，請參考此目錄命名實體識別。

HMM描述

任何一個HMM都可以通過下列五元組來描述：

:param obs:觀測序列

:param states:隱狀態
:param start_p:初始概率（隱狀態）
:param trans_p:轉移概率（隱狀態）
:param emit_p: 發射概率（隱狀態表現為顯狀態的概率）

例子描述

這個例子可以用如下的HMM來描述：

states = ('Rainy', 'Sunny')
observations = ('walk', 'shop', 'clean')
start_probability = {'Rainy': 0.6, 'Sunny': 0.4}
transition_probability = {

'Rainy' : {'Rainy': 0.7, 'Sunny': 0.3},
'Sunny' : {'Rainy': 0.4, 'Sunny': 0.6},
}
emission_probability = {
'Rainy' : {'walk': 0.1, 'shop': 0.4, 'clean': 0.5},
'Sunny' : {'walk': 0.6, 'shop': 0.3, 'clean': 0.1},
}

求解最可能的天氣

求解最可能的隱狀態序列是HMM的三個典型問題之一，通常用維特比演算法解決。維特比演算法就是求解HMM上的最短路徑（-log(prob)，也即是最大概率）的演算法。

稍微用中文講講思路，很明顯，第一天天晴還是下雨可以算出來：

定義V[時間][今天天氣] = 概率，注意今天天氣指的是，前幾天的天氣都確定下來了（概率最大）今天天氣是X的概率，這裡的概率就是一個累乘的概率了。
因為第一天我的朋友去散步了，所以第一天下雨的概率V[第一天][下雨] = 初始概率[下雨] * 發射概率[下雨][散步] = 0.6 * 0.1 = 0.06，同理可得V[第一天][天晴] = 0.24 。從直覺上來看，因為第一天朋友出門了，她一般喜歡在天晴的時候散步，所以第一天天晴的概率比較大，數字與直覺統一了。
從第二天開始，對於每種天氣Y，都有前一天天氣是X的概率 * X轉移到Y的概率 * Y天氣下朋友進行這天這種活動的概率。因為前一天天氣X有兩種可能，所以Y的概率有兩個，選取其中較大一個作為V[第二天][天氣Y]的概率，同時將今天的天氣加入到結果序列中
比較V[最後一天][下雨]和[最後一天][天晴]的概率，找出較大的哪一個對應的序列，就是最終結果。

這個例子的Python程式碼：

# -*- coding:utf-8 -*-
# Filename: viterbi.py
# Author：hankcs
# Date: 2014-05-13 下午8:51
states = ('Rainy', 'Sunny')
observations = ('walk', 'shop', 'clean')
start_probability = {'Rainy': 0.6, 'Sunny': 0.4}
transition_probability = {
'Rainy' : {'Rainy': 0.7, 'Sunny': 0.3},
'Sunny' : {'Rainy': 0.4, 'Sunny': 0.6},
}
emission_probability = {
'Rainy' : {'walk': 0.1, 'shop': 0.4, 'clean': 0.5},
'Sunny' : {'walk': 0.6, 'shop': 0.3, 'clean': 0.1},
}
# 列印路徑概率表
def print_dptable(V):
print " ",
for i in range(len(V)): print "%7d" % i,
print
for y in V[0].keys():
print "%.5s: " % y,
for t in range(len(V)):
print "%.7s" % ("%f" % V[t][y]),
print
def viterbi(obs, states, start_p, trans_p, emit_p):
"""
:param obs:觀測序列
:param states:隱狀態
:param start_p:初始概率（隱狀態）
:param trans_p:轉移概率（隱狀態）
:param emit_p: 發射概率（隱狀態表現為顯狀態的概率）
:return:
"""
# 路徑概率表 V[時間][隱狀態] = 概率
V = [{}]
# 一箇中間變數，代表當前狀態是哪個隱狀態
path = {}
# 初始化初始狀態 (t == 0)
for y in states:
V[0][y] = start_p[y] * emit_p[y][obs[0]]
path[y] = [y]
# 對 t > 0 跑一遍維特比演算法
for t in range(1, len(obs)):
V.append({})
newpath = {}
for y in states:
# 概率隱狀態 = 前狀態是y0的概率 * y0轉移到y的概率 * y表現為當前狀態的概率
(prob, state) = max([(V[t - 1][y0] * trans_p[y0][y] * emit_p[y][obs[t]], y0) for y0 in states])
# 記錄最大概率
V[t][y] = prob
# 記錄路徑
newpath[y] = path[state] + [y]
# 不需要保留舊路徑
path = newpath
print_dptable(V)
(prob, state) = max([(V[len(obs) - 1][y], y) for y in states])
return (prob, path[state])
def example():
return viterbi(observations,
states,
start_probability,
transition_probability,
emission_probability)
print example()

輸出：

0 1 2
Rainy: 0.06000 0.03840 0.01344
Sunny: 0.24000 0.04320 0.00259
(0.01344, ['Sunny', 'Rainy', 'Rainy'])

NLP應用

具體到分詞系統，可以將天氣當成“標籤”，活動當成“字或詞”。那麼，幾個NLP的問題就可以轉化為：

詞性標註：給定一個詞的序列（也就是句子），找出最可能的詞性序列（標籤是詞性）。如ansj分詞和ICTCLAS分詞等。
分詞：給定一個字的序列，找出最可能的標籤序列（斷句符號：[詞尾]或[非詞尾]構成的序列）。結巴分詞目前就是利用BMES標籤來分詞的，B（開頭）,M（中間),E(結尾),S(獨立成詞）
命名實體識別：給定一個詞的序列，找出最可能的標籤序列（內外符號：[內]表示詞屬於命名實體，[外]表示不屬於）。如ICTCLAS實現的人名識別、翻譯人名識別、地名識別都是用同一個Tagger實現的。

小結

HMM是一個通用的方法，可以解決貼標籤的一系列問題。

在程式碼實現的過程中，出現了一個小問題，如同原部落格中該評論一樣

從結果看，第二天似乎應該是天晴才對吧，天晴的概率是0.04320，下雨的概率是0.0340，難道是我理解錯了嗎？

對，你理解錯了，0.04320是累積概率，第二天天晴是區域性最優，必須以最終（第三天）的全域性最優為準。

第一天為天晴的概率為0.24，根據這個條件，計算第二天為天晴和下雨的概率分別為0.0432,0.0384，這時候我覺得第二天應該為天晴，在這個條件下，再計算第三天為天晴和下雨的概率分別為0.00259,0.00864,所以我覺得最後的結果應該為Sunny，Sunny，Rainy。想請教一下大神，這樣理解對不？

該評論和我一樣理解為，每次判斷完一天後，就把該狀態序列中最大的狀態直接存入結果，這樣只會儲存區域性最優解，一定要設定一個狀態序列，來逐步儲存全域性最優解。所以注意max([(V[t - 1][y0] * trans_p[y0][y] * emit_p[y][obs[t]], y0) for y0 in states])該行程式碼，它就表示瞭如何改變路徑儲存。

HMM與分詞、詞性標註、命名實體識別

HMM描述

例子描述

求解最可能的天氣

這個例子的Python程式碼：

輸出：

NLP應用

小結

HMM與分詞、詞性標註、命名實體識別

HMM演算法-viterbi演算法的實現及與分詞、詞性標註、命名實體識別的引用

用pyltp做分詞、詞性標註、ner

文字處理（二）詞頻統計,jieba分詞，詞性標註，snownlp情感分析

Python 文字挖掘：jieba中文分詞和詞性標註

Deep Learning 在中文分詞和詞性標註任務中的應用

結巴分詞4--詞性標註

清華大學thulac分詞和詞性標註程式碼理解

NLP漢語自然語言處理原理與實踐 5 詞性、語塊和命名實體識別

python3進行中文分詞和詞性標註

神聖的NLP！一文理解詞性標註、依存分析和命名實體識別任務

jieba分詞及詞性標註

python 分詞、自定義詞表、停用詞、詞頻統計與權值（tfidf）、詞性標註與部分詞性刪除

一套準確率高且效率高的分詞、詞性標註工具-thulac

統計自然語言處理梳理一：分詞、命名實體識別、詞性標註

jieba分詞、自定義詞典提取高頻詞、詞性標註及獲取詞的位置

jieba詞性標註與分詞結果不一致(提取關鍵詞）

pyhanlp 中文詞性標註與分詞簡介

jieba 去除停用詞、提取關鍵詞、詞性標註

python︱六款中文分詞模組嘗試:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP

HMM與分詞、詞性標註、命名實體識別

HMM描述

例子描述

求解最可能的天氣

這個例子的Python程式碼：

輸出：

NLP應用

小結

相關推薦