李巨集毅機器學習2016 第二十一講隱馬爾可夫模型和條件隨機場

阿新 • • 發佈：2019-02-02

Hidden Markov Model & Conditional Random Field

本章主要通過舉例詞性標註的例子講解了隱馬爾可夫模型和條件隨機場。

1.詞性標註(part-of-speech tagging,POS tagging)

對應輸入是序列輸出也是序列的結構化學習問題，詞性標註屬於其中。詞性標註指的是在一串的字詞中標註每一個所屬的詞性。

在上圖中，第一個“saw”的詞性是動詞，第二個“saw”的詞性是名詞。

2.隱馬爾可夫模型(Hidden Markov Model,HMM)

隱馬爾可夫模型有兩步：第一步是基於語法生成一個合法的詞性序列(generate a POS sequence based on the grammar)；第二部是基於字典生成一個句子序列在第一步生成的詞性序列的基礎上(gengerate a sentence based on the POS sequence;based on a dictionary)。

例如第一步，基於合法的語法，可以計算出生成一個詞性序列的概率。

第二步，基於字典，可計算出在第一步生成的合法詞性序列的條件下生成對應句子的概率。

這兩步之後就可計算出x和y，對應的詞性和句子一起出現的概率。

將其一般化，可將第一步的概率稱為轉移概率(transition probability)，第二步的概率稱為輸出概率(emission probability)。其概率值都可以通過訓練資料得到。

計算概率值可以通過在訓練資料中出現的次數計算得到。

詞性標註的任務是給定x（句子序列），找到y（詞性序列）。

需要遍歷所有的y來找到能夠使得P(x,y)最大的y，可以使用維特比演算法(Viterbi Algorithm)減少計算的複雜度。

總結下HMM，至此其三個問題就得到了解決。

HMM的缺點(Drawback):

1、HMM只依賴於每一個狀態和它對應的觀察物件：

計算轉移概率和輸出概率是分開計算的，認為其是相互獨立的。然而序列標註問題不僅和單個詞相關，而且和觀察序列的長度，單詞的上下文，等等相關。

2、目標函式和預測目標函式不匹配：

HMM學到的是狀態和觀察序列的聯合分佈P(Y,X)，而預測問題中，我們需要的是條件概率P(Y|X)。

3.條件隨機場(Conditional Random Field,CRF)

條件隨機場對隱馬爾可夫模型進行了改進。CRF假設概率P(x,y)正比於一個函式。

下面介紹下公式由來。

所以可得：

可以認為概率值是正比於一個權值和特徵向量的內積。

特徵向量由兩部分組成，一個部分是標籤和詞的關係(relations between tags and words)；

第二部分是標籤之間的關係(relations between tags);

CRF的訓練準則是找到滿足的權值向能夠在最大化目標函式。能夠最大化我們所觀察到的同時，最小化我們沒有觀察到的。

可以使用梯度上升(gradient ascent)方法來求解。

在求得權值向量和特徵向量後，同樣可以和隱馬爾可夫模型一樣使用維特比演算法找到y。

總結下CRF，至此其三個問題就得到了解決。

4.對比(comparsion)

與HMM比較。CRF沒有HMM那樣嚴格的獨立性假設條件，因而可以容納任意的上下文資訊。CRF模型解決了標註偏置問題，去除了HMM中兩個不合理的假設，當然，模型相應得也變複雜了。因此訓練代價大、複雜度高。

5.總結

本章重點以詞性標註(part-of-speech tagging,POS tagging)為例，講述了隱馬爾可夫模型(Hidden Markov Model,HMM)和條件隨機場(Conditional Random Field,CRF)，並對二者進行了對比(comparsion)。

李巨集毅機器學習2016 第二十一講隱馬爾可夫模型和條件隨機場

Hidden Markov Model & Conditional Random Field 本章主要通過舉例詞性標註的例子講解了隱馬爾可夫模型和條件隨機場。 1.詞性標註(part-of-speech tagging,POS tagging)

李巨集毅機器學習2016 第十五講無監督學習生成模型之 VAE

Unsupervised Learning ： Generation本章主要講解了無監督學習中的生成模型方法。1.生成模型（Generative Models）“What I cannot create, I do not understand.” ——Richard Fey

李巨集毅機器學習2016 第八講深度學習網路優化小訣竅

Tips for Deep Learning 本章節主要講解了深度學習中的一些優化策略，針對不同的情況適用於不同的優化方法。主要內容是：新的啟用函式（new activation function），自適應的學習率(adaptive learning

【統計學習方法-李航-筆記總結】十、隱馬爾可夫模型

本文是李航老師《統計學習方法》第十章的筆記，歡迎大佬巨佬們交流。主要參考部落格: https://www.cnblogs.com/YongSun/p/4767667.html https://www.cnblogs.com/naonaoling/p/5701634.html htt

機器學習_5.隱馬爾可夫模型的典型問題和演算法

三個典型問題 1.已知模型引數，計算某一給定可觀察狀態序列的概率已經有一個特定的隱馬爾科夫模型 λ 和一個可觀察狀態序列集。我們也許想知道在所有可能的隱藏狀態序列下，給定的可觀察狀態序列的概率。當給定如下一個隱藏狀態序列：　　那麼在 HMM 和這個

機器學習_4.隱馬爾可夫模型初識

預備知識——熵隱馬爾可夫模型是從統計的基礎上發展起來的，因此首先需要掌握以下幾點：熵是表示物質系統狀態的一種度量，用以表示系統的無序程度，也可稱不確定性程度。在資訊理論中，夏農使用熵來表示資訊系統的平均資訊量，即平均不確定程度。最大熵原理是一種選擇隨機變數統計特性最符合客觀

【機器學習筆記18】隱馬爾可夫模型

【參考資料】【1】《統計學習方法》隱馬爾可夫模型（HMM）定義隱馬爾可夫模型: 隱馬爾可夫模型是關於時序的模型，描述一個由隱藏的馬爾可夫鏈生成的不可觀測的狀態序列，再由各個狀態生成的觀測值所構成的一個觀測序列。形式化定義HMM為λ=(A,B,π)\la

隱馬爾可夫模型HMM---《統計學習方法》第十章

標註問題標註問題的輸入是一個觀測序列，輸出是一個標記序列或狀態序列。標註問題的目的在於學習一個模型，使它能夠對觀測序列給出標記序列作為預測。標註常用的統計學習方法有：隱馬爾可夫模型，條件隨機場。舉例：給定一個由單片語成的句子，對這個句子中的每一個單詞

機器學習之隱馬爾可夫模型

本文主要是學習筆記，一方面是為了加強理解，感覺在做筆記過程中理解起來更簡單，另一方面為了加強記憶，建立大腦關於‘隱馬爾可夫模型’的神經網路 1. 模型場景在介紹隱馬爾可夫模型之前先來看個例子：假設有4個盒子，每個盒子裡面都裝有紅、白兩種顏色的求，盒子裡面的紅包球數量如下：按照下面的方式抽球，產生

統計學習方法_隱馬爾可夫模型HMM實現

這裡用到的資料集是三角波，使用長度20的序列訓練100次，生成長度為100的序列。HMM的初始化非常重要，這裡採用隨機初始化。 #!/usr/bin/env python3 # -*- coding: utf-8 -*- import csv import random

隱馬爾可夫模型學習筆記（一）：前後向演算法介紹與推導

學習隱馬爾可夫模型（HMM），主要就是學習三個問題：概率計算問題，學習問題和預測問題。概率計算問題主要是講前向演算法和後向演算法，這兩個演算法可以說是隱馬爾可夫的重中之重，接下來會依次介紹以下內容。隱馬爾可夫模型介紹模型的假設直接計演算法，前向演算法，後向演

隱馬爾可夫模型（《統計學習方法》、python實現）

本文是《統計學習方法》第10章的筆記，用一段167行的Python程式碼實現了隱馬模型觀測序列的生成、前向後向演算法、Baum-Welch無監督訓練、維特比演算法。公式與程式碼相互對照，循序漸進。HMM算是個特別常見的模型，早在我沒有挖ML這個坑的時候，就已經在用HMM做基於

HMM隱馬爾可夫模型學習總結

介紹 HMM在實際應用中主要用來解決3類問題。 1.評估問題(概率計算問題) 即給定觀測序列 O=O1O2…Ot和模型引數λ=(A,B,π)，怎樣有效計算這一觀測序列出現的概率P(

[白話解析]以水滸傳為例學習隱馬爾可夫模型

# [白話解析]以水滸傳為例學習隱馬爾可夫模型 ## 0x00 摘要本文將盡量使用易懂的方式，儘可能不涉及數學公式，而是從整體的思路上來看，運用感性直覺的思考來解釋隱馬爾可夫模型。並且從名著中找了個具體應用場景來幫助大家深入這個概念。 ## 0x01 說明在機器學習過程中，會遇到很多晦澀的概念，相

【ML】李巨集毅機器學習筆記

我的github連結 - 課程相關程式碼： https://github.com/YidaoXianren/Machine-Learning-course-note 0. Introduction Machine Learning: define a set of function

李巨集毅機器學習 P14 Backpropagation 筆記

chain rule：求導的鏈式法則。接著上一節，我們想要minimize這個loss的值，我們需要計算梯度來更新w和b。以一個neuron舉例：這個偏微分的結果就是輸入x。比如下面這個神經網路：下面我們要計算這個偏微分：。這裡的以si

李巨集毅機器學習 P13 Brief Introduction of Deep Learning 筆記

deep learning的熱度增長非常快。下面看看deep learning的歷史。最開始出現的是1958年的單層感知機，1969年發現單層感知機有限制，到了1980年代出現多層感知機（這和今天的深度學習已經沒有太大的區別），1986年又出現了反向傳播演算法（通常超過3

李巨集毅機器學習 P12 HW2 Winner or Loser 筆記（不使用框架實現使用MBGD優化方法和z_score標準化的logistic regression模型）

建立logistic迴歸模型：根據ADULT資料集中一個人的age，workclass，fnlwgt，education，education_num，marital_status，occupation等資訊預測其income大於50K或者相反（收入）。資料集： ADULT資料集。

李巨集毅機器學習P11 Logistic Regression 筆記

我們要找的是一個概率。 f即x屬於C1的機率。上面的過程就是logistic regression。下面將logistic regression與linear regression作比較。接下來訓練模型，看看模型的好壞。假設有N組trainin

李巨集毅機器學習 P15 “Hello world” of deep learning 筆記

我們今天使用Keras來寫一個deep learning model。 tensorflow實際上是一個微分器，它的功能比較強大，但同時也不太好學。因此我們學Keras，相對容易，也有足夠的靈活性。李教授開了一個玩笑：下面我們來寫一個最簡單的deep learning mo