EM演算法---基於隱變數的引數估計

阿新 • • 發佈：2019-01-04

注：本文中所有公式和思路來自於李航博士的《統計學習方法》一書，我只是為了加深記憶和理解寫的本文。】

EM演算法算是機器學習中有些難度的演算法之一，也是非常重要的演算法，曾經被譽為10大資料探勘演算法之一，從標題可以看出，EM專治帶有隱變數的引數估計，我們熟悉的MLE(最大似然估計)一般會用於不含有隱變數的引數估計，應用場景不同。

首先舉一個帶有隱變數的例子吧，假設現在有1000人的身高資料，163、153、183、203、173等等，不出意外肯定是男生或者女生組成的這1000個人，那麼這個163cm我們就沒辦法知道是男生的還是女生，這其中男女就是一個隱變數，我們只能看到163cm，但是看不到背後男女這個隱變數。

用Y表示觀測資料，Z表示隱變數（男女身高例子中就是男女這個隱變數），Y和Z在一起表示為完全資料，假設Y、Z的聯合分佈概率為P(Y,Z|θ)，對數似然為logP(Y,Z|θ)，EM演算法通過迭代求得L(θ)=logP(Y,Z|θ)的最大似然估計，每次迭代分為兩步：E-step ，求期望。M-step，求最大化，下面來介紹EM演算法。

EM演算法的提出

假定有訓練集：

現在有m個獨立樣本。希望從中找到該組資料的模型p(x, z)的引數，

我們可以通過最大似然估計建立目標函式，然後取對數似然：

事實上，EM演算法是通過迭代逐步接近最大化L(θ)，那麼我們現在不妨假設第i次迭代後θ的估計值為θi，我們當然希望重新估計的θ能使似然函式L(θ)有所增大，並逐漸逼近最大值，因此，我們做差：

利用jensen不等式，我們找到其下界：

雖然看上去有點亂，其實就是在裡邊偷偷的再裡邊乘上一個P和除上一個P，沒任何難度，

令：

則：

由此可知B為L的一個下界，那麼我們根據上式可得：

那麼任何能使B增加的的θ一定也可以使L(θ)增大，為了使L(θ)儘可能的增大，我們可以選擇一個θi+1使得B達到最大：

既然是求θi+1，那麼就省略掉常數項：

這就完成了EM演算法的一次迭代，EM演算法其實就是通過不斷求解下界的極大化逼近求解歲數似然函式的極大值演算法。

下圖使一個比較直觀表示EM演算法求解過程:

從這幅圖中不難看出，EM演算法不能保證找到全域性最最優值。

演算法：

輸入：觀測資料Y，隱變數Z，聯合分佈P(Y,Z|θ

)，條件分佈P(Z|Y,θ)；

輸出：模型的引數；

(1): 選擇引數的初始值θ0，開始迭代；

(2): E步：記θi為第i次迭代的引數θ的估值，在第θ+1次的迭代，計算：

其中P(Z|Y,θi)是給定觀測資料Y和當前引數估計θi的前提下，隱變數Z的條件概率分佈。

(3): M步：求使Q(θ，θi)極大值的θ，確定第i+1次的引數估計值θi：

(4): 重複第2、3步，直到收斂。

說明：

完全資料的對數似然函式logP(Y,Z|θ)關於在給定Y和θi的前提下對未觀測資料Z的條件概率分佈P(Z|Y,θi)的期望稱為Q函式：

關於EM演算法的幾點注意：

步驟(1): θ引數初值是可以隨便給定的，但是EM演算法對於初值選擇是敏感的。

步驟(2): E-step求得Q(θ，θi)，Q函式中Z是隱變數，Y是觀測資料，Q(θ，θi)中第一個變元是表示要極大化的引數，第二個表示當前的估計值，每次迭代實際上是在求Q的最大化。

步驟(3): M-step中試求Q(θ，θi)的最大值，得到θi，完成一次迭代。

步驟(4): 給出迭代終止條件，一般是較小的正數ε1，ε2，若滿足：

EM演算法的過程就介紹到這裡，更細緻的推導這裡就不再介紹了，歡迎批評指正。

EM演算法---基於隱變數的引數估計

注：本文中所有公式和思路來自於李航博士的《統計學習方法》一書，我只是為了加深記憶和理解寫的本文。】 EM演算法算是機器學習中有些難度的演算法之一，也是非常重要的演算法，曾經被譽為10大資料探勘演算法

哈佛NLP組論文解讀：基於隱變數的注意力模型 | 附開原始碼

作者丨鄧雲天學校丨哈佛大學NLP組博士生研究方向丨自然語言處理摘要Attention 注意力模型

使用EM演算法對含有缺失資料的聯合泊松分佈的引數進行極大似然估計

本文是對《ML estimation in the bivariate passion distribution in the presence of missing values via the em algorithm》K.Adamids & S.L

高斯混合模型引數估計的EM演算法

一、高斯模型簡介首先介紹一下單高斯模型(GSM)和高斯混合模型(GMM)的大概思想。 1.單高斯模型如題，就是單個高斯分佈模型or正態分佈模型。想必大家都知道正態分佈，這一分佈反映了自然界普遍存在的有關變數的一種統計規律，例如身高，考試成績等；而且有很好的數學性質，具有各階導數

大資料之scala（四） --- 模式匹配，變數宣告模式，樣例類，偏函式，泛型，型變，逆變，隱式轉換，隱式引數

一、模式匹配:當滿足case條件，就終止 ---------------------------------------------------------- 1.更好的switch var x = '9'; x match{ case

NLP --- 隱馬爾可夫HMM（EM演算法（期望最大化演算法））

期望最大化 (Expectation Maximization) 演算法最初是由 Ceppellini[2] 等人 1950 年在討論基因頻率的估計的時候提出的。後來又被 Hartley[3] 和Baum[4] 等人發展的更加廣泛。目前引用的較多的是 1977 年 Dempster[5]等人的工

01 EM演算法 - 大綱 - 最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)

EM演算法的講解的內容包括以下幾個方面： 1、最大似然估計2、K-means演算法3、EM演算法4、GMM演算法 __EM演算法本質__是統計學中的一種求解引數的方法，基於這種方法，我們可以求解出很多模型中的引數。 1、最大似然估計在__求解線性模型__的過程中，我們用到了__最大似然估計(MLE)

最大似然估計、梯度下降、EM演算法、座標上升

機器學習兩個重要的過程：學習得到模型和利用模型進行預測。下面主要總結對比下這兩個過程中用到的一些方法。一，求解無約束的目標優化問題這類問題往往出現在求解模型，即引數學習的階段。我們已經得到了模型的表示式，不過其中包含了一些未知引數。我們需要求解引數，使模型在某種性

R語言與點估計學習筆記（EM演算法與Bootstrap法）

一、EM演算法 EM演算法是一種在觀測到資料後，用迭代法估計未知引數的方法。可以證明EM演算法得到的序列是穩定單調遞增的。這種演算法對於截尾資料或引數中有一些我們不感興趣的引數時特別有效。 EM演算法的步驟為： E-step（求期望）：在給定

多相機顏色校正演算法之一---基於LM演算法的顏色變換引數求解

問題背景在多視角視訊系統中，會用多個相機拍攝同一個場景。但是因為不同相機之間的特性引數不一樣，會產生色彩一致性（color consistency）和色感一致性（color constancy）的問題。由於色感是人的主觀感受，不易進行量化比較。所以這裡只

從最大似然估計法到EM演算法

源地址：http://www.cnblogs.com/GuoJiaSheng/p/3966812.html?utm_source=tuicool 什麼是最大似然估計？問題：給定一組觀察資料還有一個引數待定的模型，如何來估計這個未知引數呢？觀察資料（x

極大似然估計與EM演算法

極大似然估計 1.用途在已知樣本的情況下，估計滿足樣本分佈的引數。 2.例子為了調查一個學校中男生的身高分佈，我們隨機抽取了100個男生作為樣本X = {x1,x2,…,x100}；已知男生身高分佈滿足高斯分佈，求高斯分佈的引數均值和標

[R][原始碼]EM演算法實現基於高斯混合模型（GMM）的聚類

要求：用EM演算法實現基於GMM的聚類演算法。一、實驗資料參考[1] 3.3.2章節。由兩個二維高斯分佈混合生成1000個數據，混合係數分別是0.4、0.6，均值和方差如下：mu1=[-2,-2]sigma1=[1.2, 0.5, 0.5, 1]mean2=[2,2]sigm

機器學習演算法（1）——極大似然估計與EM演算法

極大似然估計在講解極大似然估計前，需要先介紹貝葉斯分類：貝葉斯決策：首先來看貝葉斯分類，經典的貝葉斯公式： &nb

EM演算法：從極大似然估計匯出EM演算法（還算通俗易懂）

之前看了《統計學習方法》，吳恩達老師的cs229講義，一起看感覺很昏（如果要看建議選擇其中一個，《統計學習方法》裡面基本很少會寫到 y

極大似然估計和EM演算法

轉自：http://blog.csdn.net/zouxy09/article/details/8537620 一、最大似然假設我們需要調查我們學校的男生和女生的身高分佈。你怎麼做啊？你說那麼多人不可能一個一個去問吧，肯定是抽樣了。假設你在校園裡隨

數模演算法-資料擬合、引數估計、插值等資料處理演算法

Matlab函式呼叫進行處理資料擬合資料擬合是什麼意思我就不介紹了，首先介紹下常用的資料擬合方法其中直線的擬合可歸結為多項式中次數為1的擬合。除了上述的線性擬合，還存在非線性擬合。多項式曲線擬合只給最簡單的實現例子，其他控制代碼值詳查

python機器學習案例系列教程——極大似然估計、EM演算法

極大似然極大似然（Maximum Likelihood）估計為用於已知模型的引數估計的統計學方法。也就是求使得似然函式最大的代估引數的值。而似然函式就是如果引數已知則已出現樣本出現的概率。比如，我們想了解拋硬幣是正面（head）的概率分佈θθ

EM演算法逼近GMM引數針對二維資料點的python實現

GMM即高斯混合模型，是將資料集看成是由多個高斯分佈線性組合而成，即資料滿足多個高斯分佈。EM演算法用來以迭代的方式尋找GMM中個高斯分佈的引數以及權值。GMM可以用來做k分類，而混合的高斯分佈個數也就是分類數K。當資料Y都是一維的時候，我們假設由兩個高斯分佈組成就有概

概率論與數理統計中基於有限樣本推斷總體分佈的方法，基於總體未知引數區間估計的假設檢驗方法之討論，以及從數理統計視角重新審視線性迴歸函式本質

1. 總體與樣本 0x1：數理統計中為什麼要引入總體和個體這個概念概率論與數理統計中，一個很重要的研究物件就是總體的概率分佈，理論上說，我們希望獲得被研究物件的總體樣本，基於這份總體樣本進一步研究其概率分佈，但是遺憾地是，幾乎在100%的情況下，我們都不可能獲得真正的總體，我們只能獲取有限的樣本量（例如