EM 最大似然概率估計

阿新 • • 發佈：2017-09-10

ref 計算 expec 不同簡單學習總結 target 教程機器

轉載請註明出處 Leavingseason http://www.cnblogs.com/sylvanas2012/p/5053798.html

EM框架是一種求解最大似然概率估計的方法。往往用在存在隱藏變量的問題上。我這裏特意用"框架"來稱呼它，是因為EM算法不像一些常見的機器學習算法例如logistic regression， decision tree，只要把數據的輸入輸出格式固定了，直接調用工具包就可以使用。可以概括為一個兩步驟的框架：

E-step：估計隱藏變量的概率分布期望函數（往往稱之為Q函數技術分享，它的定義在下面會詳細給出）；

M-step：求出使得Q函數最大的一組參數技術分享

實際使用過程中，我們先要根據不同的問題先推導出Q函數，再套用E-M兩步驟的框架。

下面來具體介紹為什麽要引入EM算法？

不妨把問題的全部變量集（complete data）標記為X，可觀測的變量集為Y，隱藏變量集為Z，其中X = (Y , Z) . 例如下圖的HMM例子, S是隱變量，Y是觀測值：

技術分享

又例如，在GMM模型中（下文有實例），Y是所有觀測到的點，z_i 表示 y_i 來自哪一個高斯分量，這是未知的。

問題要求解的是一組參數技術分享，使得最大。在求最大似然時，往往求的是對數最大：（1）

對上式中的隱變量做積分（求和）：

技術分享

（2）式往往很難直接求解。於是產生了EM方法，此時我們想要最大化全變量（complete data）X的對數似然概率技術分享：假設我們已經有了一個模型參數

的估計（第0時刻可以隨機取一份初始值），基於這組模型參數我們可以求出一個此時刻X的概率分布函數。有了X的概率分布函數就可以寫出技術分享

技術分享

的期望函數，然後解出使得期望函數最大的技術分享

技術分享

值，作為更新的

技術分享

參數。基於這個更新的技術分享

技術分享

再重復計算X的概率分布，以此叠代。流程如下：

Step 1：隨機選取初始值技術分享

Step 2：給定和觀測變量Y，計算條件概率分布技術分享

Step 3：在step4中我們想要最大化技術分享，但是我們並不完全知道X（因為有一些隱變量），所以我們只好最大化的期望值，而X的概率分布也在step 2 中計算出來了。所以現在要做的就是求期望，也稱為Q函數：

技術分享

其中，技術分享表示給定觀測值y時所有可能的x取值範圍，即

Step 4 求解技術分享

Step 5 回到step 2，重復叠代下去。

為什麽要通過引入Q函數來更新theta的值呢？因為它和我們的最大化終極目標（公式（1））有很微妙的關系：

定理1：技術分享

證明：在step4中，既然求解的是arg max，那麽必然有技術分享。於是：

技術分享

其中，（3）到（4）是因為X=(Y , Z), y=T(x), T是某種確定函數，所以當x確定了，y也就確定了（但反之不成立）；即：技術分享而（4）中的log裏面項因為不包含被積分變量x，所以可以直接提到積分外面。

所以E-M算法的每一次叠代，都不會使目標值變得更差。但是EM的結果並不能保證是全局最優的，有可能收斂到局部最優解。所以實際使用中還需要多取幾種初始值試驗。

實例：高斯混合模型GMM

假設從一個包含k個分量的高斯混合模型中隨機獨立采樣了n個點技術分享，現在要估計所有高斯分量的參數。例如圖（a）就是一個k=3的一維GMM。

技術分享

高斯分布函數為：

技術分享

令技術分享為第m次叠代時，第i個點來自第j個高斯分量的概率，那麽：

技術分享並且

因為每個點是獨立的，不難證明有：

技術分享

於是首先寫出每個技術分享：

技術分享

忽略常數項，求和，完成E-step：

技術分享

為簡化表達，再令技術分享，

Q函數變為：

技術分享

現在到了M-step了，我們要解出使得Q函數最大化的參數。最簡單地做法是求導數為0的值。

首先求w。因為w有一個約束：

技術分享

可以使用拉格朗日乘子方法。除去和w無關的項，寫出新的目標函數：

技術分享

求導：

技術分享

很容易解出w：

技術分享

同理解出其他參數：

技術分享

技術分享

技術分享

技術分享

總結：個人覺得，EM算法裏面最難懂的是Q函數。初次看教程的時候，技術分享很能迷惑人，要弄清楚是變量，是需要求解的；是已知量，是從上一輪叠代推導出的值。

EM 最大似然概率估計

EM 最大似然概率估計

ref 計算 expec 不同簡單學習總結 target 教程機器轉載請註明出處 Leavingseason http://www.cnblogs.com/sylvanas2012/p/5053798.html EM框架是一種求解最大似然概率估計的方法。往往用

01 EM演算法 - 大綱 - 最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)

EM演算法的講解的內容包括以下幾個方面： 1、最大似然估計2、K-means演算法3、EM演算法4、GMM演算法 __EM演算法本質__是統計學中的一種求解引數的方法，基於這種方法，我們可以求解出很多模型中的引數。 1、最大似然估計在__求解線性模型__的過程中，我們用到了__最大似然估計(MLE)

【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

總結 ora 二次判斷天都特性以及解釋意思【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估計（Maximum lik

最大似然估計最大似然估計（MLE）最大後驗概率（MAP）

最大似然估計（MLE）最大後驗概率（MAP） 1）最大似然估計 MLE 給定一堆資料，假如我們知道它是從某一種分佈中隨機取出來的，可是我們並不知道這個分佈具體的參，即“模型已定，引數未知”。例如，我們知道這個分佈是正態分佈，但是不知道均值和方差；或者是二項分佈，但是不知道均值。最

最大似然估計vs最大後驗概率

1）最大似然估計 MLE 給定一堆資料，假如我們知道它是從某一種分佈中隨機取出來的，可是我們並不知道這個分佈具體的參，即“模型已定，引數未知”。例如，我們知道這個分佈是正態分佈，但是不知道均值和方差；或者是二項分佈，但是不知道均值。最大似然估計（MLE，Maximum Lik

【模式識別與機器學習】——最大似然估計（MLE）最大後驗概率（MAP）

1）極/最大似然估計 MLE 給定一堆資料，假如我們知道它是從某一種分佈中隨機取出來的，可是我們並不知道這個分佈具體的參，即“模型已定，引數未知”。例如，我們知道這個分佈是正態分佈，但是不知道均值和方差；或者是二項分佈，但是不知道均值。最大似然估計（MLE，Maximum Likelihood Esti

詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id=

最大似然估計（MLE）、最大後驗概率估計（MAP）以及貝葉斯學派和頻率學派

前言 frequentist statistics：模型引數是未知的定值，觀測是隨機變數；思想是觀測數量趨近於無窮大+真實分佈屬於模型族中->引數的點估計趨近真實值；代表是極大似然估計MLE；不依賴先驗。 Bayesian statistics：模型引數是隨機變數，

機器學習概念：最大後驗概率估計與最大似然估計（Maximum posterior probability and maximum likelihood estimation)

joey 周琦假設有引數 θ \theta, 觀測 x \mathbf{x}, 設 f(x|θ) f(x|\theta)是變數 x x的取樣分佈， θ \th

最大似然估計和最大後驗概率估計（貝葉斯引數估計）

舉個例子：偷盜的故事，三個村莊，五個人偷。村子被不同小偷偷的概率：P(村子|小偷1)、P(村子|小偷2)、P(村子|小偷3) 小偷1的能力：P(偷盜能力)=P(村子1|小偷1)+P(村子2|小偷1)+P(村子3|小偷1)+P(村子4|小偷1)+P(村子5|小偷1) 小

最大似然估計、梯度下降、EM演算法、座標上升

機器學習兩個重要的過程：學習得到模型和利用模型進行預測。下面主要總結對比下這兩個過程中用到的一些方法。一，求解無約束的目標優化問題這類問題往往出現在求解模型，即引數學習的階段。我們已經得到了模型的表示式，不過其中包含了一些未知引數。我們需要求解引數，使模型在某種性

極大似然估計，最大後驗概率估計(MAP)，貝葉斯估計

1、貝葉斯公式三種引數估計方法都和貝葉斯公式有關，因此首先從分析貝葉斯公式入手：貝葉斯公式可以表達為： posterior：通過樣本X得到引數的概率 likehood：通過引數得到樣本X的概率 prior：引數的先驗概率，一般是根據人的先驗知識來得出的。比如人們傾

極大似然估計最大後驗概率估計

經驗風險最小化： minf∈F1N∑Ni=1L(yi,f(xi)) 結構風險最小化： minf∈F1N∑Ni=1L(yi,f(xi))+λJ(f) 李航博士《統計學習方法》中第一章第九頁中有兩個論斷 1 當模型是條件概率分佈，損失函式是對數損失函式時

【機器學習筆記】最大似然估計法與LR中 J of theta 的概率解釋

看公開課的時候再次遇到，決心搞懂他… 首先是Andrew Ng在公開課中提到為什麼LR的損失函式要用最小二乘，給出了概率解釋，是在樣本誤差服從IID，並且誤差整體服從高斯分佈的最大似然函式的log表出。最大似然估計法先從一個比較普遍的例子講起：

貝葉斯估計、最大似然估計、最大後驗概率估計

文章作者：Tyan 部落格：noahsnail.com | CSDN | 簡書 1. 引言貝葉斯估計、最大似然估計(MLE)、最大後驗概率估計(MAP)這幾個概念在機器學習和深度學習中經常碰到，讀文章的時候還感覺挺明白，但獨立思考時經常會傻傻

從最大似然估計法到EM演算法

源地址：http://www.cnblogs.com/GuoJiaSheng/p/3966812.html?utm_source=tuicool 什麼是最大似然估計？問題：給定一組觀察資料還有一個引數待定的模型，如何來估計這個未知引數呢？觀察資料（x

最大似然估計（MLE）與最大後驗概率（MAP）在機器學習中的應用

最大似然估計 MLE 給定一堆資料，假如我們知道它是從某一種分佈中隨機取出來的，可是我們並不知道這個分佈具體的參，即“模型已定，引數未知”。例如，對於線性迴歸，我們假定樣本是服從正態分佈，但是不知道均值和方差；或者對於邏輯迴歸，我們假定樣本是服從二項分佈，但是不知道

通俗理解最大似然估計，最大後驗概率估計，貝葉斯估計

以下所有例子都是拋硬幣問題，在兩次試驗中出現正，反兩次結果，求該硬幣出現正面的概率p, 最大似然估計：假設分佈為伯努利分佈，也就是二項分佈，出現正面的概率是p,則下次出現上述實驗結果現象的概率是：L=P(1-p)，如何才能讓下次出現相同結過的概率最大？自然是L

最大似然估計和最大後驗概率估計的區別

最大似然估計（MLE） 1.似然函式：L(θ|x)=P(X=x|θ) ①物理意義：某次實驗，θ取不同值時，出現X=x的結果的概率； ②似然函式是引數(θ)的函式； ③似然函式是條件轉移概率。例1：設一枚硬幣正面朝上的概率為p，

【MLE】最大似然估計Maximum Likelihood Estimation

like 分布什麽 9.png 顏色 ... 部分多少 ati 模型已定，參數未知最大似然估計提供了一種給定觀察數據來評估模型參數的方法，假設我們要統計全國人口的身高，首先假設這個身高服從服從正態分布，但是該分布的均值與方差未知。我們沒有人力與物力去統計