EM演算法原理詳解與高斯混合模型

藉助於machine learning cs229和文章【1】中的內容把EM演算法的過程順一遍，加深一下印象。
關於EM公式的推導，一般會有兩個證明，一個是利用Jesen不等式，另一個是將其分解成KL距離和L函式，本質是類似的。

下面介紹Jensen EM的整個推導過程。

Jensen不等式

回顧優化理論中的一些概念。設f是定義域為實數的函式，如果對於所有的實數x，f′′(x)≥0，那麼f是凸函式。當x是向量時，如果其hessian矩陣H是半正定的（H≥0），那麼f是凸函式。如果f′′(x)>0或者H>0，那麼稱f是嚴格凸函式。

Jensen不等式表述如下：

如果f是凸函式，X是隨機變數，那麼

E[f(x)]≥f(E[x])

特別地，如果f是嚴格凸函式，那麼
E[f(x)]>f(E[x])當且僅當p(X=E(X))=1，也就是說X是常量。
這裡我們將f(E[X])簡寫為f(EX)。

如果用圖表示會很清晰：

圖中，實線f是凸函式，X是隨機變數，有0.5的概率是a，有0.5的概率是b。（就像擲硬幣一樣）。X的期望值就是a和b的中值了，圖中可以看到
E[f(x)]≥f(E[x])成立。
當f是（嚴格）凹函式當且僅當−f是（嚴格）凸函式。

Jensen不等式應用於凹函式時，不等號方向反向，也就是E[f(x)]≤f(E[x])。

EM演算法

給定的訓練樣本是{x(1)

,...,x(m)}，樣例間獨立，我們想找到每個樣例隱含的類別z，能使得p(x,z)最大。p(x,z)的最大似然估計如下：

l(θ)=∑i=1mlogp(x(i);θ)=∑i=1mlog∑zp(x(i),z(i);θ)
第一步是對極大似然取對數，第二步是對每個樣例的每個可能類別z求聯合分佈概率和。但是直接求θ一般比較困難，因為有隱藏變數z存在，但是一般確定了z後，求解就容易了。
EM是一種解決存在隱含變數優化問題的有效方法。既然不能直接最大化l(θ)，我們可以不斷地建立l(θ)的下界（E步），然後優化下界（M步）。這句話比較抽象，看下面的。
對於每一個樣例i，讓Q

i表示該樣例隱含變數z的某種分佈，Qi滿足的條件是∑zQi(z)=1,Qi(z)≥1。（如果z是連續性的，那麼clip_image032[2]是概率密度函式，需要將求和符號換做積分符號）。比如要將班上學生聚類，假設隱藏變數z是身高，那麼就是連續的高斯分佈。如果按照隱藏變數是男女，那麼就是伯努利分佈了。

可以由前面闡述的內容得到下面的公式：

∑i=1mlogp(x;θ)=∑i=1mlog∑z(i)p(x(i),z(i);θ)=∑i=1mlog∑zQi(z(i))p(x(i),z(i);θ)Qi(z(i))≥∑i=1m∑z

EM演算法原理詳解與高斯混合模型

EM演算法原理詳解與高斯混合模型

EM演算法與高斯混合模型

EM演算法-原理詳解

隨機森林演算法原理詳解與實現步驟

Stanford機器學習課程筆記4-Kmeans與高斯混合模型

EM演算法及GMM(高斯混合模型）的詳解

高斯混合模型視訊背景建模的EM演算法與Matlab 實現

EM演算法在高斯混合模型中的應用（詳細解釋與求解）

[從今天開始修煉資料結構]圖的最短路徑 —— 迪傑斯特拉演算法和弗洛伊德演算法的詳解與Java實現

px em rem的詳解與區別

【機器學習】EM演算法在高斯混合模型學習中的應用

hash演算法原理詳解

Adaboost演算法原理詳解

Skip List（跳躍表）原理詳解與實現

KNN(k-nearest neighbor的縮寫)最近鄰演算法原理詳解

基於MeanShift的Camshift演算法原理詳解(opencv實現，有原始碼)

05 EM演算法 - 高斯混合模型 - GMM

faster-RCNN演算法原理詳解

蟻群演算法原理詳解和matlab程式碼

密碼學_RSA演算法原理詳解

EM演算法原理詳解與高斯混合模型

相關推薦