EM（期望最大）演算法詳解(上)

EM演算法(The Expectation-Maximization Algorithm)實質是對含有隱變數的概率模型引數的極大似然估計。EM演算法的推導過程真的灰常容易理解，只需要一點點概率論的知識加上一點點的講解，便可對此演算法瞭然。

學習EM演算法，只需要2個小技能（合計4個小知識點）：
1. 概率分佈的引數常用極大似然估計——瞭解極大似然估計以及她的對數形式；在一概率分佈下有一組觀測值:X={x1,x2,...,xn}，極大似然估計的工作就是找到一組符合這個概率分佈的引數，使得出現這些觀測值的概率最大，數學表示就是：找到引數θ, 使得P(X|θ)最大。為了計算簡便，通常我們計算的對數似然函式：

L(θ)=lnP(X|θ)(1)注意這個寫法，L(θ)表示的是，在觀測值集合 X 給定的情況下，關於 θ 的函式
2. 知道什麼事凸函式以及凸函式的三個小知識點——
2.1) 凸函式的定義：對於實函數f,有區間I=[a,b]，如果區間上任意兩點x1,x2，總存在λ∈[0,1]，使得<br>：f(λx1+(1−λ)x2≤λf(x1)+(1−λ)f(x2)(2)，比如 y=x2,x∈[−1,1]
凸函式圖示

2.2) 若 f 是凹函式，則 −f 是凸函式，比如我們即將用到的 lnx ，在 x∈(0,∞) 上，它是凹函式，顯然 −lnx 是凸函式；
2.3) 詹森不等式（Jensen’s inequality）
函

數f是定義在區間I上的凸函數，對任意的x1,x2,...,xn∈I和λ1,λ2,...,λn≥0且∑i=1nλi=1，有f(∑i=1nλixi)≤∑i=1nλif(xi)(3) 這個不等式的證明也不難——歸納法，證明寫在最後。

接下來該是我們今天的主角出場了：EM演算法的過程——
因為有隱變數的存在，我們無法直接令對數似然函式的導數方程等於零的方式來求引數——需要迭代去計算：
1) E-step：根據觀測資料和對當前的引數估計值，去計算出隱變數的期望值；
2)M-step：根據E-step得到的隱變數的期望值去重新估計引數值，也就是進行新的一次極大似然估計
重複E & M 步驟，直至滿足終止條件（引數估計值沒有多大的變化）

很多時候，我們去學EM演算法，最先接觸到大概就是上面的定義了，往往讓我們摸不著頭腦，瞬間失去學習它的興趣。別急，下面會用簡單的推導去說明這一切~

怎麼去理解”極大似然估計”呢？比如說當我們在 n 次估值後，得到引數估計值為 θn，可能似然函式 L(θn) 已經比以往的都要大了，在這樣的情況下我們仍然希望繼續迭代的更新引數L(θ)，使得 L(θ)比θn大，

L(θ)>L(θn)(4)
也就是不管在什麼時候，我們希望最大化這樣的差異：L(θ)−L(θn)=lnP(X|θ)−ln

EM（期望最大）演算法詳解(上)

EM（期望最大）演算法詳解(上)

[Network Architecture]DPN（Dual Path Network）演算法詳解(轉)

SVR（Support Vector Regression）演算法詳解

【圖割】最大流/最小割演算法詳解（Yuri Boykov and Vladimir Kolmogorov，2004 ）

這是我見過最詳細的十大排序演算法介紹了，沒有之一（十大排序演算法詳解）

最短路dijkstra演算法詳解：dijkstra（圖解）（詳

區間dp的總結（乘積最大）

深度學習 --- 卷積神經網路CNN（LeNet-5網路學習演算法詳解）

希爾排序（java實現）演算法詳解

SegLink（Detecting Oriented Text in Natural Images by Linking Segments）演算法詳解

SWT（Detecting Text in Natural Scenes with Stroke Width Transform）演算法詳解

KNN（K最鄰近）演算法

並查集（union-find）演算法詳解

DES（Detection with Enriched Semantics）演算法詳解

機器學習教程四.KNN（k最近鄰）演算法理解和應用

YOLO（You Only Look Once）演算法詳解

PTAL1-054 福到了（15 分）演算法詳解與坑點分析

機器學習之KNN（k近鄰）演算法詳解

隨機抽樣一致性（RANSAC）演算法詳解

DPM（Deformable Part Model）原理詳解（匯總）

EM（期望最大）演算法詳解(上)

相關推薦