LDA主題模型學習筆記3：變分推斷(E-step)

(γ∗,ϕ∗)=argmin(γ,ϕ)D(q(θ,z|γ,ϕ)||p(θ,z|w,α,β))

而這個KL距離是如下形式，這個很難直接最小化。

D(q(θ,z|γ,ϕ)||p(θ,z|w,α,β))=∫∑zq(θ,z|γ,ϕ)logq(θ,z|γ,ϕ)p(θ,z|w,α,β)dθ.

上面的問題先擱置一邊，來看看最初的目標，log似然函式。根據變分法，我們利用凸函式的Jensen不等式性質，可以得到log似然函式 logp(w|α,β) 的一族下界(lower bounds)：
（*）
log似然函式下界推導

可以看到第二行引入了q(θ,z)，是為了使用Jensen不等式做的變形。然後在第三行使用了jensen不等式，第四行就是得到的下界。

Jensen不等式是指，積分的凸函式值大於等於凸函式的積分值：

ϕ(E(X))≤E(ϕ(X))
幾何解釋：
jensen

對於離散的{x1,x2,...xn}，則有：ϕ(∑i=1ng(xi)λi)≤∑i=1nϕ(g(xi))λi
其中，∑ni=1λi=1,λi≥0。在連續的情況下，就是積分的形式了。q(θ,z) 的作用就相當於其中的λ，是權值。

將(*)式中第四行等號右側部分記做L(γ,ϕ;α,β)，這個就是我們找到的log似然函式logp(w|α,β) 的lower bounds，我們計算他們的差，會發現他們的差恰好是q

(θ,z|γ,ϕ)和p(θ,z|w,α,β)這兩個分佈之間的KL距離(Kullback–Leibler divergence)。

即：

logp(w|α,β)=L(γ,ϕ;α,β)+D(q(θ,z|γ,ϕ)||p(θ,z|w,α,β))

至此，如下的優化問題：

(γ∗,ϕ∗)=argminγ,ϕD(q(θ,z|γ,ϕ)||p(θ,z|w,α,β))
轉化為了L(γ,ϕ;α,β) 的最大化問題，也就說，基於γ,ϕ 最大化L。（注意此時在E-step中，α,β 是上一輪迭代中M-step求得的，這裡不把它們當成變數。）

接下來對L利用拉格朗日乘數法求最大值，讓L對γ

,ϕ 的偏導分別為零，即可解出γ,ϕ 。得到如下的更新式（推導見下一篇《LDA主題模型學習筆記3.5：變分引數推導》）：
update

這一對更新式可以從直觀的角度去解釋，但暫時還沒有理解清楚這個解釋，原文如下：
更新式直觀解釋
得到更新式後，通過不斷的迭代，計算最優的引數γ∗,ϕ∗，以下是推斷演算法的虛擬碼：

變分虛擬碼

其中ϕni是指第n個word由第i個topic生成的概率，k是指共有k個主題，N是文件中word數。因為存在約束∑