Latent Dirichlet Allocation（LDA）學習筆記

阿新 • • 發佈：2018-11-23

1，Gamma函式

Gamma函式

\[\Gamma (x) = \int_0^\infty {{e^{ - t}}{t^{x - 1}}dt} \]

是階乘的從整數域到實數域的擴充套件

\[\Gamma (n) = (n - 1)!,n \in \{ 0,1,2,3...\} \]

函式遞推推導如下，根據分佈積分公式

\[uv = \int {(uv} )'dt = \int {uv'dt + \int {u'vdt} } \]

令

\[u = \frac{{{t^x}}}{x},v = {e^{ - t}}\]

得

\[\Gamma (x) = \int_0^\infty {{e^{ - t}}{t^{x - 1}}dt} = \int_0^\infty {u'vdt} = uv|_0^\infty - \int_0^\infty {uv'dt} = \frac{{{t^x}}}{{x{e^t}}}|_0^\infty - \int_0^\infty { - {e^{ - t}}\frac{{{t^x}}}{x}dt} = \frac{1}{x}\int_0^\infty {{e^{ - t}}{t^x}dt} = \frac{1}{x}\Gamma (x + 1)\]

Gamma函式以及變形得到的Gamma分佈在數學上應用很廣，其發現過程可以參考《LDA資料八卦》

2，Bernoulli（伯努利）分佈

伯努利分佈又稱為兩點分佈或者0-1分佈，是一種離散型概率分佈，指事件可能性存在兩種，1或0，發生概率分別為p與1-p，即

\[P(x) = \left\{ {\begin{array}{*{20}{c}}
{p,x = 1}\\
{1 - p,x = 0}
\end{array}} \right.\]

可知

\[\begin{array}{l}
E[x] = p*1 + (1 - p)*0 = p\\
D[x] = E[{x^2}] - {E^2}[x] = p(1 - p)
\end{array}\]

3，二項分佈

二項分佈指重複n次的概率為p的伯努利分佈的試驗，記為X~B(n,p)，也是一種離散型概率分佈，此時事件a發生k次（即事件b發生n-k次）的概率為

\[P(k) = \frac{{n!}}{{k!(n - k)!}}{p^k}{(1 - p)^{n - k}}\]

可知

\[E[x] = \sum\limits_0^n {k\frac{{n!}}{{k!(n - k)!}}{p^k}} {(1 - p)^{n - k}} = \sum\limits_1^n {\frac{{n*(n - 1)!}}{{(k - 1)!(n - k)!}}p*{p^{k - 1}}} {(1 - p)^{n - k}} = np\sum\limits_1^n {\frac{{(n - 1)!}}{{(k - 1)!(n - k)!}}{p^{k - 1}}} {(1 - p)^{n - k}} \]

可知，式子後半部分為X~B(n-1,p)的全部可能取值之和

\[E[x] = np\sum\limits_0^t {\frac{{t!}}{{s!(t - s)!}}{p^s}} {(1 - p)^{t - s}}{|_{s = k - 1,t = n - 1}} = np\]

另，由

\[E[{x^2}] = \sum\limits_0^n {{k^2}\frac{{n!}}{{k!(n - k)!}}{p^k}} {(1 - p)^{n - k}} = \sum\limits_0^n {k\frac{{n!}}{{(k - 1)!(n - k)!}}{p^k}} {(1 - p)^{n - k}}\]

想辦法拆項消去k

\[\begin{array}{l}
E[{x^2}] = \sum\limits_0^n {((k - 1) + 1)\frac{{n!}}{{(k - 1)!(n - k)!}}{p^k}} {(1 - p)^{n - k}}\\
= k\frac{{n!}}{{(k - 1)!(n - k)!}}{p^k}{(1 - p)^{n - k}}{|_{k = 1}} + \sum\limits_2^n {((k - 1) + 1)\frac{{n!}}{{(k - 1)!(n - k)!}}{p^k}} {(1 - p)^{n - k}}\\
= np{(1 - p)^{n - 1}} + \sum\limits_2^n {\frac{{n!}}{{(k - 2)!(n - k)!}}{p^k}} {(1 - p)^{n - k}} + \sum\limits_1^n {\frac{{n!}}{{(k - 1)!(n - k)!}}{p^k}} {(1 - p)^{n - k}} - \frac{{n!}}{{(k - 1)!(n - k)!}}{p^k}{(1 - p)^{n - k}}{|_{k = 1}}\\
= np{(1 - p)^{n - 1}} + n(n - 1){p^2}\sum\limits_2^n {\frac{{(n - 2)!}}{{(k - 2)!(n - k)!}}{p^{k - 2}}} {(1 - p)^{n - k}} + np\sum\limits_1^n {\frac{{(n - 1)!}}{{(k - 1)!(n - k)!}}{p^{k - 1}}} {(1 - p)^{n - k}} - np{(1 - p)^{n - 1}}\\
= {n^2}{p^2} - {n^2}{p} + np
\end{array}\]

可得

\[D[x] = E[{x^2}] - {E^2}[x] = {n^2}{p^2} - {n^2}{p} + np - {(np)^2} = np(1 - p)\]

4，Beta函式

Beta函式跟Gamma函式關係十分密切

\[B(\alpha ,\beta ) = \int_0^1 {{x^{\alpha - 1}}{{(1 - x)}^{\beta - 1}}dx = \frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}}} \]

這個等式的證明過於複雜，詳見參考文獻

5，Beta分佈

將Beta函式作為歸一化分母，將Beta函式積分內部的式子作為分子，可以得到一個自變數介於0-1之間的、積分結果為1的函式

\[f(x;\alpha ,\beta ) = \frac{{{x^{\alpha - 1}}{{(1 - x)}^{\beta - 1}}}}{{\int_0^1 {{x^{\alpha - 1}}{{(1 - x)}^{\beta - 1}}dx} }} = \frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}}{x^{\alpha - 1}}{(1 - x)^{\beta - 1}}\]

將這個函式定義為Beta分佈的概率密度函式，由於自變數介於0-1之間，可以認為這是一個概率的概率分佈，記為X~Beta(α,β)

\[E[x] = \int_0^1 {x\frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}}{x^{\alpha - 1}}{{(1 - x)}^{\beta - 1}}dx} = \int_0^1 {\frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}}{x^\alpha }{{(1 - x)}^{\beta - 1}}dx} = \int_0^1 {\frac{\alpha }{{(\alpha + \beta )}}\frac{{\Gamma (\alpha + \beta + 1)}}{{\Gamma (\alpha + 1)\Gamma (\beta )}}{x^\alpha }{{(1 - x)}^{\beta - 1}}dx} = \frac{\alpha }{{(\alpha + \beta )}}\]

可以看到Beta分佈的概率密度函式與二項分佈的概率密度函式形式非常接近，其實兩者的確是同根同源的，關於兩者的關係，可以參考《LDA數學八卦》中關於撒旦的遊戲的描述

6，多項分佈

將二項分佈的事件可能結果擴充套件為k個，則變形為多項分佈，概率分佈函式為

\[P({x_1},{x_2},...,{x_k}) = \frac{{n!}}{{\sum\limits_1^k {({x_i}!)} }}\prod\limits_1^k {{p_i}^k} ,{x_i} \ge 0,\sum\limits_1^k {{x_i} = 1} \]

7，Dirichlet（狄利克雷）分佈

將Beta分佈的概率分佈擴充套件到多維，就可以得到狄利克雷分佈，記為X~Dir(α)

\[f({x_i};{\alpha _i}) = \frac{{\prod\limits_1^k {{x_i}^{{\alpha _i} - 1}} }}{{\int_0^1 {\prod\limits_1^k {{x_i}^{{\alpha _i} - 1}} dx} }} = \frac{{\prod\limits_1^k {{x_i}^{{\alpha _i} - 1}} }}{{\Delta (\vec \alpha )}} = \frac{{\Gamma (\sum\limits_1^k {{\alpha _i}} )}}{{\prod\limits_1^k {\Gamma ({\alpha _i})} }}\prod\limits_1^k {{x_i}^{{\alpha _i} - 1}} \]

\[\Delta (\vec \alpha ) = \int_0^1 {\prod\limits_1^k {{x_i}^{{\alpha _i} - 1}} dx} \]

這個式子的證明更加複雜

同Beta分佈，Dirichlet分佈的期望為

\[E[{x_i}] = \frac{{{\alpha _i}}}{{\sum\limits_1^k {{\alpha _i}} }}\]

8，先驗分佈、後驗分佈、似然函式與共軛先驗分佈

根據貝葉斯公式，先驗概率、似然函式與後驗概率的關係如下

\[P(\theta |x) = \frac{{P(x|\theta )P(\theta )}}{{P(x)}}\]

如果P(θ)不是一個確定的概率，而是一個概率分佈，則可得先驗分佈、似然函式與後驗分佈的關係

\[f(x;\alpha ,k) = \frac{{P(k|x)f(x;\alpha )}}{{\int {P(k|x)f(x;a)dx} }}\]

假設先驗分佈滿足Beta分佈，X~Beta(α,β)，似然函式滿足二項分佈，則後驗分佈為

\[f(x;\alpha ,\beta ,k) = \frac{{{x^{{k_1} - 1}}{{(1 - x)}^{{k_2} - 1}}\frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}}{x^{\alpha - 1}}{{(1 - x)}^{\beta - 1}}}}{{\int {{x^{{k_1} - 1}}{{(1 - x)}^{{k_2} - 1}}\frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}}{x^{\alpha - 1}}{{(1 - x)}^{\beta - 1}}dx} }} = \frac{{\frac{{\Gamma (\alpha + \beta + {k_1} + {k_2})}}{{\Gamma (\alpha + {k_1})\Gamma (\beta + {k_2})}}{x^{\alpha + {k_1} - 1}}{{(1 - x)}^{\beta + {k_2} - 1}}}}{{\int {\frac{{\Gamma (\alpha + \beta + {k_1} + {k_2})}}{{\Gamma (\alpha + {k_1})\Gamma (\beta + {k_2})}}{x^{\alpha + {k_1} - 1}}{{(1 - x)}^{\beta + {k_2} - 1}}dx} }}\]

可見後驗分佈還是Beta分佈，X~Beta(α+k₁,β+k₂)

因此，稱Beta分佈為二項分佈的共軛先驗分佈

擴充套件到多維，同樣可證，Dirichlet分佈為多項分佈的共軛先驗分佈

8，隨機模擬（Monte Carlo Method）

給定一個概率分佈P(x)，利用計算機隨機生成樣本，稱為隨機模擬

均勻分佈是最容易生成的樣本的分佈，一些常見分佈如Gamma分佈、正態分佈，都可以通過均勻分佈變換得到

但有些複雜概率分佈的樣本不能通過均勻分佈變換得到

9，馬爾科夫鏈（Markov Chain）與平穩分佈

馬爾科夫鏈的定義為

\[P({s_n}|{s_{n - 1}},{s_{n - 2}},{s_{n - 3}},...) = P({s_n}|{s_{n - 1}})\]

根據定義，馬爾科夫鏈中各個狀態相互轉移只取決於當前狀態，將狀態相互轉移的概率P_i,j構成的矩陣稱為轉移矩陣

根據馬爾科夫鏈收斂定理，如果一個馬爾科夫鏈的轉移概率矩陣存在，並且任意兩個狀態都是聯通的（即有限步內可達），那麼這個馬爾科夫鏈存在平穩分佈，即經過若干次轉移後，處於每個狀態的概率穩定，這個穩定的概率分佈即平穩分佈

馬爾科夫鏈處於平穩狀態下的充分必要條件是滿足細緻平穩條件

\[{s_i}{P_{i,j}} = {s_j}{P_{j,i}}\]

10，MCMC（Monte Carlo Markov Chain）方法

如果能構造一個馬爾科夫鏈，此鏈的平穩分佈為待取樣的概率分佈p(x)，則可以通過在已經收斂到平穩狀態的馬爾科夫鏈上取樣，作為p(x)的取樣樣本

構造一個轉移矩陣為P的馬爾科夫鏈，令其平穩分佈為s(x)，則一般情況下

\[{s_i}{P_{i,j}} \ne {s_j}{P_{j,i}}\]

此時引入

\[{\alpha _{i,j}} = {s_j}{P_{j,i}},{\alpha _{j,i}} = {s_i}{P_{i,j}}\]

則可得

\[{s_i}{P_{i,j}}{\alpha _{i,j}} = {s_j}{P_{j,i}}{\alpha _{j,i}}\]

稱α為接收矩陣，意義為在原轉移概率基礎上，有一定機率接收轉移，有一定機率拒絕轉移，得到平穩分佈

11，M-H（Metropolis-Hastings）取樣方法

Metropolis-Hastings方法是改造的MCMC方法，由於在一般MCMC方法中，轉移概率還會有一定接收率，有可能很小，則取樣時會大概率拒絕轉移，為了提高轉移概率，Metropolis-Hastings方法將接收概率在滿足細緻平穩條件的前提下儘量增大

\[{\alpha _{i,j}} = \min \{ \frac{{{s_j}{P_{j,i}}}}{{{s_i}{P_{i,j}}}},1\} \]

12，Gibbs取樣方法

Gibbs取樣方法是一種特殊的Metropolis-Hastings方法，將接受率增大為1,

考慮二維的情況，在概率分佈上取兩點A(x₁,y₁)，B(x₁,y₂)，並將概率分佈p(y₁|x₁)，p(y₂|x₁)作為轉移概率，可得

\[\begin{array}{l}
p({x_1},{y_1})p({y_2}|{x_1}) = p({y_1}|{x_1})p({x_1})p({y_2}|{x_1})\\
p({x_1},{y_2})p({y_1}|{x_1}) = p({y_2}|{x_1})p({x_1})p({y_1}|{x_1})
\end{array}\]

可見，則平穩分佈條件是成立的

\[p({x_1},{y_2})p({y_1}|{x_1}) = p({x_1},{y_2})p({y_1}|{x_1})\]

Gibbs取樣即基於此等式，為此馬爾科夫鏈構造轉移矩陣P

\[{P_{AB}} = \left\{ {\begin{array}{*{20}{c}}
{p({y_B}|{x_A}),{x_A} = {x_B}}\\
{p({x_B}|{y_A}),{y_A} = {y_B}}\\
{0,{x_A} \ne {x_B},{y_A} \ne {y_B}}
\end{array}} \right.\]

13，文字建模

有若干文件，假設只考慮文件中各個單詞的個數，不考慮單詞出現次序，即Bag-Of-Words模型

文字建模問題即將文件中單詞的生成看做上帝拋擲骰子的結果，模型預測的引數有兩個：1）有哪些樣式的骰子，2）怎樣拋擲這些骰子

14，簡單Unigram模型

簡單Unigram Model認為：1）只有一枚骰子，每面代表一個單詞，各個單詞概率不盡相同，2）不斷拋擲這枚骰子，生成所有文件的所有單詞

可見所有文件都是統一的，即所有單詞都在一個袋子裡

令V為單詞集合（字典），M為單詞總數（字典大小），w_m為所有文件中單詞v_m的出現次數

令p_m為模型中單詞v_m的出現概率，文件生成的過程滿足多項分佈Multi(w|p)

文件生成的概率為

\[P(W) = \prod\limits_m^M {p_m^{{w_m}}} \]

根據最大似然估計

\[{{\hat p}_m} = \frac{{{w_m}}}{{\sum\limits_m^M {{w_m}} }}\]

15，貝葉斯Unigram模型

貝葉斯認為骰子也是有概率分佈的，所以等同於：1）有若干枚骰子，每個骰子各面概率不盡相同，每面代表一個單詞，各個單詞概率不盡相同，2）隨機選出一枚骰子，不斷拋擲這枚骰子，生成所有文件的所有單詞

所以貝葉斯Unigram模型也是將所有單詞都放在一個袋子裡

令V為單詞集合（字典），M為單詞總數（字典大小），w_m為所有文件中單詞v_m的出現次數

令p_m為模型中單詞v_m的出現概率，由於文件生成的過程滿足多項分佈Multi(w|p)

\[P(\vec w|\vec p) = \prod\limits_m^M {p_m^{{w_m}}} \]

所以採用多項分佈的共軛先驗分佈Dirichlet分佈作為先驗分佈Dir(p|α)，此處α為先驗分佈的超引數

\[Dir(\vec p|\vec \alpha ) = \frac{{\prod\limits_m^M {p_m^{{\alpha _m} - 1}} }}{{\int {\prod\limits_m^M {p_m^{{\alpha _m} - 1}} d\vec p} }}\]

根據多項分佈於Dirichlet分佈的關係，後驗分佈也應是Dirichlet分佈，後驗分佈滿足

\[Dir(\vec p|\vec \alpha , \vec w) = \frac{{\prod\limits_m^M {p_m^{{\alpha _m} + {w_m} - 1}} }}{{\int {\prod\limits_m^M {p_m^{{\alpha _m} + {w_m} - 1}} d\vec p} }}\]

此時文件生成概率為

\[P(W) = \int {P(\vec w|\vec p)P(} \vec p|\vec \alpha )d\vec p = \int {\prod\limits_m^M {p_m^{{w_m}}} \frac{{\prod\limits_m^M {p_m^{{\alpha _m} - 1}} }}{{\int {\prod\limits_m^M {p_m^{{\alpha _m} - 1}} d\vec p} }}} d\vec p = \frac{{\int {\prod\limits_m^M {p_m^{{\alpha _m} + {w_m} - 1}} d\vec p} }}{{\int {\prod\limits_m^M {p_m^{{\alpha _m} - 1}} d\vec p} }}\]

將後驗分佈的平均值作為引數估計值

\[{{\hat p}_m} = \frac{{{\alpha _m} + {w_m}}}{{\sum\limits_m^M {({\alpha _m} + {w_m})} }}\]

16，PLSA（Probabilistic Latent Semantic Analyse）

Unigram模型認為所有文件都是獨立同分布的，PLSA在Unigram模型基礎上，認為每個文件都由若干個不盡相同的主題構成，每個單詞都由主題以一定概率生成，即：1）每篇文件有一枚特定的doc-topic骰子，2）有若干枚topic-word骰子，3）生成每個詞前，先拋擲doc-topic骰子，再根據doc-topic骰子結果選擇topic-word骰子，拋擲topic-word骰子，生成單詞

令V為單詞集合（字典），M為單詞總數（字典大小），N為文件個數，K為主題個數

令d_n代表文件n，z_k代表主題k，v_m代表單詞m，則p(z_k|d_n)為文件d_n生成主題t_k的概率，p(v_m|z_k)為主題t_k生成單詞v_m的概率，並且模型假設p(z_k|d_n)、p(v_m|z_k)相互獨立

令w_nm為文件d_n中單詞v_m的個數，則文件生成概率為

\[\begin{array}{l}
P(W) = \prod\limits_n^N {\prod\limits_m^M {p{{({v_m},{d_n})}^{{w_{nm}}}}} } \\
p({v_m},{d_n}) = p({d_n})\prod\limits_k^K {p({v_m}|{z_k})p({z_k}|{d_n})}
\end{array}\]

可得log似然函式如下

\[L(W) = \sum\limits_n^N {\sum\limits_m^M {{w_{nm}}\log (p({v_m},{d_n}))} } = \sum\limits_n^N {\sum\limits_m^M {{w_{nm}}(\log (p({d_n})) + \sum\limits_k^K {\log (p({v_m}|{z_k})p({z_k}|{d_n})))} } } \]

去除常數項

\[L'(W) = \sum\limits_n^N {\sum\limits_m^M {{w_{nm}}\sum\limits_k^K {\log (p({v_m}|{z_k})p({z_k}|{d_n})))} } } \]

使用EM演算法估計似然函式最大值

首先假設p(z_k|d_n)與p(v_m|z_k)都已知，則可求後驗概率

\[p({z_k}|{v_m},{d_n}) = \frac{{p({z_k},{v_m},{d_n})}}{{p({v_m},{d_n})}} = \frac{{p({v_m}|{z_k})p({z_k}|{d_n})p({d_n})}}{{p({v_m}|{d_n})p({d_n})}}\]

可知在後驗概率中m、n的相關項都是一定的，則後驗概率可化為下式求解

\[p({z_k}|{v_m},{d_n}) = \frac{{p({v_m}|{z_k})p({z_k}|{d_n})}}{{\prod\limits_k^K {p({v_m}|{z_k})p({z_k}|{d_n})} }}\]

然後根據當前求得的後驗概率求令似然函式期望最大化的p(z_k|d_n)與p(v_m|z_k)

\[E[L'(W)] = \sum\limits_n^N {\sum\limits_m^M {{w_{nm}}\sum\limits_k^K {p({z_k}|{v_m},{d_n})\log (p({v_m}|{z_k})p({z_k}|{d_n})))} } } ,\sum\limits_m^M {p({v_m}|{z_k}) = 1,\sum\limits_k^K {p({z_k}|{d_n}) = 1} } \]

期望函式有約束，則利用Lagrange Multiplier拉格朗日乘子法構造Lagrange函式

\[f(x) = E[L'(W)] + \alpha (\sum\limits_m^M {p({v_m}|{z_k})} - 1) + \beta (\sum\limits_k^K {p({z_k}|{d_n})} - 1)\]

令函式偏導數為0

\[\begin{array}{l}
\frac{{\partial f(x)}}{{\partial p({v_m}|{z_k})}} = \sum\limits_n^N {\frac{{{w_{nm}}p({z_k}|{v_m},{d_n})}}{{p({v_m}|{z_k})}}} + \alpha = 0\\
\frac{{\partial f(x)}}{{\partial p({z_k}|{d_n})}} = \sum\limits_m^M {\frac{{{w_{nm}}p({z_k}|{v_m},{d_n})}}{{p({z_k}|{d_n})}}} + \beta = 0
\end{array}\]

根據p(v_m|z_k)和為1，代入上式消去α

\[\begin{array}{l}
\sum\limits_m^M {p({v_m}|{z_k})} = \sum\limits_m^M {\frac{{\sum\limits_n^N {{w_{nm}}p({z_k}|{v_m},{d_n})} }}{{ - \alpha }}} = 1\\
\alpha = - \sum\limits_n^N {\sum\limits_m^M {{w_{nm}}p({z_k}|{v_m},{d_n})} }
\end{array}\]

可得p(v_m|z_k)的迭代公式

\[p({v_m}|{z_k}) = \frac{{\sum\limits_n^N {{w_{nm}}p({z_k}|{v_m},{d_n})} }}{{\sum\limits_n^N {\sum\limits_m^M {{w_{nm}}p({z_k}|{v_m},{d_n})} } }}\]

同樣可得p(z_k|d_n)的迭代公式

\[\begin{array}{l}
\sum\limits_k^K {p({z_k}|{d_n})} = \sum\limits_k^K {\frac{{\sum\limits_m^M {{w_{nm}}p({z_k}|{v_m},{d_n})} }}{{ - \beta }}} = 1\\
\beta = - \sum\limits_m^M {\sum\limits_k^K {{w_{nm}}p({z_k}|{v_m},{d_n})} } \\
p({z_k}|{d_n}) = \frac{{\sum\limits_m^M {{w_{nm}}p({z_k}|{v_m},{d_n})} }}{{\sum\limits_m^M {\sum\limits_k^K {{w_{nm}}p({z_k}|{v_m},{d_n})} } }}
\end{array}\]

依樣迭代，直至收斂

17，LDA（Latent Dirichlet Allocation）

LDA將PLSA做了貝葉斯改造，即認為doc-topic的概率與topic-word的概率都是有分佈的，對應於骰子模型即：1）先從topic-word分佈中選擇K個topic-word骰子，2）對每一篇文件，從doc-topic分佈中選擇1個doc-topic骰子，3）對每一個單詞，先拋擲doc-topic骰子得到topic編號k，再拋擲第k個topic-word骰子得到word

假設doc-topic先驗分佈為Dirichlet分佈Dir(θ|α)，拋擲doc-topic骰子符合多項分佈Multi(z|θ)，則可知doc-topic後驗分佈也是滿足Dirichlet分佈，設z為doc-topic分佈，θ_k為topic的概率，n_k為所有文件中topic出現的次數

\[f(z,\alpha ) = \int {p(z|\theta } )f(\theta ,\alpha )d\vec \theta = \int {\prod\limits_k^K {\theta _k^{{n_k}}} \frac{{\prod\limits_k^K {\theta _k^{{\alpha _i} - 1}} }}{{\int {\prod\limits_k^K {\theta _k^{{\alpha _i} - 1}d\vec \theta } } }}d\vec \theta } = \frac{{\Delta (\vec n + \vec \alpha )}}{{\Delta (\vec \alpha )}}\]

參考文獻：

《LDA資料八卦》

https://www.jianshu.com/p/d8485c623669

https://www.jianshu.com/p/8fb2fcb52a3a

https://www.jianshu.com/p/e7fbd3a2b786

https://www.jianshu.com/p/1511c94b2ac3

http://www.cnblogs.com/pinard/p/6831308.html

http://www.cnblogs.com/pinard/p/6867828.html

http://www.cnblogs.com/pinard/p/6873703.html

http://www.cnblogs.com/bentuwuying/p/6219970.html

https://blog.csdn.net/xhf0374/article/details/53946146

Latent Dirichlet Allocation（LDA）學習筆記

Latent Dirichlet Allocation（LDA）學習筆記

教務系統維護日誌（2）---學習筆記

原生ajax及其與服務器交互（java）學習筆記

自動微分（AD）學習筆記

（7）學習筆記） ASP.NET CORE微服務 Micro-Service ---- 利用Polly+AOP+依賴註入封裝的降級框架

（1）學習筆記之mysql基本操作（）

線段樹（SegmentTree）學習筆記

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

Java NIO 通道（Channel）學習筆記

Java NIO 緩衝區（Buffer）學習筆記

生成對抗網路學習（GAN）學習筆記

Manacher（馬拉車）學習筆記

動態連結庫（dll）學習筆記

python核心程式設計第三版（一）學習筆記：正則表示式

Linux（CentOS）學習筆記（一）——Linux命令

Linux（CentOS）學習筆記（四）——Linux命令

Django入門（一）——學習筆記

Kubernetes（k8s）學習筆記1

spring零配置（Annotation）學習筆記

All you need is attention（Tranformer） --學習筆記

Latent Dirichlet Allocation（LDA）學習筆記

相關推薦