再看LDA主題模型

阿新 • • 發佈：2018-12-21

之前學習文字挖掘時已經寫過一篇關於主題模型的部落格《文字建模之Unigram Model，PLSA與LDA》，前幾天小組討論主題模型時，又重新理解了一遍LDA，有了更深刻的認識，特記錄一下。

1、Unigram Model

Unigram model是最簡單的文字模型，其直接將文字的生成過程看作是從一個詞彙表中重複取詞的過程。因此只要知道每個詞的產生概率，就能計算出一篇文件的產生概率。假設一篇文件由 $N$ 個詞 $w_1,w_2,\dots,w_n$ 組成，如下圖所示：

這 $N$ 個詞必定來自於一個詞彙表 $v_{1}, v_{2}, \dots , v_{V}$

v_1,v_2,\cdots,v_V

v_{1}, v_{2}, \dots, v_{V}

，其中

V

是詞彙表大小，

v_i

是詞彙表中某一個詞，上圖中紅、黃、藍、綠代表文件中該詞所對應的詞彙表中詞。文件中每個詞的產生相互獨立（不考慮詞產生過程中的相互影響），因此在知道詞彙表中每個詞的產生概率 $\vec{p}=(p_{v_1},p_{v_2},\dots,p_{v_V})$ ，和詞彙表中每個詞的出現次數 $\vec{n}=(n_{v_1},n_{v_2},\dots,n_{v_V})$ ，同時 $n_{v_1}+n_{v_2}+\dots+n_{v_V}=N$ ， $\vec{n}$ 的發生概率滿足多項分佈：

p(\vec{n})=Multi(\vec{n}|\vec{p},N)=\begin{pmatrix} N \\ \vec{n} \end{pmatrix}\prod_{i=1}^Vp_{v_i}^{n_{v_i}}

一篇文件相當於詞彙表中 $V$

V

各詞

n

次取值實驗中的一種，因此一篇文件的產生概率可以寫成：

p(\vec{w})=\prod_{i=1}^Vp_{v_i}^{n_{v_i}}

語料中 $M$ 篇文件的生成過程相互獨立，所以語料的產生概率為： $p(W)=\prod_{m=1}^M\prod_{i=1}^Vp_{v_i}^{n_{mv_i}}=\prod_{i=1}p_{v_i}^{n_{v_i}}$

此處， $n_{mv_i}$ 表示詞彙表中詞 $v_i$ 在第 $m$ 篇文件中的出現次數， $n_{v_i}$ 表示 $v_i$ 在整個語料庫中的出現次數。現在，只剩下最後一個問題，怎麼通過觀測到的語料去估計詞彙表中每個詞的產生概率 $\vec{p}$ ，按照頻率學派和貝葉斯學派的觀點，存在兩種計算方法。

頻率學派

頻率學派認為，詞彙表中每個詞的產生概率 $\vec{p}$ 雖然未知，但是其取值是固定的，是取值空間中的一個定值。 可以採用最大似然估計，於是引數 $\vec{p}$ 的估計值是 $\hat{p}_{v_i}=\frac{n_{v_i}}{N}$

其圖模型是

圖中方框表示重複此過程，灰色圓圈的w表示可觀測變數，N表示一篇文件中包含N個單詞，M表示生成M篇文件。

貝葉斯學派

貝葉斯學派認為，詞彙表中每個詞的產生概率 $\vec{p}$ 不僅未知，且其取值也未定，取值空間中的每種情況都有可能取到，也就是說，分佈 $\vec{p}$ 也是從一個概率分佈中取出來的，我們稱這個概率分佈為 $\vec{p}$ 的先驗分佈。因為每一個分佈 $\vec{p}$ 都有可能產生我們的語料，我們不知道語料究竟是由哪一個 $\vec{p}$ 產生。假設 $\vec{p}$ 被選中的概率為 $p(\vec{p})$ ，那麼此時語料的產生概率為： $p(W)=\int p(W|\vec{p})p(\vec{p})d\vec{p}$

上面的推導中，我們已經知道 $p(\vec{n})$ 符合多項分佈， $p(W)$ 是 $\vec{n}$ 的一種情況，因此也可以近似認為 $p(W)$ 符合多項分佈，所以先驗分佈 $p(\vec{p})$ 的一個較比好的選擇是多項分佈的共軛先驗分佈，即Dirichlet分佈 $Dir(\vec{p}|\vec{\alpha})$ 。此時，語料的產生概率為： $\begin{aligned} p(W|\vec{\alpha}) &= \int p(W|\vec{p})p(\vec{p}|\vec{\alpha})d\vec{p}\\ &= \int\prod_{i=1}^Vp_{v_i}^{n_{v_i}}Dir(\vec{p}|\vec{\alpha})d\vec{p} \\ &= \int\prod_{i=1}^Vp_{v_i}^{n_{v_i}}\frac{1}{\Delta(\vec{\alpha})}\prod_{i=1}^Vp_{v_i}^{\alpha_i-1}d\vec{p} \\ &= \frac{1}{\Delta(\vec{\alpha})}\int\prod_{i=1}^Vp_{v_i}^{\alpha_i+n_{v_i}-1}d\vec{p} \\ &= \frac{\Delta(\vec{n}+\vec{\alpha})}{\Delta(\vec{\alpha})} \end{aligned}$

再看LDA主題模型

1、Unigram Model

頻率學派

貝葉斯學派

再看LDA主題模型

用scikit-learn學習LDA主題模型

Spark機器學習(8)：LDA主題模型算法

LDA主題模型

LDA主題模型三連擊-入門/理論/代碼

LDA 主題模型通俗簡單講解

LDA主題模型發展歷程(1)

自然語言處理-LDA主題模型

機器學習之LDA主題模型演算法

NLP︱LDA主題模型的應用難題、使用心得及從多元統計角度剖析

lda主題模型python實現篇

R語言︱LDA主題模型——最優主題數選取(topicmodels)+LDAvis視覺化(lda+LDAvis)

R語言實現LDA主題模型分析知乎話題

LDA主題模型、Word2Vec

LDA主題模型評估方法--Perplexity

用R做中文LDA主題模型視覺化分析

深入淺出講解LDA主題模型（一）

NLP︱LDA主題模型的應用難題

Gensim LDA主題模型實驗

LDA主題模型程式碼實現流程

再看LDA主題模型

1、Unigram Model

頻率學派

貝葉斯學派

相關推薦