1. 程式人生 > >幾種簡單的主題模型(生成模型)

幾種簡單的主題模型(生成模型)

瞭解主題模型,一般都會提到幾種最基礎的生成模型:Unigram model、Mixture of unigram,pLSA,接下來簡單介紹一下他們之間的區別:

1.Unigram model

左圖可知,一篇文件由詞生成,每個詞有其出現的概率,所有詞概率的乘積即得到生成文件的概率。

2.Mixture of unigram

相比unigram多了一層主題的條件概率,在各主題下出現的所有詞的概率乘積之和即為生成文件的概率。

3.pLSA

plsa與mix unigram的區別是給定了多個可能的主題,另外該模型與LDA相比,是沒有詞分佈和話題分佈對應的共軛分佈狄利克雷分佈,即