1. 程式人生 > >LDA主題模型發展歷程(1)

LDA主題模型發展歷程(1)

**

主題模型發展歷程

**首先從Unigram model談起,基於Unigram model加入貝葉斯先驗得到貝葉斯Unigram model,再基於SVD分解得到LSA模型,在LSA模型的基礎上加入概率化的解釋,就得到了PLSA,在PLSA的基礎上加入先驗化的分佈就得到了LDA。

Unigram Model

clipboard.pngclipboard.pngclipboard.png

貝葉斯Unigram Model

對於以上模型,貝葉斯統計學派持有不同的意見,他們認為只假設上帝擁有一個固定的骰子不合理。在貝葉斯學派看來,一切引數都是隨機變數,所以認為以上模型中的骰子不是唯一固定的,它也是一個隨機變數。流程如下:

clipboard.pngclipboard.png

LSA

LSA(隱性語義分析)的目的是要從文字中發現隱含的語義維度-即“Topic”。我們知道,在文件的空間向量模型中,文件被表示成由特徵詞出現概率組成的多維向量,可以對不同詞項賦予不同的權重,在文字檢索、分類、聚類問題中都得到了廣泛應用,然而,向量空間模型沒有能力處理一詞多義和一義多詞問題,例如同義詞也分別被表示成獨立的一維,計算向量的餘弦相似度時會低估使用者期望的相似度;而某個詞項有多個詞義時,始終對應同一維度,因此計算的結果會高估使用者期望的相似度。LSA方法的引入就可以減輕類似的問題。基於SVD分解,我們可以構造一個原始向量矩陣的一個低秩逼近矩陣,具體的做法是將詞項文件矩陣做SVD分解

clipboard.png

其中是以詞項(terms)為行, 文件(documents)為列做一個大矩陣. 設一共有t行d列, 矩陣的元素為詞項的tf-idf值。然後把∑的r個對角元素的前k個保留(最大的k個保留), 後面最小的r-k個奇異值置0, 得到∑k;最後計算一個近似的分解矩陣

clipboard.png

則Ck在最小二乘意義下是的最佳逼近。由於∑k最多包含k個非零元素,所以Ck的秩不超過k。通過在SVD分解近似,我們將原始的向量轉化成一個低維隱含語義空間中,起到了特徵降維的作用。每個奇異值對應的是每個“語義”維度的權重,將不太重要的權重置為0,只保留最重要的維度資訊,去掉一些資訊“nosie”,因而可以得到文件的一種更優表示形式。