LDA主題模型發展歷程(1)

阿新 • • 發佈：2018-12-09

主題模型發展歷程

**首先從Unigram model談起，基於Unigram model加入貝葉斯先驗得到貝葉斯Unigram model,再基於SVD分解得到LSA模型，在LSA模型的基礎上加入概率化的解釋，就得到了PLSA,在PLSA的基礎上加入先驗化的分佈就得到了LDA。

Unigram Model

貝葉斯Unigram Model

對於以上模型，貝葉斯統計學派持有不同的意見，他們認為只假設上帝擁有一個固定的骰子不合理。在貝葉斯學派看來，一切引數都是隨機變數，所以認為以上模型中的骰子不是唯一固定的，它也是一個隨機變數。流程如下：

LSA

LSA(隱性語義分析)的目的是要從文字中發現隱含的語義維度-即“Topic”。我們知道，在文件的空間向量模型中，文件被表示成由特徵詞出現概率組成的多維向量，可以對不同詞項賦予不同的權重，在文字檢索、分類、聚類問題中都得到了廣泛應用，然而，向量空間模型沒有能力處理一詞多義和一義多詞問題，例如同義詞也分別被表示成獨立的一維，計算向量的餘弦相似度時會低估使用者期望的相似度；而某個詞項有多個詞義時，始終對應同一維度，因此計算的結果會高估使用者期望的相似度。LSA方法的引入就可以減輕類似的問題。基於SVD分解，我們可以構造一個原始向量矩陣的一個低秩逼近矩陣，具體的做法是將詞項文件矩陣做SVD分解

其中是以詞項(terms)為行, 文件(documents)為列做一個大矩陣. 設一共有t行d列, 矩陣的元素為詞項的tf-idf值。然後把∑的r個對角元素的前k個保留（最大的k個保留）, 後面最小的r-k個奇異值置0, 得到∑k；最後計算一個近似的分解矩陣

則Ck在最小二乘意義下是的最佳逼近。由於∑k最多包含k個非零元素，所以Ck的秩不超過k。通過在SVD分解近似，我們將原始的向量轉化成一個低維隱含語義空間中，起到了特徵降維的作用。每個奇異值對應的是每個“語義”維度的權重，將不太重要的權重置為0，只保留最重要的維度資訊，去掉一些資訊“nosie”,因而可以得到文件的一種更優表示形式。

LDA主題模型發展歷程(1)

主題模型發展歷程

Unigram Model

貝葉斯Unigram Model

LSA

LDA主題模型發展歷程(1)

用scikit-learn學習LDA主題模型

Spark機器學習(8)：LDA主題模型算法

LDA主題模型

LDA主題模型三連擊-入門/理論/代碼

LDA 主題模型通俗簡單講解

自然語言處理-LDA主題模型

Atitit 前端 dom 的藝術 attilax著目錄 1. 概念 1 2. 發展歷程 1 2.1. 廠商各自為政 2 2.2. 1.4　制定標準標準化 w3cdom 2 2.3. 1.4.

機器學習之LDA主題模型演算法

再看LDA主題模型

NLP︱LDA主題模型的應用難題、使用心得及從多元統計角度剖析

lda主題模型python實現篇

R語言︱LDA主題模型——最優主題數選取(topicmodels)+LDAvis視覺化(lda+LDAvis)

R語言實現LDA主題模型分析知乎話題

LDA主題模型、Word2Vec

LDA主題模型評估方法--Perplexity

用R做中文LDA主題模型視覺化分析

深入淺出講解LDA主題模型（一）

NLP︱LDA主題模型的應用難題

Gensim LDA主題模型實驗

LDA主題模型發展歷程(1)

主題模型發展歷程

Unigram Model

貝葉斯Unigram Model

LSA

相關推薦