LDA主題模型評估方法--Perplexity

阿新 • • 發佈：2018-12-22

原文出處：http://blog.csdn.net/pirage/article/details/9368535

在LDA主題模型之後，需要對模型的好壞進行評估，以此依據，判斷改進的引數或者演算法的建模能力。

Blei先生在論文《Latent Dirichlet Allocation》實驗中用的是Perplexity值作為評判標準。

一、Perplexity定義

perplexity是一種資訊理論的測量方法，b的perplexity值定義為基於b的熵的能量（b可以是一個概率分佈，或者概率模型），通常用於概率模型的比較

wiki上列舉了三種perplexity的計算：

1.1 概率分佈的perplexity

公式：

其中H(p)就是該概率分佈的熵。當概率P的K平均分佈的時候，帶入上式可以得到P的perplexity值=K。

1.2 概率模型的perplexity

公式：

公式中的Xi為測試局，可以是句子或者文字，N是測試集的大小（用來歸一化），對於未知分佈q，perplexity的值越小，說明模型越好。

指數部分也可以用交叉熵來計算，略過不表。

1.3單詞的perplexity

perplexity經常用於語言模型的評估，物理意義是單詞的編碼大小。例如，如果在某個測試語句上，語言模型的perplexity值為2^190，說明該句子的編碼需要190bits

二、如何對LDA建模的主題模型

Blei先生在論文裡只列出了perplexity的計算公式，並沒有做過多的解釋。

在摸索過得知，M代表測試語料集的文字數量（即多少篇文字），Nd代表第d篇文字的大小（即單詞的個數），P(Wd)代表文字的概率，文字的概率是怎麼算出來的呢？

在解決這個問題的時候，看到rickjin這樣解釋的：

p(z)表示的是文字d在該主題z上的分佈，應該是p(z|d)

這裡有個誤區需要注意：Blei是從每篇文字的角度來計算perplexity的，而rickjin是從單詞的角度計算perplexity的，不要弄混了。

總結一下：

測試文字集中有M篇文字，對詞袋模型裡的任意一個單詞w，P(w)=∑z p(z|d)*p(w|z)，即該詞在所有主題分佈值和該詞所在文字的主題分佈乘積。

模型的perplexity就是exp^{ - (∑log(p(w))) / (N) }，∑log(p(w))是對所有單詞取log（直接相乘一般都轉化成指數和對數的計算形式），N的測試集的單詞數量（不排重）

LDA主題模型評估方法--Perplexity

原文出處：http://blog.csdn.net/pirage/article/details/9368535 在LDA主題模型之後，需要對模型的好壞進行評估，以此依據，判斷改進的引數或者演算法的建模能力。 Blei先生在論文《Latent Dirichlet Al

用scikit-learn學習LDA主題模型

大小 href 房子鏈接 size 目標文本訓練樣本 papers 　　　　在LDA模型原理篇我們總結了LDA主題模型的原理，這裏我們就從應用的角度來使用scikit-learn來學習LDA主題模型。除了scikit-learn, 還有spark MLlib和gen

Spark機器學習(8)：LDA主題模型算法

算法 ets 思想 dir 骰子 cati em算法第一個不同 1. LDA基礎知識 LDA（Latent Dirichlet Allocation）是一種主題模型。LDA一個三層貝葉斯概率模型，包含詞、主題和文檔三層結構。 LDA是一個生成模型，可以用來生成一篇文

LDA主題模型

.com img png src 技術 nbsp ima blog com LDA主題模型

模型評估方法

規模可靠另一個 isp 隨機如果方式此外 family 　　當我們用“訓練集”訓練好一個模型之後，首先希望看看它的性能如何，一般情況下，我們通常使用一個“測試集”來測試模型對新樣本的判別能力，然後以測試集上的“測試誤差”來作為泛化誤差的近似，通常我們假設測試樣本也

LDA主題模型三連擊-入門/理論/代碼

矩陣 ota 函數 dom 主題模型估計 chart news span 本文將從三個方面介紹LDA主題模型——整體概況、數學推導、動手實現。關於LDA的文章網上已經有很多了，大多都是從經典的《LDA 數學八卦》中引出來的，原創性不太多。本文將用盡量少的公式，跳過不

Classification： Precision/Recall ,ROC, AUC等分類模型評估方法，Multilabel and Multioutput Classification

Classification 一.資料集獲取及預處理 1 資料集匯入 2資料集劃分二、binary classification 二元分類器自己實現交叉驗證函式 confusion ma

機器學習模型評估方法

實際的機器學習專案中，我們往往只知道包含m個樣例的資料集D，D={(x1,y1),(x2,y2),(x3,y3),...(xm,ym)}，通過對資料集D進行適當的處理，劃分為訓練集和測試集，訓練集構建模型，然後用該模型計算測試資料集的測試誤差，最後以測試集的測試誤差近似為模型的泛化能力，根據泛化

模型評估方法（混淆矩陣）

在資料探勘或機器學習建模後往往會面臨一個問題，就是該模型是否可靠？可靠性如何？也就是說模型的效能如何我們暫時不得而知。如果模型不加驗證就使用，那後續出現的問題將會是不可估計的。所以通常建模後我們都會使用模型評估方法進行驗證，當驗證結果處於我們的可控範圍之內或者效果更佳，那該模型便可以進行後

LDA 主題模型通俗簡單講解

https://algobeans.com/2015/06/21/laymans-explanation-of-topic-modeling-with-lda-2/ http://blog.echen.me/2011/08/22/introduction-to-latent-dirich

LDA主題模型發展歷程(1)

** 主題模型發展歷程 **首先從Unigram model談起，基於Unigram model加入貝葉斯先驗得到貝葉斯Unigram model,再基於SVD分解得到LSA模型，在LSA模型的基礎上加入概率化的解釋，就得到了PLSA,在PLSA的基礎上加入先驗化的

自然語言處理-LDA主題模型

一、LDA主題模型簡介 LDA(Latent Dirichlet Allocation)中文翻譯為：潛在狄利克雷分佈。LDA主題模型是一種文件生成模型，是一種非監督機器學習技術。它認為一篇文件是有多個主題的，而每個主題又對應著不同的詞。一篇文件的構造過程，首先是以一定的概率

機器學習之LDA主題模型演算法

1、知道LDA的特點和應用方向 1.1、特點知道LDA說的降維代表什麼含義：將一篇分詞後的文章降維為一個主題分佈（即如20個特徵向量主題）。根據對應的特徵向量中的相關主題概率（20個主題的概率相加為1即為主題分佈）得到對應的文件主題，屬於無監督學習（你沒有

再看LDA主題模型

之前學習文字挖掘時已經寫過一篇關於主題模型的部落格《文字建模之Unigram Model，PLSA與LDA》，前幾天小組討論主題模型時，又重新理解了一遍LDA，有了更深刻的認識，特記錄一下。 1、Unigram Model Unigram model是最簡單的文

NLP︱LDA主題模型的應用難題、使用心得及從多元統計角度剖析

將LDA跟多元統計分析結合起來看，那麼LDA中的主題就像詞主成分，其把主成分-樣本之間的關係說清楚了。多元學的時候聚類分為Q型聚類、R型聚類以及主成分分析。R型聚類、主成分分析針對變數，Q型聚類針對樣本

lda主題模型python實現篇

個人部落格地址：http://xurui.club/2018/06/01/lda/ 最近在做一個動因分析的專案，自然想到了主題模型LDA。這次先把模型流程說下，原理後面再講。 lda實現有很多開源庫，這裡用的是gensim. 1 文字預處理大概說下文字

R語言︱LDA主題模型——最優主題數選取(topicmodels)+LDAvis視覺化(lda+LDAvis)

這篇文章來自微軟研究院和哥倫比亞大學的學者共同完成。作者中的Chong Wang以及John Paisley都有長期從事Graphical Models以及Topic Models的研究工作。這篇文章想要做的事情非常直觀，那就是想把在深度學習中非常有效的序列模型——RNN和在文件分析領域非常有效的Topic

R語言實現LDA主題模型分析知乎話題

這是一篇關於文字主題分析的應用實踐，主要嘗試聚焦幾個問題，什麼是LDA主題模型？如何使用LDA主題模型進行文字？我們將知乎上面的轉基因話題精華帖下面的提問分成六大主題進行實踐。轉基因“風雲再起” 2017年5月18日璞谷塘悄然開張，這是小崔線上販賣非轉基因食品的網

LDA主題模型、Word2Vec

背景隱含狄利克雷分配（Latent Dirichlet Allocation）是一種主題模型即從所給文件中挖掘潛在主題。LDA的出現是為了解決類似TFIDF只能從詞頻衡量文件相似度，可能在兩個文件共同出現的單詞很少甚至沒有，但兩個文件是相

用R做中文LDA主題模型視覺化分析

LDA主題模型在2002年被David M. Blei、Andrew Y. Ng（是的，就是吳恩達老師）和Michael I. Jordan三位第一次提出，近幾年隨著社會化媒體的興起，文字資料成為越來越重要的分析資料；海量的文字資料對社會科學研究者的分析能力提出

LDA主題模型評估方法--Perplexity

相關推薦