本文將從三個方面介紹LDA主題模型——整體概況、數學推導、動手實現。
關於LDA的文章網上已經有很多了，大多都是從經典的《LDA 數學八卦》中引出來的，原創性不太多。
本文將用盡量少的公式，跳過不需要的證明，將最核心需要學習的部分與大家分享，展示出直觀的理解和基本的數學思想，避免數學八卦中過於詳細的推導。最後用python 進行實現。

概況

第一部分，包括以下四部分。

為什麼需要
LDA是什麼
LDA的應用
LDA的使用

為什麼需要

挖掘隱含語義資訊。一個經典的例子是

“喬布斯離我們而去了。”
“蘋果價格會不會降？”

上面這兩個句子沒有共同出現的單詞，但這兩個句子是相似的，如果按傳統的方法判斷這兩個句子肯定不相似。
所以在判斷文件相關性的時候需要考慮到文件的語義，而語義挖掘的利器是主題模型，LDA就是其中一種比較有效的模型。

LDA是什麼

LDA主題模型，首先是在文字分類領域提出來的，它的本意是挖掘文字中的隱藏主題。它將文字看作是詞袋模型(文章中的詞之間沒有關聯)產生的過程看成先選一堆主題，再在主題中選擇詞，以此構建了一篇文章。
d是文章
z1...zn是主題
w 是單詞
θmk是文件選擇主題的概率。
φkt是主題選擇詞的概率。

這裡新手比較困惑的一點是選來選取，變數是什麼？
你可以這樣理解，先不要管狄利克雷分佈，明確是從topic分佈上選取topic，得到各topic的概率，然後再去另一個詞的分佈上選取剛才得到topic對應的詞。

這裡寫圖片描述

這裡寫圖片描述
注意：此時不用想這兩個分佈怎麼來的，只要把這個過程能想明白即可。LDA產生文件的過程。
選主題分佈->選主題

LDA的應用

通過隱含語義找到關聯項。
相似文件發現；
推薦商品；將該商品歸屬的主題下其他商品推薦給使用者
主題評分；分析文件主題傾向，看哪個主題比重大

gensim應用

import jieba
import gensim
def load_stop_words(file_path):
    stop_words = []
    with 
 open(file_path,encoding='utf8') as f:
        for word in f:
            stop_words.append(word.strip())
    return stop_words
def pre_process(data):
    # jieba 分詞
    cut_list = list(map(lambda x: '/'.join(jieba.cut(x,cut_all=True)).split('/'), data))
    # 載入停用詞 去除 "的 了 啊 "等
    stop_words = load_stop_words('stop_words.txt')
    final_word_list = []
    for cut in cut_list:
        # 去除掉空字元和停用詞
        final_word_list.append(list(filter(lambda x: x != '' and x not in stop_words, cut)))
    print(final_word_list)
    word_count_dict = gensim.corpora.Dictionary(final_word_list)
    # 轉成詞袋模型 每篇文章由詞字典中的序號構成
    bag_of_words_corpus = [word_count_dict.doc2bow(pdoc) for pdoc in final_word_list]
    print(bag_of_words_corpus)
    #返回 詞袋庫 詞典
    return bag_of_words_corpus, word_count_dict

def train_lda(bag_of_words_corpus, word_count_dict):
    # 生成lda model
    lda_model = gensim.models.LdaModel(bag_of_words_corpus, num_topics=10, id2word=word_count_dict)
    return lda_model

# 新聞地址 http://news.xinhuanet.com/world/2017-12/08/c_1122082791.htm

train_data = [u"中方對我們的建交國同臺灣開展正常經貿和民間往來不持異議，但堅決反對我們的建交國同臺灣發生任何形式的官方往來或簽署任何帶有主權意涵的協定或合作檔案",
     u"灣與菲律賓簽署了投資保障協定等７項合作檔案。菲律賓是臺灣推動“新南向”政策中首個和臺灣簽署投資保障協定的國家。",
     u"中方堅決反對建交國同臺灣發生任何形式的官方往來或簽署任何帶有主權意涵的協定或合作檔案，已就此向菲方提出交涉"]
processed_train_data = pre_process(train_data)

lda_model = train_lda(*processed_train_data)
lda_model.print_topics(10)

數學原理

通過上節內容，在工程上基本可以用起來了。但是大家都是有追求的，不僅滿足使用。這節簡單介紹背後的數學原理。只會將核心部分的數學知識拿出來，不會面面俱到（我覺得這部分理解就足夠了）
（詳盡內容推薦去看《數學八卦》）

LDA認為各個主題的概率和各個主題下單詞的概率不是固定不變的（比如通過設定3個主題的抽取概率為0.3 0.4 0.3 就一直這麼用），而是由先驗和樣本共同通過貝葉斯計算得到的一個分佈，同時還會依據不斷新增加的樣本進行調整。pLSA（LDA的前身）看待分佈情況就是固定的，求完就求完了，而LDA看待分佈情況是不斷依據先驗和樣本調整。

預備知識

下面我們來介紹一下貝葉斯公式
P(θ|X)=P(X|θ)P(θ)P(X)
其中
後驗概率 P(θ|X) 就是說在觀察到X個樣本情況下,θ的概率
先驗概率 P(θ) 人們歷史經驗，比如硬幣正反概率0.5 骰子每個面是1/6
似然函式 P(X|θ) 在θ下，觀察到X個樣本的概率

貝葉斯估計簡單來說
先驗分佈 + 資料的知識 = 後驗分佈（嚴格的數學推導請看數學八卦）

Beta(p|α,β)+Count(m1,m2)=Beta(p|α+m1,β+m2)

對於選主題，選單詞這個過程，LDA將其主題，單詞的分佈看作是兩個後驗概率來求解。因為這兩個過程每次的結果都和骰子類似，有多種情況，因此是一個多項式分佈對應抽樣分佈P(θ)，對於多項式為抽樣分佈來說，狄利克雷分佈是它的共軛分佈。

先驗分佈反映了某種先驗資訊，後驗分佈既反映了先驗分佈提供的資訊，又反映了樣本提供的資訊。若先驗分佈和抽樣分佈決定的後驗分佈與先驗分佈是同類型分佈，則稱先驗分佈為抽樣分佈的共軛分佈。當先驗分佈與抽樣分佈共軛時，後驗分佈與先驗分佈屬於同一種類型，這意味著先驗資訊和樣本資訊提供的資訊具有一定的同一性。
- Beta的共軛分佈是伯努利分佈；
- 多項式分佈的共軛分佈是狄利克雷分佈；
- 高斯分佈的共軛分佈是高斯分佈。

那麼狄利克雷分佈什麼樣子？
先介紹Γ函式和B函式

Γ(x)=∫∞0tx−1e−tdtB(m,n)=Γ(m)Γ(n)Γ(m+n)

狄利克雷分佈為下圖，其中α1...αn就是每個型別的偽先驗（按照歷史經驗和常識，比如骰子每個面都出現10次）
$P\{ p_1,...,p_n;\alpha_1,...\alpha_n \} = \frac{1}{B(\alpha)}\prod_{i=1}^{n}{p_i^{k_i-1}},\ where \ B(\alpha)= \frac{\prod_{i=1}^{n}{\Gamma(\alpha_i)}}{\Gamma(\sum_{i=1}^{n}{\alpha_i})}$

抽取模型

介紹完了基礎的數學知識，現在來看下如何得到LDA模型。
因為LDA是詞袋模型，各個主題，各個詞之間並沒有關聯，因此我們對於M篇文章，K個主題，可以兩次抽取，第一次抽取M個 topics 生成概率，第二次獲取K個主題的詞生成概率

主題生成概率

z⃗ 是topic主題向量
α⃗ 是在訓練時指定的引數
根據貝葉斯引數估計，可以得到主題的分佈概率如下

p(z⃗ |α⃗ )=∏m=1Mp(z⃗ m|α⃗ )=∏m=1MΔ(n⃗ m+α⃗ )Δ(α⃗ )(∗)

詞生成概率

p(w⃗ |z⃗ ,β⃗ ) 是在指定的主題z和給定的引數

LDA主題模型三連擊-入門/理論/程式碼

概況

為什麼需要

LDA是什麼

LDA的應用

gensim應用

數學原理

預備知識

抽取模型

主題生成概率

詞生成概率

LDA主題模型三連擊-入門/理論/程式碼

LDA主題模型三連擊-入門/理論/代碼

【入門程式設計題】--2.級數求和與三連擊問題

Cocos2D-X2.2.3學習筆記8(處理精靈單擊、雙擊和三連擊事件)

用scikit-learn學習LDA主題模型

Spark機器學習(8)：LDA主題模型算法

LDA主題模型

洛谷 P1618 三連擊（升級版）

luogu P1008 三連擊

三連擊...（升級版）

osu!三連擊

P1008三連擊

模板三連擊：樹狀陣列+線段樹+主席樹

P1008_三連擊（JAVA語言）

洛谷P1618 三連擊（升級版）

洛谷—三連擊

LDA 主題模型通俗簡單講解

洛谷新手村p1008三連擊

LDA主題模型發展歷程(1)

自然語言處理-LDA主題模型

LDA主題模型三連擊-入門/理論/程式碼

概況

為什麼需要

LDA是什麼

LDA的應用

gensim應用

數學原理

預備知識

抽取模型

主題生成概率

詞生成概率

相關推薦