主題模型（LDA）(一)--通俗理解與簡單應用

阿新 • • 發佈：2018-12-22

這篇文章主要給一些不太喜歡數學的朋友們的，其中基本沒有用什麼數學公式。
目錄

1.直觀理解主題模型

這裡寫圖片描述
聽名字應該就知道他講的是什麼？假如有一篇文章text，通過裡面的詞，來確定他是什麼型別的文章，如果文章中出現很多體育類的詞，比如，籃球，足球之類的，那麼主題模型就會把它劃分為體育類的文章。

因為主題模型涉及比較多的數學推導，所以我們先用一個小栗子，理解它要做的事。假設有這麼一個場景：

他的一般做法就是拿到這份簡歷，看這個人的簡歷上寫的內容包括了什麼？
在此之前呢，他也一定是接觸了很多演算法工程師的面試，他根據這些招進來的人判斷，一個大牛，有可能是：

這個HR就會看這個面試者是不是穿條紋襯衫，有沒有在BAT就職過，做過什麼牛逼的專案，如果都滿足條件，那這個HR就會判斷這個人應該是大牛，如果他只是穿條紋襯衫，沒做過什麼拿得出手的專案，那就要猶豫一下了，因為他是彩筆的可能性比較大。

這個例子和主題模型的關係可以用這個圖表示：
這裡寫圖片描述
在LDA眼裡，相當於是詞袋，每個袋子裡都有一堆詞，用的時候就只管檢測這些詞出現與否就OK了。

用公式可以表示成：

P(大牛|特徵，簡歷)=此特徵在大牛中出現的次數大牛擁有的所有特徵X此簡歷屬於大牛的特徵個數

2.LDA的通俗定義

什麼是LDA？

它主要的優點就是可以對每個主題，都找出一些詞來描述它。

3.LDA分類原理

先前詳細寫過貝葉斯模型的原理以及它所代表的思想，詳細請戳：神奇的貝葉斯思想

，這裡只簡單說一下它的原理，用在這裡的意思是：

同一主題下，某個詞出現的概率，以及同一文件下，某個主題出現的概率，兩個概率的乘積，可以得到某篇文件出現某個詞的概率，我們在訓練的時候，調整這兩個分佈就可以了。
這裡寫圖片描述

由此可以定義LDA的生成過程：

經過以上三步，就可以看一下兩個分佈的乘積，是否符合給定文章的分佈，以此來調整。

稍微具體點講: (w代表單詞;d代表文件;t代表主題; 大寫代表總集合，小寫代表個體。)
D中每篇文件d看作個單詞序列：

<w1,w2,...,wn>，wi表示第i個單詞。

D中涉及的所有不同單片語成一個詞彙表大集合V (vocabulary)，LDA以文件集合D作為輸入，希望訓練出的兩個結果向量 (假設形成k個topic，V中共有m個詞):

結果向量1:對每個D中的文件d，對應到不同主題的概率θd:<pt1,...,ptk>其中pti表示d對應k個主題中第i個主題的概率，計算的方法也很簡單：pti=d中有多少個詞是第i個主題也有的d中所有詞的總數
結果向量2:對每個T中的主題t，生成不同單詞的概率向量ϕt：<pw1,...,pwm>其中pwi表示主題t生成V中第i個單詞的概率。計算方法：pwi=主題t對應到V中第i個單詞出現的次數主題t下的