1. 程式人生 > >動態主題模型(Dynamic Topic Models)

動態主題模型(Dynamic Topic Models)

       在本文中,我們介紹一個動態主題模型,該模型捕獲了順序組織的文件語料庫中主題的演變。 我們通過分析由Ed Edi-son於1880年創立的Jour-nal Science的100多年的OCR文章來證明其適用性。在這種模式下,文章按年份分組,每年的藝術作品都來自於去年主題演變而來的一系列主題。

       在隨後的部分,我們擴充套件了經典狀態空間模型,以指定主題演化的統計模型。然後,我們開發了有效的近似後驗推理技術,用於從一系列文件中確定不斷變化的主題。最後,我們提供了定性結果,展示了動態主題模型如何以新的方式探索大型文件集合,以及定量結果,與靜態主題模型相比,它們具有更高的預測準確性。

 

一、Dynamic Topic Models

       傳統的時間序列建模主要關注連續資料,而主題模型則是針對分類資料而設計的。 我們的方法是在底層主題多項式的自然引數空間上使用狀態空間模型,以及用於對文件特定主題比例建模的邏輯正態分佈的自然引數。

       首先,我們回顧靜態主題模型的基本統計假設,例如潛在狄利克雷分配,也叫三層貝葉斯概率模型(LDA,Latent Dirichlet Allocation)。設為K個主題,每個主題都是固定詞彙表的分佈。 在靜態主題模型中,假設每個文件都來自以下生成過程:

                      

       此過程隱含地假定文件是從同一組主題交換繪製的。然而,對於許多集合,文件的順序反映了一組不斷變化的主題。 在動態主題模型中,我們假設資料按時間片劃分,例如按年。 我們使用K分量主題模型對每個切片的文件建模,其中與切片t相關聯的主題從與切片t-1相關聯的主題演變而來。

       對於具有V項的K分量模型,令表示切片t中主題k的自然引數的V向量。 多項分佈的通常表示是通過其均值引數化。 如果我們用π表示V維多項式的平均引數,則自然引數的第i個分量由對映

給出。 在典型的語言建模應用中,Dirichlet分佈用於模擬關於字的分佈的不確定性。 但是,Dirichlet不適合順序建模。 相反,我們在一個隨高斯噪聲演化的狀態空間模型中連結每個主題的自然引數; 這種模型最簡單的版本是:

                                                     

       因此,我們的方法是通過在動態模型中連結高斯分佈並將發射值對映到單純形來對組成隨機變數的序列進行建模。這是正態分佈對時間序列單純形資料的擴充套件。

        在LDA中,文件特定主題比例θ來自Dirichlet分佈。 在動態主題模型中,我們使用具有平均值α的邏輯法線來表示比例的不確定性。 使用簡單的動態模型再次捕獲模型之間的順序結構:

                                                            

        為簡單起見,我們不對主題相關性的動態建模,就像Blei和Lafferty對靜態模型所做的那樣。

        通過將主題和主題比例分佈連結在一起,我們按順序綁定了一組主題模型。 因此,序列語料庫的生成過程如下:

                                  

         請注意,π將多項自然引數對映到平均引數:

         這個生成過程的圖形模型如下圖所示。當水平箭頭被移除時,打破時間動態,圖形模型簡化為一組獨立的主題模型。 利用時間動態,切片t處的第k個主題從切片t-1處的第k個主題平滑演化。

                                

         圖形解釋:動態主題模型的圖形表示(用於三個時間片)。 每個主題的自然引數隨著時間演變,以及主題比例的邏輯正態分佈的平均引數

 

二、近似推理

       使用自然引數的時間序列可以使用高斯模型來計算時間動態; 然而,由於高斯和多項式模型的非共軛性,後驗推斷是難以處理的。 於是,我們提出了一種近似後推理的變分方法。 我們使用變分方法作為隨機模擬的確定性替代方法,以處理典型的文字分析的大資料集。 雖然Gibbs取樣已經有效地用於靜態主題模型,但非共軛性使得采樣方法對於這種動態模型更加困難。

       變分方法背後的思想是優化潛在變數上的分佈的自由引數,使得分佈在Kullback-Liebler(KL)發散到真實後驗時接近; 然後,這種分佈可以用作真正後驗的替代。在動態主題模型中,潛在變數是主題,混合比例和主題指標。變分分佈反映了潛在變數的群體結構。 每個主題的多項引數序列都有變化引數,每個文件級潛在變數都有變化引數。 近似變分後驗是:

                               

       在常用的平均場近似中,每個潛在變數被認為獨立於其他潛變數。 然而,在的變分分佈中,我們通過設定具有高斯“變分觀測值”的動態模型來保留主題的順序結構。 這些引數適合於最小化得到的後驗(即高斯)和真實後驗(非高斯)之間的KL發散。

       文件級潛變數的變分分佈遵循與Blei等人相同的形式。 每個比例向量被賦予自由度Dirichlet引數,每個主題指示符被賦予自由多項式引數,並且優化通過座標上升進行。文件級變分引數的更新具有封閉形式; 我們使用共軛梯度法來優化主題級變分觀測。由此得到的自然主題引數的變分近似結合了時間動態; 我們描述了兩種方法,一種基於卡爾曼濾波器的近似,另一種是基於小波迴歸。

2.1 Variational Kalman Filtering(變分卡爾曼濾波器)

       變分引數作為輸出的檢視基於高斯密度的對稱性,,這使得能夠使用線性狀態空間模型的標準前向-後向計算。 圖形模型及其變分近似如下圖所示。這裡三角形表示變分引數; 它們可以被認為是卡爾曼濾波器的“假設輸出”,以便於計算。

                             

       圖形解釋:本文第一幅圖的時間序列主題模型的變分近似的圖形表示。變分引數β和α被認為是卡爾曼濾波器的輸出,或者是非引數迴歸設定中的觀測資料。

       為了在更簡單的設定中解釋這種技術背後的主要思想,考慮unigram模型(在自然引數化中)隨時間演變的模型。 在該模型中沒有主題,因此沒有混合引數。 計算是我們對更一般的潛變數模型所需的那些更簡單的版本,但展示了基本特徵。我們的狀態空間模型是:

                                                          

        我們形成變分狀態空間模型:

                                                            

        變分引數是。使用標準卡爾曼濾波器計算(Kalman,1960),變分後驗的前向均值和方差由下式給出:

                         

        初始條件由固定的指定。然後,後向遞迴計算給定的邊際均值和方差:

                     

       初始條件為。我們使用狀態空間後驗來近似後驗。從Jensen的不等式來看,對數似然從下面被限制為:

                     

2.2 Variational Wavelet Regression(變分小波迴歸)

        變分卡爾曼濾波器可以用變分小波迴歸代替。 我們重新調整時間,使其在0和1之間。對於128年的科學,我們採用。為了與我們之前的符號一致,我們假設:

                                      

       我們的變分小波迴歸演算法估計,我們將其視為觀測資料,就像在卡爾曼濾波器方法中一樣,以及噪聲水平ν。

       為了具體,我們使用Haar小波基來說明該技術; Daubechies小波在我們的實際例子中使用。 然後是模型:

                    

      我們對後驗均值的變分估計變為:

                                     

        通過對係數進行閾值處理得到:

                                                 

        為了估計,我們使用梯度上升,對於卡爾曼濾波器近似,需要導數。如果使用軟閾值,那麼我們就有了:

                             

        另請注意當且僅當這些衍生物可以使用現成的軟體在任何標準小波基中進行小波變換計算。

        下圖中給出了執行此演算法和卡爾曼變分演算法以逼近單字母模型的樣本結果。兩個變分近似消除了單字組計數中的區域性波動,同時保留了可能表明期刊內容發生重大變化的尖峰。 雖然擬合類似於使用標準小波迴歸到(正常化)計數所獲得的擬合,但是通過最小化KL分歧來獲得估計,如在標準變分近似中那樣。

    

       圖形解釋:卡爾曼濾波器(上)和小波迴歸(下)變分近似與單字母模型的比較。 變分近似(紅色和藍色曲線)平滑了所示單詞的單字組計數(灰色曲線)中的區域性波動,同時保留了可能表明日誌中內容發生重大變化的尖峰。 小波迴歸能夠“解析”20世紀20年代愛因斯坦出現的雙峰值。

 

三、科學的分析

        我們分析了來自Science的30,000篇文章的子集,來自1881年至1999年的120年中的250篇。我們的資料由JSTOR(www.jstor.org)收集,JSTOR是一個非營利組織,維護著一個線上學術檔案庫。 通過在原始印刷期刊上執行光學字元識別(OCR)引擎。 JSTOR對生成的文字進行索引,並通過關鍵字搜尋提供對原始內容的掃描影象的線上訪問。

        我們的語料庫由大約750萬個單片語成。 我們通過將每個術語插入其根,刪除函數術語以及刪除少於25次的術語來修剪詞彙表。 總詞彙量為15,955。 為了探索語料庫及其主題,我們估計了一個20分量的動態主題模型。 在1.5GHZ PowerPC Macintosh膝上型電腦上進行後推理約需4小時。 結果中的兩個主題如圖4所示,根據使用卡爾曼濾波器變分近似估計的後驗平均出現次數,顯示每十年中這些主題的前幾個單詞。 還示出了幾十年來展示這些主題的示例文章。 如下圖所示,該模型捕獲不同的科學主題,並可用於檢查其中的單詞使用趨勢。

       圖形解釋:來自Science corpus估計的20主題動態模型的後驗分析的例子。 對於兩個主題,我們說明:(a)十年滯後推斷的後驗分佈中的前十個詞(b)來自同一兩個主題的幾個單詞的年度函式的頻率的後驗估計(c)示例文章 整個集合展示了這些主題。 請注意,繪圖是為了給出單詞“後驗概率”軌跡形狀的概念。

       為了定量驗證動態主題模型,我們考慮了前幾年所有文章預測下一年的科學任務。 我們比較了三個20個主題模型的預測能力:從前幾年估計的動態主題模型,從前幾年估計的靜態主題模型,以及從單個前一年估計的靜態主題模型。 估計所有模型具有相同的收斂標準。 從所有先前資料和動態主題模型估計的主題模型在同一點初始化。

       動態主題模型表現良好; 與其他兩個模型相比,它總是為下一年的文章指定更高的可能性,如下圖所示。 有趣的是,多年來每種模型的預測能力都在下降。 我們可以暫時將其歸因於科學語言專業化率的提高。

                       

       圖形解釋:該圖說明了使用動態主題模型和靜態主題模型進行預測的效能。 對於1900年到2000年之間的每年(以5年為增量),我們估計了那一年的三個模型。 然後,我們計算了在得到的模型下明年文章的負對數可能性的變分界限(較低的數字更好)。 DTM是動態主題模型; LDA-prev是僅在前一年的文章中估計的靜態主題模型; LDA-all是所有先前文章中估計的靜態主題模型。