1. 程式人生 > >【論文閱讀】A Correlated Topic Model Using Word Embeddings

【論文閱讀】A Correlated Topic Model Using Word Embeddings

《A Correlated Topic Model Using Word Embeddings》

Abstract

傳統的主題模型能夠通過用邏輯正態分佈代替先驗的Dirichlet來捕捉潛在主題之間的相關結構。word embeddings 已經被證明能夠捕捉語義規律,因此語義相關性和詞之間的聯絡可以直接在詞向量空間中計算(例如餘弦值)得到。本文提出了一個新的使用詞嵌入的主題模型。該模型能夠利用詞嵌入中包含的字級別的關聯資訊,並在連續的字嵌入空間中對主題相關性進行建模。在模型中,文件中的單詞被替換為有意義的詞嵌入,主題在詞嵌入上被建模為多元高斯分佈,並在連續的高斯主題中學習主題相關性。我們使用帶有資料增強的Gibbs取樣進行計算。我們在20NewsGroup和Reuters-21578兩個資料集上定性和定量地評估我們的實驗。實驗結果表明了模型的有效性。

1 Introduction

傳統的主題模型,比如概率潛在語義分析Probabilistic Latent Semantic Analysis (PLSA) [Hofmann, 1999] 和潛在的Dirichlet分佈(LDA) [Blei et al., 2003] ,都被證明是一種強大的無監督文件收集和統計分析工具。這些模型 [Zhu et al., 2012],[Zhu et al., 2012] 都遵循詞袋假設(bag-of-word),將每一個文件建模為潛在主題的混合,這些潛在主題是單詞的多項分佈。

傳統模型的侷限在於不能之間建模話題之間的相關性,比如,一個有關汽車的文件更可能與摩托車有關而與政治無關。實際上,在大多數文字語料庫中,我們期望相關的潛在主題。為了解決這一侷限性,相關主題模型Correlated Topic Model(CTM) [Blei and Lafferty, 2006a]

用邏輯正態分佈取代了Dirichlet,這使得主題之間有協方差結構。

如今,自然語言處理技術——詞嵌入Word embeddings [Bengio et al., 2003], [Mikolov and Dean, 2013] 的快速發展,為我們提供了在連續語義空間中對主題和主題相關性建模的可能性。詞嵌入也被稱為詞向量和詞的分散式表示,是詞實值的連續向量能夠有效地捕捉語言中的語義規律。具有相似語義和語法屬性的詞,在向量空間中往往會被投影在相近區域。通過使用連續詞嵌入代替LDA中原始離散的詞型別,Gaussian-LDA [Das et al., 2015] 已經證明,詞嵌入中的附加語義可以被合併到主題模型中,並且能夠進一步增強效能。

相關主題模型的主要目標是對主題之間的關聯進行建模和發現。現在我們知道詞嵌入能夠捕捉語言中的語義規律,單詞之間的相關效能夠通過詞向量之間的歐幾里得距離或者餘弦值直接計算得到。而且,語義相關的詞在空間上彼此接近,應該更有可能被歸入同一個主題。由於高斯分佈描繪了連續空間中心性的概念,因此很自然地將主題建模為空間中的詞嵌入的高斯分佈。因此,本文的動機是在詞嵌入空間中對主題進行建模,利用已知的詞層面的相關資訊,進一步提高話題層面的相關發現。

在本文中,我們提出了高斯主題相關性模型(CGTM)來建模詞嵌入空間中的主題和主題相關性。更具體地說,首先借助外部大型非結構化文字語料庫來學習單詞嵌入,以獲得額外的單次級關聯資訊;其次,在詞嵌入的向量空間中,我們建立主題和主題相關的模型,以利用詞嵌入中有用的語義資訊,其中每個主題表示為詞嵌入上的高斯分佈,在這些高斯主題中學習主題相關性;第三,我們為CGTM開發了一個Gibbs抽樣演算法。

為了驗證模型的有效性,我們在20NewsGroup和Reuters-21578資料集上評估我們的模型,這兩個都是在文字挖掘領域實驗中著名的資料集。實驗表明,相比於基線模型,我們的模型能發現更加合理的主題和主題之間的關聯。

相關性是許多文字語料庫的一個固有屬性,例如[Blei and Lafferty, 2006b]探討了主題的時間演變,[Mei et al., 2008] 分析了主題之間的位置相關性。但是,由於使用了Dirichlet先驗,傳統的主題模型不能直接對主題相關性進行建模。CTM [Blei and Lafferty, 2006a] 提出使用邏輯正態分佈來建模主題比例的變化,從而學習主題的協方差結構。
詞嵌入可以通過低維實值向量來捕捉單詞的語義 [Mikolov and Dean, 2013] ,比如向量運算
vector(king)vector(man)+vector(woman)=vector(queen) 。詞嵌入的概念首先由神經概率語言模型(NPLM)[Bengio et al., 2003] 引入自然語言處理。由於其有效性和廣泛的應用領域,詞嵌入已經獲得了很大的關注和發展 [Mikolov et al., 2013], [Pennington et al., 2014], [Morin and Bengio, 2005], [Collobert and Weston, 2008], [Mnih and Hinton, 2009], [Huang et al., 2012]
由於詞嵌入帶有額外的語義資訊,許多研究者試圖將其納入到主題模型中以提高效能 [Das et al., 2015], [Li et al., 2016], [Liu et al., 2015], [Li et al., 2017][Liu et al., 2015] 等人提出了一種結合詞嵌入和主題模型的主題詞嵌入TWE,從而實現每個詞的區域性嵌入。[Das et al., 2015] 使用高斯分佈來模擬詞語嵌入空間中的主題。
上述模型要麼不能直接模擬主題之間的相關性,要麼無法利用單詞級的語義和相關性。我們提出利用詞嵌入的單詞級語義和相關性來幫助學習主題級的相關性。

3 Learning Word Embeddings

我們通過語義規律來學習詞嵌入,並進行話題發現。不同於傳統的one-hot representation,分散式表示將每個單詞編碼為唯一的實值向量。通過將詞對映到這個向量空間中,詞嵌入能夠克服one-hot representation的一些缺點,例如維數災難,語義缺乏等。
在本文中,我們使用基於word2vec [Mikolov and Dean, 2013] 模型的單詞分散式表示方法來訓練詞向量。在word2vec的學習過程中,具有相似含義的單詞在向量空間中逐漸向附近區域聚合。在這個模型中,向量形式的詞被用作softmax分類器的輸入,基於特定上下文視窗詞預測目標詞。
在學習了詞嵌入後,給定一個詞 wdn ,其表示在第 dth 文件中第 nth 詞,我們可以通過將其替換為相關的單詞嵌入來豐富該詞。下面一部分我們將介紹如何在生成過程中使用這種豐富性來為主題和主題相關性建模。

4 Generative Process

訓練好的詞向量為我們提供了有用的附加語義,這有助於我們在向量空間中發現合理的主題和主題相關性。但是,現在每個文件都是連續的單詞嵌入序列,而不是一個分離的單詞型別序列。因此傳統的主題模型不再適用。受到[Hu et al., 2012][Das et al., 2015] 的啟發,由於詞嵌入是位於基於語義和句法的空間中的,我們認為他們是從多個高斯分佈中提取出來的。因此,每個主題的特點是向量空間中的多元高斯分佈。選擇高斯分佈可以通過觀察詞嵌入之間的歐幾里得距離與其語義相似性一致而得到證明。
CGTM的模型如圖1所示。

Figure1

K 個主題,每個主題由向量空間中的單詞嵌入的多元高斯分佈表示。 μk k 表示第 kth 個高斯主題平均值和協方差。每個文件表示為 K 個高斯主題的混合。 ηd K 維向量,每個維度表示文件 d 中每個主題的權重。然後可以基於 ηd 計算文件的特定主題分佈 θd μc μ 的平均值, c μ 的協方差。通過將傳統LDA中的Dirichlet先驗置換為邏輯正態先驗,可以將主題相關資訊整合到模型中。 μ0 0 v0 μ v 都是高斯主題和邏輯正態先驗的超引數。
注意,粗體字的變量表示他們是向量或者矩陣,例如 wdn 。主要步驟如下:

  1. cW1(Ψ,v)
  2. μcN(μ,1τcc)
  3. 對於每一個高斯主題 k=1,2,...,K
    (a) 主題方差 kW1(Ψ0,v0)
    (b) 主題均值 μkN(μ0,1τk)
  4. 對於每一篇文件 d=1,2,...,D
    (a) ηdN(μc,c)
    (b) 對於每一個單詞下標 n=1,2,...,Nd
    i. 一個主題 zdnMultinomial(f(ηd))
    ii. 一個單詞 wdnN(μzdn,zdn)

其中 τ τc 是常數, f(η) 是邏輯變換:

f(nkd)=θkd=exp(ηkd)iexp(ηik)(1)
主題引數使用以下共軛先驗:高斯分佈 N 計算平均值,逆Wishart分佈 W1 計算協方差。但是,邏輯正態分佈和多項式分佈之間仍然會存在一個非共軛問題,我們將在下一節使用資料增強技術來解決這個問題。

5 Parameter Inference

變數是由詞嵌入組成的文件,我們的目標是推斷每個主題的後驗高斯分佈、每個詞的主題分配和主題相關性。給定文件

相關推薦

論文閱讀A Correlated Topic Model Using Word Embeddings

《A Correlated Topic Model Using Word Embeddings》 Abstract 傳統的主題模型能夠通過用邏輯正態分佈代替先驗的Dirichlet來捕捉潛在主題之間的相關結構。word embeddings 已經被證明能夠捕捉語義規律,因此語義相

論文閱讀A Neural Probabilistic Language Model

《A Neural Probabilistic Language Model》 Yoshua Bengio 2003 Abstract 統計語言模型建模(Statistical Language Modeling)目標是學習一種語言中單詞序列的聯合概率函式。維度限制會導致:模

論文閱讀A Closer Look at Spatiotemporal Convolutions for Action Recognition

【論文閱讀】A Closer Look at Spatiotemporal Convolutions for Action Recognition 這是一篇facebook的論文,它和一篇google的論文連結地址的研究內容非常相似,而且幾乎是同一時刻的研究,感覺這兩個公司真的冤家路窄,

論文閱讀Advances in Pre-Training Distributed Word Representations

《Advances in Pre-Training Distributed Word Representations》 Tomas Mikolov, Edouard Grave, Piotr Bojanowski, Christian Puhrsch, Armand Joulin,2

論文閱讀Accurate Image Super-Resolution Using Very Deep Convolutional Networks

開發十年,就只剩下這套架構體系了! >>>   

論文閱讀Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

【論文閱讀】Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 這是一篇2017CVPR的論文,我感覺這篇論文最大的貢獻就是提出了kinetics資料集,這個資料集與之前的行為識別資料集相比有質的飛躍。同

論文閱讀ICLR 2017SqueezeNet AlexNet-level accuracy with 50x fewer parameters and 0.5MB model size

SqueezeNet AlexNet-level accuracy with 50x fewer parameters and 0.5MB model size SqueezeNet 是一種網路結構,準確率與AlexNet相當(ImageNet資料集上),但

論文閱讀Meta-SR: A Magnification-Arbitrary Network for Super-Resolution

開發十年,就只剩下這套架構體系了! >>>   

論文閱讀Learning a Deep Convolutional Network for Image Super-Resolution

開發十年,就只剩下這套架構體系了! >>>   

論文閱讀Siamese Neural Networks for One-shot Image Recognition

 關鍵詞:      one-short learning :  待解決的問題只有少量的標註資料,先驗知識很匱乏,遷移學習就屬於one-short learning的一種 zero-short learning: 這個種情況下完全沒有

論文閱讀The Ubuntu Dialogue Corpus

論文題目: The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems 語料庫: a. train.csv和論文所述一致。 1,000,000

論文閱讀Sequence to Sequence Learning with Neural Networks

看論文時查的知識點 前饋神經網路就是一層的節點只有前面一層作為輸入,並輸出到後面一層,自身之間、與其它層之間都沒有聯絡,由於資料是一層層向前傳播的,因此稱為前饋網路。 BP網路是最常見的一種前饋網路,BP體現在運作機制上,資料輸入後,一層層向前傳播,然後計算損失函式,得到損失函式的殘差

論文閱讀韓鬆《Efficient Methods And Hardware For Deep Learning》節選《Learning both Weights and Connections 》

Pruning Deep Neural Networks 本節內容主要來自NIPS 2015論文《Learning both Weights and Connections for Efficient Neural Networks》。 這部分主要介紹如何剪枝網路

論文閱讀Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

簡述 看這篇論文,並實現一下這個。(如果有能力實現的話) 實時任意風格轉換(用自適應Instance Normalization) instanceNorm = batchsize=1 的 batchNorm 1 Abstract Gatys et al

論文閱讀Clustering Convolutional Kernels to Compress Deep Neural Networks

文章:Clustering Convolutional Kernels to Compress Deep Neural Networks 連結:http://openaccess.thecvf.com/content_ECCV_2018/papers/Sanghyun_Son_Clustering_Kern

論文閱讀Between-class Learning for Image Classification

文章:Between-class Learning for Image Classification 連結:https://arxiv.org/pdf/1711.10284.pdf CVPR2018 作者嘗試了將在音訊上的方法用在影象上的,並提出了一種將影象作為波形處理的混合方法(作者認為圖形波長融

論文閱讀Deep Adversarial Subspace Clustering

導讀:   本文為CVPR2018論文《Deep Adversarial Subspace Clustering》的閱讀總結。目的是做聚類,方法是DASC=DSC(Deep Subspace Clustering)+GAN(Generative Adversarial Networks)。本文從以下四個方面來

論文閱讀:Embedding-based News Recommendation for Millions of Users

非常實用性的一個推薦新聞的模型 摘要: 新聞推薦非常重要,但是傳統的基於使用者id的協同過濾和低秩分解推薦演算法不完全適用於新聞推薦,因為新聞類文章過期的太快了 基於單詞的方法效能不錯,但是有處理同義詞和定義使用者需求的問題 因此本文提出一種基於嵌入式的演算法,基於一種去噪自編碼器的

論文閱讀Deep Mixture of Diverse Experts for Large-Scale Visual Recognition

導讀:   本文為論文《Deep Mixture of Diverse Experts for Large-Scale Visual Recognition》的閱讀總結。目的是做大規模影象分類(>1000類),方法是混合多個小深度網路實現更多類的分類。本文從以下五個方面來對論文做個簡要整理:   背

論文閱讀Learning Dual Convolutional Neural Networks for Low-Level Vision

論文閱讀(【CVPR2018】Jinshan Pan - Learning Dual Convolutional Neural Networks for Low-Level Vision)      本文針對低層視覺問題,提出了一般性的用於解決低層視覺問題的對偶卷積神經網路。作者認為,低層視覺問題,如常見的有