【論文閱讀】A Correlated Topic Model Using Word Embeddings

《A Correlated Topic Model Using Word Embeddings》

Abstract

傳統的主題模型能夠通過用邏輯正態分佈代替先驗的Dirichlet來捕捉潛在主題之間的相關結構。word embeddings 已經被證明能夠捕捉語義規律，因此語義相關性和詞之間的聯絡可以直接在詞向量空間中計算（例如餘弦值）得到。本文提出了一個新的使用詞嵌入的主題模型。該模型能夠利用詞嵌入中包含的字級別的關聯資訊，並在連續的字嵌入空間中對主題相關性進行建模。在模型中，文件中的單詞被替換為有意義的詞嵌入，主題在詞嵌入上被建模為多元高斯分佈，並在連續的高斯主題中學習主題相關性。我們使用帶有資料增強的Gibbs取樣進行計算。我們在20NewsGroup和Reuters-21578兩個資料集上定性和定量地評估我們的實驗。實驗結果表明了模型的有效性。

1 Introduction

傳統的主題模型，比如概率潛在語義分析Probabilistic Latent Semantic Analysis (PLSA) [Hofmann, 1999] 和潛在的Dirichlet分佈(LDA) [Blei et al., 2003] ，都被證明是一種強大的無監督文件收集和統計分析工具。這些模型 [Zhu et al., 2012],[Zhu et al., 2012] 都遵循詞袋假設(bag-of-word)，將每一個文件建模為潛在主題的混合，這些潛在主題是單詞的多項分佈。

傳統模型的侷限在於不能之間建模話題之間的相關性，比如，一個有關汽車的文件更可能與摩托車有關而與政治無關。實際上，在大多數文字語料庫中，我們期望相關的潛在主題。為了解決這一侷限性，相關主題模型Correlated Topic Model(CTM) [Blei and Lafferty, 2006a]

用邏輯正態分佈取代了Dirichlet，這使得主題之間有協方差結構。

如今，自然語言處理技術——詞嵌入Word embeddings [Bengio et al., 2003], [Mikolov and Dean, 2013] 的快速發展，為我們提供了在連續語義空間中對主題和主題相關性建模的可能性。詞嵌入也被稱為詞向量和詞的分散式表示，是詞實值的連續向量能夠有效地捕捉語言中的語義規律。具有相似語義和語法屬性的詞，在向量空間中往往會被投影在相近區域。通過使用連續詞嵌入代替LDA中原始離散的詞型別，Gaussian-LDA [Das et al., 2015] 已經證明，詞嵌入中的附加語義可以被合併到主題模型中，並且能夠進一步增強效能。

相關主題模型的主要目標是對主題之間的關聯進行建模和發現。現在我們知道詞嵌入能夠捕捉語言中的語義規律，單詞之間的相關效能夠通過詞向量之間的歐幾里得距離或者餘弦值直接計算得到。而且，語義相關的詞在空間上彼此接近，應該更有可能被歸入同一個主題。由於高斯分佈描繪了連續空間中心性的概念，因此很自然地將主題建模為空間中的詞嵌入的高斯分佈。因此，本文的動機是在詞嵌入空間中對主題進行建模，利用已知的詞層面的相關資訊，進一步提高話題層面的相關發現。

在本文中，我們提出了高斯主題相關性模型(CGTM)來建模詞嵌入空間中的主題和主題相關性。更具體地說，首先借助外部大型非結構化文字語料庫來學習單詞嵌入，以獲得額外的單次級關聯資訊；其次，在詞嵌入的向量空間中，我們建立主題和主題相關的模型，以利用詞嵌入中有用的語義資訊，其中每個主題表示為詞嵌入上的高斯分佈，在這些高斯主題中學習主題相關性；第三，我們為CGTM開發了一個Gibbs抽樣演算法。

為了驗證模型的有效性，我們在20NewsGroup和Reuters-21578資料集上評估我們的模型，這兩個都是在文字挖掘領域實驗中著名的資料集。實驗表明，相比於基線模型，我們的模型能發現更加合理的主題和主題之間的關聯。

相關性是許多文字語料庫的一個固有屬性，例如[Blei and Lafferty, 2006b]探討了主題的時間演變，[Mei et al., 2008] 分析了主題之間的位置相關性。但是，由於使用了Dirichlet先驗，傳統的主題模型不能直接對主題相關性進行建模。CTM [Blei and Lafferty, 2006a] 提出使用邏輯正態分佈來建模主題比例的變化，從而學習主題的協方差結構。
詞嵌入可以通過低維實值向量來捕捉單詞的語義 [Mikolov and Dean, 2013] ，比如向量運算
$vector('king')-vector('man')+vector('woman')=vector('queen')$ 。詞嵌入的概念首先由神經概率語言模型（NPLM）[Bengio et al., 2003] 引入自然語言處理。由於其有效性和廣泛的應用領域，詞嵌入已經獲得了很大的關注和發展 [Mikolov et al., 2013], [Pennington et al., 2014], [Morin and Bengio, 2005], [Collobert and Weston, 2008], [Mnih and Hinton, 2009], [Huang et al., 2012] 。
由於詞嵌入帶有額外的語義資訊，許多研究者試圖將其納入到主題模型中以提高效能 [Das et al., 2015], [Li et al., 2016], [Liu et al., 2015], [Li et al., 2017] 。 [Liu et al., 2015] 等人提出了一種結合詞嵌入和主題模型的主題詞嵌入TWE，從而實現每個詞的區域性嵌入。[Das et al., 2015] 使用高斯分佈來模擬詞語嵌入空間中的主題。
上述模型要麼不能直接模擬主題之間的相關性，要麼無法利用單詞級的語義和相關性。我們提出利用詞嵌入的單詞級語義和相關性來幫助學習主題級的相關性。

3 Learning Word Embeddings

我們通過語義規律來學習詞嵌入，並進行話題發現。不同於傳統的one-hot representation，分散式表示將每個單詞編碼為唯一的實值向量。通過將詞對映到這個向量空間中，詞嵌入能夠克服one-hot representation的一些缺點，例如維數災難，語義缺乏等。
在本文中，我們使用基於word2vec [Mikolov and Dean, 2013] 模型的單詞分散式表示方法來訓練詞向量。在word2vec的學習過程中，具有相似含義的單詞在向量空間中逐漸向附近區域聚合。在這個模型中，向量形式的詞被用作softmax分類器的輸入，基於特定上下文視窗詞預測目標詞。
在學習了詞嵌入後，給定一個詞 $w_{d_n}$ ，其表示在第 $d^{th}$ 文件中第 $n^{th}$ 詞，我們可以通過將其替換為相關的單詞嵌入來豐富該詞。下面一部分我們將介紹如何在生成過程中使用這種豐富性來為主題和主題相關性建模。

4 Generative Process

訓練好的詞向量為我們提供了有用的附加語義，這有助於我們在向量空間中發現合理的主題和主題相關性。但是，現在每個文件都是連續的單詞嵌入序列，而不是一個分離的單詞型別序列。因此傳統的主題模型不再適用。受到[Hu et al., 2012] 和 [Das et al., 2015] 的啟發，由於詞嵌入是位於基於語義和句法的空間中的，我們認為他們是從多個高斯分佈中提取出來的。因此，每個主題的特點是向量空間中的多元高斯分佈。選擇高斯分佈可以通過觀察詞嵌入之間的歐幾里得距離與其語義相似性一致而得到證明。
CGTM的模型如圖1所示。

有 $K$ 個主題，每個主題由向量空間中的單詞嵌入的多元高斯分佈表示。 $\mu_k$ 和 $\sum_k$ 表示第 $k_{th}$ 個高斯主題平均值和協方差。每個文件表示為 $K$ 個高斯主題的混合。 $\eta_d$ 是 $K$ 維向量，每個維度表示文件 $d$ 中每個主題的權重。然後可以基於 $\eta_d$ 計算文件的特定主題分佈 $\theta_d$ 。 $\mu_c$ 是 $\mu$ 的平均值， $\sum_c$ 是 $\mu$ 的協方差。通過將傳統LDA中的Dirichlet先驗置換為邏輯正態先驗，可以將主題相關資訊整合到模型中。 $\mu_0$ ， $\sum_0$ ， $v_0$ ， $\mu$ ， $\sum$ 和 $v$ 都是高斯主題和邏輯正態先驗的超引數。
注意，粗體字的變量表示他們是向量或者矩陣，例如 $w_{d_n}$ 。主要步驟如下：

$\sum_c\sim\mathcal{W}^{-1}(\Psi,v)$
$\mu_c\sim\mathcal{N}(\mu,\frac{1}{\tau_c}\sum_c)$
對於每一個高斯主題 $k=1,2,...,K$ ：
(a) 主題方差 $\sum_k\sim\mathcal{W}^{-1}(\Psi_0,v_0)$ 。
(b) 主題均值 $\mu_k\sim\mathcal{N}(\mu_0,\frac{1}{\tau}\sum_k)$
對於每一篇文件 $d=1,2,...,D$ ：
(a) $\eta_d\sim\mathcal{N}(\mu_c,\sum_c)$ 。
(b) 對於每一個單詞下標 $n=1,2,...,N_d$ ：
i. 一個主題 $z_{d_n}\sim Multinomial(f(\eta_d))$
ii. 一個單詞 $w_{d_n}\sim\mathcal{N}(\mu_{z_{d_n}},\sum_{z_{d_n}})$

其中 $\tau$ 和 $\tau_c$ 是常數， $f(\eta)$ 是邏輯變換：

f(nkd)=θkd=exp(ηkd)∑iexp(ηik)(1) $f(n_d^k)=\theta_d^k=\frac{exp(\eta_d^k)}{\sum_iexp(\eta_k^i)}\tag{1}$
主題引數使用以下共軛先驗：高斯分佈

N $\mathcal{N}$ 計算平均值，逆Wishart分佈

W−1 $\mathcal{W}^{-1}$ 計算協方差。但是，邏輯正態分佈和多項式分佈之間仍然會存在一個非共軛問題，我們將在下一節使用資料增強技術來解決這個問題。

5 Parameter Inference

變數是由詞嵌入組成的文件，我們的目標是推斷每個主題的後驗高斯分佈、每個詞的主題分配和主題相關性。給定文件

【論文閱讀】A Correlated Topic Model Using Word Embeddings

《A Correlated Topic Model Using Word Embeddings》

Abstract

1 Introduction

3 Learning Word Embeddings

4 Generative Process

5 Parameter Inference

【論文閱讀】A Correlated Topic Model Using Word Embeddings

【論文閱讀】A Neural Probabilistic Language Model

【論文閱讀】A Closer Look at Spatiotemporal Convolutions for Action Recognition

【論文閱讀】Advances in Pre-Training Distributed Word Representations

【論文閱讀】Accurate Image Super-Resolution Using Very Deep Convolutional Networks

【論文閱讀】Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

【論文閱讀】【ICLR 2017】SqueezeNet AlexNet-level accuracy with 50x fewer parameters and 0.5MB model size

【論文閱讀】Meta-SR: A Magnification-Arbitrary Network for Super-Resolution

【論文閱讀】Learning a Deep Convolutional Network for Image Super-Resolution

【論文閱讀】Siamese Neural Networks for One-shot Image Recognition

【論文閱讀】The Ubuntu Dialogue Corpus

【論文閱讀】Sequence to Sequence Learning with Neural Networks

【論文閱讀】韓鬆《Efficient Methods And Hardware For Deep Learning》節選《Learning both Weights and Connections 》

【論文閱讀】Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

【論文閱讀】Clustering Convolutional Kernels to Compress Deep Neural Networks

【論文閱讀】Between-class Learning for Image Classification

【論文閱讀】Deep Adversarial Subspace Clustering

【論文閱讀】：Embedding-based News Recommendation for Millions of Users

【論文閱讀】Deep Mixture of Diverse Experts for Large-Scale Visual Recognition

【論文閱讀】Learning Dual Convolutional Neural Networks for Low-Level Vision

【論文閱讀】A Correlated Topic Model Using Word Embeddings

《A Correlated Topic Model Using Word Embeddings》

Abstract

1 Introduction

2 Related Works

3 Learning Word Embeddings

4 Generative Process

5 Parameter Inference

相關推薦