1. 程式人生 > >【論文閱讀】Author2Vec: Learning Author Representations by Combining Content and Link Information

【論文閱讀】Author2Vec: Learning Author Representations by Combining Content and Link Information

《Author2Vec: Learning Author Representations by Combining Content and Link Information》

Ganesh J, Ganguly S, Gupta M, et al. 2016.

Abstract

在本文中,我們考慮從書目合著者網路中學習作者向量表示。在影象方面,深度學習現有的方法(如DeepWalk)由於側重於對連結資訊的建模,因此存在連線稀疏性問題。我們假設,以統一的方式捕獲內容和連結資訊將有助於緩解稀疏性問題。為此,我們提出了一個新的模型Author2vec,它能夠學習低維的作者向量表示,使得寫出類似內容和共享類似網路結構的作者在向量空間中更加接近。這樣的向量表示在各種應用中都是有用的,例如連結預測,節點分類,推薦和視覺化。對於鏈路預測和聚類任務,我們學習的作者向量效果分別比DeepWalk高出2.35%和0.83%。

1. Introduction

最近,將資訊網路嵌入低維向量空間越來越引起人們的關注。其原因是,一旦獲得了嵌入的向量形式,網路挖掘任務可以通過現成的機器學習演算法來解決。為了用可擴充套件的方式構建良好的表示,研究人員開始使用深度學習作為分析圖形的工具。例如,近期的一個模型DeepWalk使用均勻取樣(截斷隨機遊走)將圖結構轉換成包含頂點的線性序列的樣本集合。他們將每一個樣本作為一個句子處理,執行Skip-Gram模型(其最初設計用於從線性序列中學習單詞表示),以從這些樣本中學習頂點的表示。
DeepWalk的主要缺點是顯示世界資訊網路中固有的鏈路稀疏性問題。例如,兩個編寫與“機器學習”相關科學文章的作者如果沒有連線,就不會被DeepWalk認為是相似的。在本文中,我們的目的是通過融合文字資訊和連結資訊以協同的方式來克服上述問題,以此來建立作者表示。我們在大型資料集上進行的實驗表明,利用內容和連結資訊減輕了連結稀疏性問題。

2. Author2Vec Model

假設合著者網路 G=(V,E) ,其中每個頂點表示作者,每條邊 e=<u,v>E 表示作者 u 和作者 v 之間的關係。如果兩個作者至少合著過一篇文章,則他們之間有邊連線。我們使用 Pu=pu1,...,puNp 來表示每個作者 u 發表的文章集合,其中包括 Np 篇文章。對於每片文章,我們都有其摘要和出版年份。因此Author2Vec模型的目標是學習作者表示向量

vuRb(uV) ,其中 d 是向量大小。模型通過無監督的方法學習到向量表示,分為兩種型別:Content-Info和Link-Info模型。顧名思義,前者學習的是文字概念,後者則通過融合關係概念進一步豐富維度。

Context-Info Model: 該模型目標是單純通過文字概念(論文摘要)捕捉作者向量表示。模型將作者 u (由向量 vu 表示)和論文 p (由向量 vp 表示)作為模型的輸入,來預測 u 是否寫了論文 p 。我們的訓練元組是一個包括了正樣本對( p u 的一個出版物)和負樣本對( p 不是 u 的一個出版物)的集合。其目的是使得作者的表示更接近其作品,而遠離無關作品。即,我們預測作者-論文關係 rC(u,p) ,令 l[1,2] ,其中1和2分別表示負樣本和正樣本值。我們使用神經網路預測輸入對 (vu,vp) :

h(×)C=vuvp(1)
h(+)C=|vuvp|(2)
hC=tanh(W(×)Ch×C+W(+)Ch+C+b(h)C)(3)
其中, W(×)CRnh×d W(+)CRnh×d b(h)C 是模型的引數。 nh 定義了隱層大小。距離度量的使用是經驗性的,Tai et al.的工作採用了類似的策略來捕捉句子對的語義相關性。Content-Info模型的目標函式可以寫成如下形式:
LC=P[rC(u,p)=l]=softmax(UChC+b(p)C)(4)
其中 UCR2×nh b(p)C 是模型的新的引數。我們通過最大化公式4的似然函式來學習未知引數 W(×)C W(+)C b(h)C UC b(p)C vuRd (作者向量)和 vpRd (論文向量)。論文向量( vp )通過將摘要輸入Paragraph2Vec上執行,進行預先初始化。

Link-Info Model: Link-Info模型的目標是通過連結資訊豐富先前模型獲得作者向量表示。該模型將作者向量( vu vv )作為輸入。和Content-Info模型相相似,訓練元組包括正樣本( u v 有合著關係)和負樣本( u v