【論文閱讀】Author2Vec: Learning Author Representations by Combining Content and Link Information
《Author2Vec: Learning Author Representations by Combining Content and Link Information》
Ganesh J, Ganguly S, Gupta M, et al. 2016.
Abstract
在本文中,我們考慮從書目合著者網路中學習作者向量表示。在影象方面,深度學習現有的方法(如DeepWalk)由於側重於對連結資訊的建模,因此存在連線稀疏性問題。我們假設,以統一的方式捕獲內容和連結資訊將有助於緩解稀疏性問題。為此,我們提出了一個新的模型Author2vec,它能夠學習低維的作者向量表示,使得寫出類似內容和共享類似網路結構的作者在向量空間中更加接近。這樣的向量表示在各種應用中都是有用的,例如連結預測,節點分類,推薦和視覺化。對於鏈路預測和聚類任務,我們學習的作者向量效果分別比DeepWalk高出2.35%和0.83%。
1. Introduction
最近,將資訊網路嵌入低維向量空間越來越引起人們的關注。其原因是,一旦獲得了嵌入的向量形式,網路挖掘任務可以通過現成的機器學習演算法來解決。為了用可擴充套件的方式構建良好的表示,研究人員開始使用深度學習作為分析圖形的工具。例如,近期的一個模型DeepWalk使用均勻取樣(截斷隨機遊走)將圖結構轉換成包含頂點的線性序列的樣本集合。他們將每一個樣本作為一個句子處理,執行Skip-Gram模型(其最初設計用於從線性序列中學習單詞表示),以從這些樣本中學習頂點的表示。
DeepWalk的主要缺點是顯示世界資訊網路中固有的鏈路稀疏性問題。例如,兩個編寫與“機器學習”相關科學文章的作者如果沒有連線,就不會被DeepWalk認為是相似的。在本文中,我們的目的是通過融合文字資訊和連結資訊以協同的方式來克服上述問題,以此來建立作者表示。我們在大型資料集上進行的實驗表明,利用內容和連結資訊減輕了連結稀疏性問題。
2. Author2Vec Model
假設合著者網路
Context-Info Model: 該模型目標是單純通過文字概念(論文摘要)捕捉作者向量表示。模型將作者
其中,
其中
Link-Info Model: Link-Info模型的目標是通過連結資訊豐富先前模型獲得作者向量表示。該模型將作者向量(