DeepLink:一種使用者身份連結的深度學習方法
論文《DeepLink:A Deep Learning Approach for User Identity Linkage》的閱讀筆記。
論文下載連結: https://pan.baidu.com/s/11v--rgkZKT3RHeMih6USgA
[TOC]
1 基本術語
-
UIL(User Identity Linkage):使用者身份連結,通過方法發現跨社交平臺上同一使用者或者實體。簡而言之,跨社交平臺的同對象識別。
-
OSN(Online Social Networks):線上社交網路,允許各自使用者生產和分享各種內容,並基於共同興趣愛好進行溝通和交流。例如:QQ,微博等。
- ** DL(deep learning)**:深度學習,機器學習的分支,是一種試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對資料進行高層抽象的演算法。深度學習是機器學習中一種基於對資料進行表徵學習的演算法。
2 為什麼做這個研究
-
首先,UIL問題是社交平臺上面一個重要問題,有著廣泛的用途和價值。比方說,使用者身份驗證,跨平臺目標使用者營銷等。
-
接下來,UIL問題當前的研究主要劃分為兩大類:
-
1 基於特徵的方法 利用領域知識和使用者活動深度理解下人工特徵工程。
-
2 基於網路的方法 利用網路結構描述跨社交平臺的使用者關聯,最近引起廣泛關注和研究。
-
第三,目前研究方法的侷限性。
-
沒有提供一個全面的框架來解決使用者和OSNs的異質性問題。
-
基於網路結構捕獲使用者之間潛在的語義關係是很困難的。
-
跨平臺獲取一組具有相同身份的使用者並不容易
鑑於所研究問題的價值性和當前研究的侷限性,論文作者設計和實現一種新的方法來解決這個問題。
3 怎麼做這個研究
1 研究思路
- 第一步:通過網路抽樣形成“語料”以最大程度地保持網路結構。
- 第二步:通過網路嵌入法把網路裡面的每一個節點表示為低維空間的一個向量。
- 第三步:把節點向量餵給一個深度神經網路去訓練出一個跨網路使用者對齊的非線性轉換。
- 第四步:使用對偶式學習過程改進UIL效能和提升有監督訓練演算法。
2 演算法框架
3 演算法理解
- 網路抽樣結構
- 基於多輪隨機遊走為每個使用者生成多個社交序列。
- 每個社交序列編碼表示了社交網路使用者之間的關係。
- 跨平臺的所有社交序列組合在一起形成了“語料庫”。
- 基於“語料庫”,借鑑詞嵌入向量演算法,學習到每一個使用者潛在向量。
- 使用者嵌入隱性空間
借鑑詞向量模型的Skip-gram模型從社交序列學習每個使用者的嵌入隱性空間。
Deeplink的目標最大化對數似然函式:
基於負取樣演算法和隨機梯度下降演算法求解,以得到每個使用者的潛在向量表示。
拓展閱讀:
1 ofollow,noindex" target="_blank">** Distributed Representations of Words and Phrases and their Compositionality** 2 GloVe: Global Vectors for Word Representation
- 神經網路對映學習
使用2個MLP學習出基於錨節點的任意兩個SNGS的對映函式。 所學對映函式要最小化下列目標函式:
- 連結對偶式學習
4 這個研究是什麼?
這個研究是: 深度連結——一種UIL的深度學習方法
問題定義:
演算法效能評價指標:
5 這個研究的啟發是什麼?
該研究,啟發有三:
- 1 網路結構取樣本質上就是對網路圖結構進行編碼 ,希望編碼後能夠最大程度地保持網路的結構和關係。如何對網路圖結構進行有效編碼?值得深入思考和研究。
- 2 對偶學習這種新的學習正規化 ,和其他學習方式有什麼異同,值得進一步研究。
- 3 跨社交平臺的同對象識別的價值和意義 ,值得探問。
您有什麼想法,請留言。
版權宣告: 作者保留權利。文章為作者獨立觀點,不代表資料人網立場。嚴禁修改,轉載請註明原文連結:http://shujuren.org/article/780.html
資料人網: 資料人學習,交流和分享的平臺,誠邀您創造和分享資料知識,共建和共享資料智庫。