1. 程式人生 > >圖嵌入綜述 (arxiv 1709.07604) 譯文 4.1 ~ 4.2

圖嵌入綜述 (arxiv 1709.07604) 譯文 4.1 ~ 4.2

四、圖嵌入技術

在本節中,我們基於所使用的技術對圖嵌入方法進行分類。 通常,圖嵌入旨在在低維空間中表示圖,保留儘可能多的圖屬性資訊。 不同圖嵌入演算法之間的區別在於,它們如何定義要保留的圖屬性。 不同的演算法對節點(邊、子結構、整圖)的相似性,以及如何在嵌入空間中保留它們,有不同的見解。 接下來,我們將介紹每種圖嵌入技術的見解,以及它們如何量化圖屬性並解決圖嵌入問題。

矩陣分解

基於矩陣分解的圖嵌入,以矩陣的形式表示圖特性(例如,節點成對相似性)並對該矩陣進行分解來獲得節點嵌入[11]。 圖嵌入的開創性研究通常以這種方式解決圖嵌入問題。 在大多數情況下,輸入是由非關係高維資料特徵構成的圖,如第 3.1.4 節中所介紹的。輸出是一組節點嵌入(Sec.3.2.1)。 因此,圖嵌入的問題可以被視為保持結構的降維問題,其假定輸入資料位於低維流形中。 有兩種型別的基於矩陣分解的圖嵌入。 一種是分解圖的拉普拉斯特徵對映 ,另一種是直接分解節點鄰近矩陣 。

圖的拉普拉斯運算元

見解: 要保留的圖屬性可以解釋為成對節點的相似性。 因此,如果兩個具有較大相似性的節點相距很遠,則會施加較大的懲罰。

**表4:**基於圖的拉普拉斯特徵對映的圖嵌入。

GE演算法 $ \ mathbf {白} $ 目標函式
MDS [74] $ W_ {ij} = (X_I,X_j)$ 公式 2
Isomap [78] KNN, $ {W_ IJ}  V-I  v_j $ 最短路徑的邊權重之和 公式 2
LE [96] KNN, $ {W_ {ij}} = {\ exp({\ frac {{{{{Vert {{X_i}  -  {X_j}} \ Vert} ^ 2}}} {{2 {t ^ 2}}}}) } $ 公式 2
LPP [97] KNN, $ {W_ {ij}} = {\ exp({\ frac {{{{\ Vert {{X_i}  -  {X_j}} \ Vert} ^ 2}}} {t}})} $ 公式 4
AgLPP [79] 錨圖, $ W = Z \ Lambda ^ { -  1} Z ^ T  \ Lambda_ {kk} = \ sum Z_ {ik}  Z_ {ik} = \ frac {K _ {\ sigma}(X_i,U_k)} {\ sum_j K _ {\ sigma}(X_i,U_j)} $ $ a ^ * = \ arg \ min \ frac {{{a ^ T} UL {U ^ T} a}} {{{a ^ T} UD {U ^ T} a}} $
LGRM [98] KNN, $ {W_ {ij}} = {\ exp({\ frac {{{{{Vert {{X_i}  -  {X_j}} \ Vert} ^ 2}}} {{2 {t ^ 2}}}}) } $ $ y ^ * = \ arg \ min \ frac {{{y ^ T}(L_ {le} + \ mu L_g)y}} {{{y ^ T} y}} $
ARE [88] KNN, $ {W_ {ij}} = \ exp({\ frac {{{ -  \ rho ^ 2(X_iX_j)}}} {t}}) W_ {ij} ^ {ARE} = \ left \ {\ begin {array} {l}  -  \ gamma,{X_i} \ in {F ^ +} \&{X_j} \ ... ... +} \ 1,\ mathcal {L}(X_i)\ ne \ mathcal {L}(X_j)\ 0,否則\ end {array} \ right。$ <6244>
SR [99] KNN, $ {W_ {ij}} = \ left \ {\ begin {array} {l} 1,\ mathcal {L}(X_i)= \ mathcal {L}(X_j)\ 0,\ mathcal {L}(X_i )\ ne \ mathcal {L}(X_j)\ {W_ {ij}},否則\ end {array} \ right。 W_ {ij} ^ {SR} = \ left \ {\ begin {array} {l} 1 / {l_r},\ mathcal {L}(X_i)= \ mathcal {L}(X_j)= C_r \ 0 ,否則\ end {array} \ right。$ <6248>
HSL [87] $ S = I-L  L $ 是歸一化的超圖的拉普拉斯運算元 $ {a ^ *} = \ arg \ max tr({a ^ T} XS {X ^ T} a) a ^ ^ TXX鉭= I_K $
MVU [100] KNN, $ W ^ * = \ arg \ max tr(W) W \ ge 0  \ sum_ {ij} {{W_ {ij}} = 0}  \ forall i,j $ <6255>
SLE [86] KNN, $ {W_ {ij}} = \ left \ {\ begin {array} {l} 1 / {l_r},\ mathcal {L}(X_i)= \ mathcal {L}(X_j)= C_r \ -1, \ mathcal {L}(X_i)\ ne \ mathcal {L}(X_j)\ end {array} \ right。$ <6259>
MSHLRR [76] 一般圖:KNN, $ {W_ {ij}} = 1 $ 公式 2
超圖: $ W(\ mathbf {E}) \ mathbf {E} $
$ h(v,\ mathbf {e})= \ left \ {\ begin {array} {l} 1,v \ in \ mathbf {e} \ 0,否則\ end {array} \ right。 d(\ mathbf {e})= \ sum \ nolimits_ {v \ in \ mathcal {V}} {h(v,e)} $
[77] $ {W_ {ij}} = \ left \ {\ begin {array} {l} \ frac {{\ Vert {{X_i}  -  {X_ {m + 1}}} \ Vert _2 ...... ...... ^ k {\ Vert {{X_i}  -  {X_k}} \ Vert _2 ^ 2}}},j \ le k \ 0,j> k \ end {array} \ right。$ $ {y ^ *} = \ arg \ mathop {\ min} \ limits _ {{y ^ T} y = 1} \ sum \ limits_ {i \ ne j} {{W_ {ij}} \ min(\ Vert { {y_i}  -  {y_j}} \ Vert _2 ^ p,\ theta)} $
PUFS [75] KNN, $ {W_ {ij}} = {\ exp({ -  \ frac {{{{{Vert {{X_i}  -  {X_j}} \ Vert} ^ 2}}} {{2 {t ^ 2}}}} )} $ 公式 4 +(must 和 cannot 連結約束)
RF-Semi-NMF-PCA [101] KNN, $ {W_ {ij}} = 1 $ 公式 2 + $ \ mathcal {O}  \ mathcal {O} $ (k均值)

基於以上見解,最優的嵌入 $ Y $ 可以由以下目標函式[99]匯出。

$ \ displaystyle {y ^ *} = \ arg \ min \ sum \ nolimits_ {i \ ne j}({{y_i}  -  {y_j} {^ 2} {W_ {ij}}})= \ arg \ min { Ÿ^ T} LY,$ (1)

其中 $ {W_ IJ}  V-I  v_j  L \ = \ d \  - !!!\ W  d  {D_ {ii}} = \ sum \ nolimits_ {j \ ne i} {{W_ {ij}}}  {D_ II}  Y_I  Y ^ TDY = 1 $ 通常加於 Eq.1,來刪除嵌入中的任意縮放因子。 Eq.1 然後化簡為:

$ \ displaystyle y ^ * = \ arg \ min \ limits _ {{y ^ T} Dy = 1} {y ^ T} Ly = \ arg \ min \ frac {{{y ^ T} Ly}} {{{y ^ T} Dy}} = \ arg \ max \ frac {{{y ^ T} Wy}} {{{y ^ T} Dy}}。$ (2)

最優的 $ Y  Wy = \ lambda Dy $ 的最大特徵值對應的特徵向量。

上面的圖嵌入是漸進式的,因為它只能嵌入訓練集中存在的節點。 在實踐中,它可能還需要嵌入未在訓練中看到的新節點。 一種解決方案是設計線性函式 $ Y = X ^  A $

$ \ displaystyle a ^ * \!= \! \ arg \ min \ sum \ nolimits_ {i \ ne j} {{{\ Vert \!{{a ^ T} \!{X_i} \! -  \! {a ^ T} \!{X_j}} \!\ Vert} ^ 2} \!{W_ {ij}} \!= \!\ arg \ min {a ^ T} \!XL {X ^ T} \ !一} \!$ (3)

與 Eq.2 相似,通過新增約束 $一個^ TXDX ^鉭= 1 $ ,公式 3 中的問題變成:

$ \ displaystyle a ^ * \!= \! \ arg \ min \ frac {{{a ^ T} XL {X ^ T} a}} {{{a ^ T} XD {X ^ T} a}} = \ arg \ max \ frac {{{a ^ T】XW {X ^ T}一}} {{{一^ T} XD {X ^ T}一}}。$ (4)

最優的 $ A  XW {X ^ T} a = \ lambda XD {X ^ T} a $ 的解的最大特徵值的特徵向量。

現有研究的差異主要在於它們如何計算成對節點的相似性 $ {W_ IJ}  Y = X ^  W $ 的計算方法,以及他們採用了什麼樣的目標函式。

最初的研究 MDS [74]直接採用了兩個特徵向量 $ X_I  X_j  {W_ IJ}  Y  W $,以便儘可能多地保留所需的圖屬性。 最近設計了一些更高階的模型。 例如,AgLPP [79]引入了錨圖,顯著提高早期矩陣分解模型 LPP 的效率。 LGRM [98]學習區域性迴歸模型來掌握圖結構,和樣本外資料外插值的全域性迴歸項。 最後,與以前的工作保留區域性幾何不同,LSE [103]使用區域性樣條迴歸來保持全域性幾何。

當輔助資訊(例如,標籤,屬性)可用時,調整目標函式以保留更豐富的資訊。 例如,[99]構造鄰接圖 $ W  W ^ {SR}  W  W ^ {ARE} $ 編碼使用者相關反饋中的成對關係。 RF-Semi-NMF-PCA [101]通過構建由三個部分組成的目標函式:PCA,k-means和圖的拉普拉斯正則化,同時考慮聚類,降維和圖嵌入。

其他一些工作認為 $ W  W  W  P $ 。 它構造了這種相似矩陣,從而有效地解決了類似LPP的問題。

**表5:**基於節點鄰近矩陣分解的圖嵌入。O(*)表示目標函式;例如,O(SVM分類器)表示SVM分類器的目標函式。

GE演算法 $ \ mathbf {白} $ 目標函式
[50] $ {W_ {ij}} = \ left \ {\ begin {array} {l} 1,{e_ {ij}} \ in E \ 0,否則\ end {array} \ right。$ 公式 5
SPE [105] KNN, $ {W ^ *} = \ arg \ mathop {\ max} \ limits_ {k \ ge 0} tr(W \ hat {A}) {D_ {ij}}>(1  -  {\ hat {A} _ {ij}}){\ max \ limits _m}({\ hat {A} _ {im}} {D_ {im}})$ 公式 5
HOPE [106] Katz 指數 $ W =(\ mathbf {I}  -  \ beta A)^ { -  1} \ beta A  W =(1- \ alpha)(\ mathbf {I}  -  \ alpha P)^ { -  1} $ 公式 5
GraRep [21] $ W_ {ij} ^ k = \ log(\ frac {\ hat {A} _ {ij} ^ k} {\ sum_t \ hat {A} _ {ij} ^ k}) -  \ log(\ frac {\ lambda} {\ vert V \ vert}) \帽子{A} = d ^ { -  1} US  {D_ {ij}} = \ left \ {\ begin {array} {l} \ sum_p {{A_ {ip}}},i = j \ 0,i \ ne j \ end {array} \ right。 $ 公式 5
CMF [43] PPMI 公式 5
TADW [56] PMI 公式 5 和文字特徵矩陣
[24] A $ {y ^ *} = \ arg \ min \ sum _ {{e_ {ij}} \ in E} {{{({A_ {ij}}  -  <{y_i},{y_j}>)} ^ 2}} + \ frac {\ lambda} {2} \ sum_i {{{\ Vert {{y_i}} \ Vert} ^ 2}} $
MMDW [48] PMI 公式 5 + O(SVM分類器)
HSCA [57] PMI O(MMDW)+( 一階鄰近度約束)
MVE [107] KNN, $ {W ^ *} = \ arg \ min tr(W(\ sum_ {i = 1} ^ d {{\ upsilon _i} \ upsilon _i ^ T} + \ sum_ {i = d + 1} ^ N {{ \ upsilon _i} \ upsilon _i ^ T}))$ 公式 5
M-NMF [1] $ W = s ^ {(1)} + 5s ^ {(2)} $ 公式 5 + O(社群檢測)
ULGE [2] $ W = Z {\ Delta ^ { -  1}} {Z ^ T}  {Z ^ *} = \ mathop {\ arg \ min} \ limits_ {z_i ^ T1 = 1,{z_i} \ ge 0} \ sum_ {j = 1} ^ m {\ Vert {{X_i}  -  {u_j }} \ Vert _2 ^ 2 {z_ {ij}}} + \ gamma \ sum_ {j = 1} ^ m {z_ {ij} ^ 2} $ $ {a ^ *} = \ arg \ min \ Vert {{a ^ T} X  -  {F_p}} \ Vert _F ^ 2 + \ alpha \ Vert a \ Vert _F ^ 2 $
LLE [102] KNN, $ W ^ * = \ arg \ min \ sum_i {\ Vert X_i  -  \ sum_j {W_ {ij} X_j} \ Vert ^ 2} $ $ y ^ * = \ arg \ min \ sum_i {\ Vert y_i  -  \ sum_j {W_ {ij} y_j} \ Vert ^ 2} $
RESCAL [108] $ {W_ {ijk}} = \ left \ {\ begin {array} {l} 1,({h_i},{r_j},{t_k})\ text {exists} \ 0,否則\ end {array} \權。$ $ \ min \ sum \ limits_k {\ Vert {{W_k}  -  Y {R_k} {Y ^ T}} \ Vert _F ^ 2} + \ lambda(\ Vert Y \ Vert _F ^ 2 + \ sum \ limits_k {\ Vert {{R_k}} \ Vert} _F ^ 2)$
FONPE [109] KNN, $ W ^ * = \ arg \ min \ sum_i {\ Vert X_i  -  \ sum_j {W_ {ij} X_j} \ Vert ^ 2} $ $ \ min \ Vert {F  -  F {W ^ T}} \ Vert _F ^ 2 + \ beta \ Vert {{P ^ T} X  -  F} \ Vert _F ^ 2  P ^ TP = \ mathbf {I} $

節點鄰近矩陣分解

除了解決上述廣義特徵值問題外,另一系列研究試圖直接分解節點鄰近矩陣。

見解: 使用矩陣分解可以在低維空間中近似節點鄰近度。 保持節點鄰近度的目標是最小化近似的損失。

給定節點鄰近矩陣 $ W $ ,目標是:

$ \ displaystyle \ textstyle \ min \ Vert W- Y {Y ^ c} ^ T \ Vert,\ vspace {-1mm} $ (5)

其中 $ Y \ in \ mathbb {R} ^ {\ vert V \ vert \ times d}  Y ^ c \ in \ mathbb {R} ^ {\ vert V \ vert \ times d} $ 是上下文節點的嵌入[21]。

公式 5 旨在找到一個最優的秩為d的鄰近度矩陣W的近似( $ d  W $ 應用 SVD(奇異值分解)[110]。從形式上看,

$ \ displaystyle \ textstyle W = \ sum_ {i = 1} ^ {\ vert V \ vert} \ sigma_iu_i {u_i ^ c} ^ T \ approx \ sum_ {i = 1} ^ {d} \ sigma_iu_i {u_i ^ c } ^ T,$ (6)

其中 $ \ {\ sigma_1,\ sigma_2,\ cdots,\ sigma _ {\ vert V \ vert} }  u_i  u_i ^ C  \ $ sigma_i 的奇異向量 。 最佳嵌入使用最大的d個奇異值獲得 $ d $,相應的奇異向量如下:

\ begin {equation *} \ textstyle \ begin {aligned} Y = [\ sqrt {\ sigma_1} u_1,\ cdots,\ sqrt ... ... sqrt {\ sigma_1} u_1 ^ c,\ cdots,\ sqrt { \ sigma_d} u_d ^ C]。 \ {端對齊} \ {端公式*} (7)

根據是否保留非對稱屬性,節點 $ I  y_i = Y_i  Y_I  Y ^ $ C_I 連線,即 $ y_i = [Y_i,Y ^ c_i] $ [106]。 公式 5 存在其他解決方案,如正則化高斯矩陣分解[24],低秩矩陣分解[56],並加入其他正則化器來施加更多約束[48]。 我們總結了表 5 中所有基於節點鄰近度矩陣分解的圖嵌入。

總結:矩陣分解(MF)主要用於嵌入由非關係資料構建的圖(第 3.1.4 節),用於節點嵌入(第 3.2.1 節),這是圖的拉普拉斯特徵對映問題的典型設定。 MF也用於嵌入同構圖[50,24](第 3.1.1 節)。

深度學習

深度學習(DL)在各種研究領域表現出色,如計算機視覺,語言建模等。基於DL的圖嵌入在圖上應用DL模型。 這些模型要麼直接來自其他領域,要麼是專門為嵌入圖資料設計的新神經網路模型。 輸入是從圖中取樣的路徑或整個圖本身。 因此,我們基於是否採用隨機遊走來從圖中取樣路徑,將基於DL的圖嵌入分為兩類。

帶有隨機遊走的基於 DL 的圖嵌入

見解: 通過最大化以自身嵌入為條件的,節點鄰域的觀測概率,可以在嵌入空間中保留圖中的二階鄰近度。

在第一類基於深度學習的圖嵌入中,圖被表示為從其取樣的一組隨機遊走路徑。 然後將深度學習方法應用於用於圖嵌入的取樣路徑,保留路徑所承載的圖屬性。

鑑於上述見解,DeepWalk [17]採用神經語言模型(SkipGram)進行圖嵌入。 SkipGram [111]旨在最大化視窗內出現的單詞之間的共現概率 $ W $ 。 DeepWalk首先使用截斷的隨機遊走,從輸入圖中取樣一組路徑(即,均勻地取樣最後訪問節點的鄰居,直到達到最大長度)。 從圖中取樣的每個路徑相當於來自語料庫的句子,其中節點相當於單詞。 然後將SkipGram應用於路徑,最大化節點鄰域的觀測概率,以自身嵌入為條件。 以這種方式,鄰域相似(二階鄰近度較大)的節點的嵌入相似。DeepWalk的目標函式如下:

$ \ displaystyle \ textstyle \ mathop {\ min} _y  -  \ log P(\ {{v_ {i  -  w}},\ cdots,{v _ {i  -  1}},{v_ {i + 1}},\ cdots,{v _ {i + w}} } \ vert {y_i}),$ (8)

其中 $ W $ 是視窗大小,它限制隨機遊走上下文的大小。 SkipGram刪除了排序約束,並且 公式 8轉換為:

$ \ displaystyle \ textstyle \ mathop {\ min} _y  -  \ log \ sum_ { -  w \ le j \ le w} {P({v_ {i + j}} \ vert {y_i})},$ (9)

其中 $ P({v_ {i + j}} \ vert {y_i})$ 使用softmax函式定義:

$ \ displaystyle \ textstyle P({v_ {i + j}} \ vert {y_i})= \ frac {{\ exp(y_ {i + j} ^ T {y_i})}} {{\ sum_ {k = 1} ^ {\ vert V \ vert} {\ exp(y_k ^ T {y_i})}}}。$ (10)

請注意,計算公式 10 是昂貴的,因為標準化因子(即,圖中每個節點的所有內積的總和),所以圖 10 的方法是不可行的。 通常有兩種解近似完全softmax的解決方案:分層softmax [112]和負取樣[112]。

分層softmax :有為了效地解決中公式 10,構造二叉樹,其中節點被分配給葉子。 不像公式 10 那樣列舉所有節點,僅需要求解從根到相應葉子的路徑。 優化問題變得最大化樹中特定路徑的概率。 假設到葉子 $ V-I (b_0,b_1,\ cdots,b_ {log(\ vert V \ vert)}) b_ {log(\ vert V \ vert)} = v_i $ 。 公式 10 然後變成:

$ \ displaystyle \ textstyle P({v_ {i + j}} \ vert {y_i})= \ prod_ {t = 1} ^ {\ log(\ vert V \ vert)} {P({b_t} \ vert { Y_I})},$ (11)

其中 $ P({} B_T) P({b_t} \ vert {v_i})= \ sigma(y _ {{b_t}} ^ T {y_i}) \西格瑪(\ CDOT) Y _ {{B_T}}  B_T  \ mathcal {O}(\ vert V \ vert ^ 2) \ mathcal {O}(\ vert V \ vert log(\ vert V \ vert))$

負取樣 : 負取樣的關鍵思想是,使用邏輯迴歸將目標節點與噪聲區分開來。 即,對於一個節點 $ V-I  {V_ I + J}  P_ {N}(V-I) V-I  \ log P({v_ {i + j}} \ vert {y_i})$ 然後計算為:

$ \ displaystyle \ textstyle \ log \ sigma(y_ {i + j} ^ T {y_i})+ \ sum_ {t = 1} ^ K {{E _ {{v_t} \ sim {P_n}}} [\ log \西格瑪( -  y _ {{v_t}} ^ T {y_i})]},$ (12)

其中 是取樣的負節點數。 $ P_N(V-I) P_n(v_i)\ sim \ frac {1} {\ vert V \ vert},\ forall v_i \ in V  \ mathcal {O}(K \ vert V \ vert)$

**表6:**帶有隨機遊走路徑的基於深度學習的圖嵌入。

GE演算法 隨機遊走方法 保留的鄰近度 DL模型
DeepWalk [17] 截斷隨機遊走 $ 2 ^ {ND} $ SkipGram 和 分層 softmax(公式 11)
[34] 截斷隨機遊走 $ 2 ^ {ND} $ (詞語-影象) 同上
GenVector [66] 截斷隨機遊走 $ 2 ^ {ND} $ (使用者 - 使用者和概念 - 概念) 同上
受限制的DeepWalk [25] 邊權重取樣 $ 2 ^ {ND} $ 同上
DDRW [47] 截斷隨機遊走 $ 2 ^ {ND} $ +分類一致性 同上
TriDNR [73] 截斷隨機遊走 $ 2 ^ {ND} $ (節點,單詞和標籤之間) 同上
node2vec [28] BFS + DFS $ 2 ^ {ND} $ SkipGram 和負取樣(公式 12)
UPP-SNE [113] 截斷隨機遊走 $ 2 ^ {ND} $ (使用者 - 使用者和個人資料 - 個人資料) 同上
Planetoid [62] 按標籤和結構對節點對進行取樣 $ 2 ^ {ND} $ +標籤標識 同上
NBNE [19] 對節點的直接鄰居進行取樣 $ 2 ^ {ND} $ 同上
DGK [93] graphlet 核:隨機取樣[114] $ 2 ^ {ND} $ (通過graphlet) SkipGram(公式11 - 12 )
metapath2vec [46] 基於元路徑的隨機遊走 $ 2 ^ {ND} $ 異構 SkipGram
ProxEmbed [44] 截斷隨機遊走 節點排名元組 LSTM
HSNL [29] 截斷隨機遊走 $ 2 ^ {ND} $ + QA排名元組 LSTM
RMNL [30] 截斷隨機遊走 $ 2 ^ {ND} $ +使用者問題質量排名 LSTM
DeepCas [63] 基於馬爾可夫鏈的隨機遊走 資訊級聯序列 GRU
MRW-MN [36] 截斷隨機遊走 $ 2 ^ {ND} $ +跨模態特徵差異 DCNN + SkipGram

DeepWalk [17]的成功激發了許多後續研究,這些研究將深度學習模型(例如,SkipGram或長短期記憶(LSTM)[115])應用於圖嵌入的取樣路徑。 我們在表 6中對它們進行了總結。 如表中所示,大多數研究遵循DeepWalk的想法,但改變隨機遊戲的取樣方法([25,28,62,62])或要保留的鄰近度(定義 5和定義 6)的設定([34,66,47,73,62])。 [46]設計基於元路徑的隨機遊走來處理異構圖和異構 SkipGram,它最大化了給定節點具有異構上下文的概率。 除了SkipGram之外,LSTM是圖嵌入中採用的另一種流行的深度學習模型。 請注意,SkipGram只能嵌入一個節點。 然而,有時我們可能需要將一系列節點嵌入為固定長度向量,例如,將句子(即,一系列單詞)表示為一個向量,就要在這種情況下采用LSTM來嵌入節點序列。 例如,[29]和[30]嵌入cQA站點中的問題/答案中的句子,[44]在兩個節點之間嵌入一系列節點,用於鄰近度嵌入。 在這些工作中優化排名損失函式,來保持訓練資料中的排名分數。 在[63]中,GRU [116](即,類似於LSTM的遞迴神經網路模型)用於嵌入資訊級聯路徑。

不帶隨機遊走的基於 DL 的圖嵌入

見解: 多層學習架構是一種強大而有效的解決方案,可將圖編碼為低維空間。

第二類基於深度學習的圖嵌入方法直接在整個圖(或整個圖的鄰近矩陣)上應用深度模型。 以下是圖嵌入中使用的一些流行的深度學習模型。

自編碼器 :自編碼器旨在最小化其編碼器輸入和解碼器輸出的重建誤差。 編碼器和解碼器都包含多個非線性函式。 編碼器將輸入資料對映到表示空間,並且解碼器將表示空間對映到重建空間。 採用自編碼器進行圖嵌入的思想,與鄰域保持方面的節點鄰近矩陣分解(Sec.4.1.2)相似。 具體而言,鄰接矩陣捕獲節點的鄰域。 如果我們將鄰接矩陣輸入到自編碼器,則重建過程將使具有相似鄰域的節點具有類似的嵌入。

深度神經網路 :作為一種流行的深度學習模型,卷積神經網路(CNN)及其變體已廣泛應用於圖嵌入。 一方面,他們中的一些人直接使用為歐幾里德域設計的原始CNN模型,並重新格式化輸入圖以適應它。 例如,[55]使用圖示記,從圖中選擇固定長度的節點序列,然後使用 CNN 模型,組裝節點的鄰域來學習鄰域表示。 另一方面,一些其他工作試圖將深度神經模型推廣到非歐幾里德域(例如,圖)。 [117]在他們的綜述中總結了代表性研究。 通常,這些方法之間的差異在於,它們在圖上形成類似卷積的操作的方公式 一種方法是模擬卷積定理以定義譜域中的卷積 [118,119]。 另一種方法是將卷積視為空域中的鄰域匹配 [82,72,120]。

其他 :還有一些其他型別的基於深度學習的圖嵌入方法。 例如,[35]提出了DUIF,它使用分層softmax作為前向傳播來最大化模組性。 HNE [33]利用深度學習技術來捕獲異構成分之間的互動,例如,用於影象的CNN和用於文字的FC層。 ProjE [40]設計了一個具有組合層和投影層的神經網路。 它定義了知識圖嵌入的逐點損失(類似於多分類)和列表損失(即softmax迴歸損失)。

我們在表 7 中總結了所有基於深度學習的圖嵌入方法(沒有隨機遊走),並比較了它們使用的模型以及每個模型的輸入。

**表7:**基於深度學習的圖嵌入, 沒有隨機遊走路徑。

GE 演算法 深度學習模型 模型輸入
SDNE [20] 自編碼器 $ A $
DNGR [23] 堆疊去噪自編碼器 PPMI
SAE [22] 稀疏自編碼器 $ d ^ { -  1}甲$
[55] CNN 節點序列
SCNN [118] 譜 CNN
[119] 帶有光滑譜乘法器的譜 CNN
MoNet [80] 混合模型網路
ChebNet [82] 圖CNN又名ChebNet
GCN [72] 圖卷積網路
GNN [120] 圖神經網路
[121] 自適應圖神經網路 分子圖
GGS-NNs [122] 自適應圖神經網路
HNE [33] CNN + FC 帶影象和文字的圖
DUIF [35] 分層深度模型 社會管理網路
ProjE [40] 神經網路模型 知識圖
TIGraNet [123] 圖卷積網路 從影象構造的圖

總結:由於它的威力和效率,深度學習已廣泛應用於圖嵌入。 在基於深度學習的圖嵌入方法中,已經觀察到三種類型的輸入圖(除了從非關係資料構建的圖(第 3.1.4 節))和所有四種類型的嵌入輸出。