1. 程式人生 > >DeepWalk論文精讀:(3)實驗

DeepWalk論文精讀:(3)實驗

# 模組三 ## 1 實驗設計 ### 1.1 資料集 - BLOGCATALOG[39]:部落格作者網路。標籤為作者感興趣的主題。 - FLICKR[39]:照片分享網站的使用者網路。標籤為使用者的興趣群組,如“黑白照片”。 - YOUTUBE[40]:視訊分享網站的使用者網路。標籤為使用者喜歡的視訊種類,如動漫或摔跤。 ### 1.2 baseline模型 - SpectralClustering[41]:生成節點的表示時,使用圖G的拉普拉斯矩陣的第d小的特徵向量。使用拉普拉斯矩陣的特徵向量代表作者認為圖的割對於分類十分有用。 - Modularity[39]:生成節點的表示時,使用圖的modularity(模組)矩陣的前d個特徵向量。Modularity矩陣的特徵向量蘊含了圖的模組劃分的資訊。 - EdgeCluster[40]:使用K-Means方法對圖G的鄰接矩陣進行聚類。由於當圖較大時,spectral decomposition(譜分析)難以實施,所以表現比Modularity方法更好。 - wvRN[24]:關聯鄰居的帶權投票方法。對於節點$v_i$和它的鄰居$N_i$,它的概率分佈函式由 $\Pr(y_i|N_i)=\frac{1}{Z}\sum_{v_j \in N_i}{w_{ij}\Pr(y_j|N_j)}$ 計算得到。該方法在實際的網路中有著非常出色的表現,所以經常被用作關聯分類的baseline[25]。 - Majority:非常簡單粗暴的模型,直接取訓練集中最經常出現的標籤。 在後邊進行對比時,基本只與SpectralClustering、EdgeCluster、Modularity、wvRN這四種baseline進行對比。 ## 2 實驗 ### 2.1 多標籤分類 為說明對比效果,採用了和前述模型相同的資料集合實驗步驟。劃分訓練集和驗證集進行實驗,重複十次取Macro-F1以及Micro-F1的平均值。 >
**---F1-score:** > > ​ F1 = 2 \* (P\*R) / (P+R) > > ​ 準確率(P) = TP/ (TP+FP) ,衡量是否有誤判 > > ​ 召回率(R) = TP/ (TP+FN),衡量是否有遺漏 > > ​ 真陽性(TP): 預測為正, 實際也為正 > > ​ 假陽性(FP): 預測為正, 實際為負 > > ​ 假陰性(FN): 預測為負,實際為正 > > ​ 真陰性(TN): 預測為負, 實際也為負 > > **---Macro-F1 & Micro-F1:** > > ​ Macro-F1和Micro-F1,巨集觀F1值和微觀F1值,將只適用於Binary分類的F1值推廣了,考慮的是在多標籤(Multi-label)情況下,分類效果的評估方式。 >
> ​ Micro-F1:先將各類別的TP,FN和FP的數量累加,得到總體的數量,再計算F1。在Micro-F1的計算公式中考慮到了每個類別的數量,所以適用於資料分佈不平衡的情況;但同時因為考慮到資料的數量,所以在資料極度不平衡的情況下,數量較多的類會較大的影響到F1的值。 > > ​ Macro-F1:分佈計算每個類別的F1,然後求它們的算術平均(即各類別F1的權重相同)。沒有考慮到資料的數量,會平等地看待每一類別,相對地受高precision和高recall類別的影響較大。 所有模型都使用LibLinear[10]的one-vs-rest邏輯迴歸用於分類。 DeepWalk引數設定為:$\gamma=80, \omega=10, d=128$; SpectralClustering、Modularity和EdgeCluster的引數設定為:$d=500$(原作者使用的引數)。 作者用$T_R$表示選取訓練集的比例,$T_R$越大表明訓練集樣本越多,帶標籤的樣本越密集。 #### 2.1.1 BlogCatalog
改變有標籤節點的百分比/密度,從10%至90%。 和四個baseline相比,效果遠好於EdgeCluster、Modularity、wvRN這三個,甚至當僅使用20%的資料訓練的效果,就比這三個baseline用90%的資料訓練的效果要好。 SpectralClustering的效果和DeepWalk比較接近,但依然可以看出來DeepWalk在有標籤的資料少於20%時,Macro-F1的值更高;少於60%時,Micro-F1的值更高。 綜上,當圖中僅有少量資料有標記時,DeepWalk的效果非常好,這也正是DeepWalk的核心優點。 #### 2.1.2 Flickr 改變有標籤節點的百分比/密度,從1%至10%,即節點個數從800到8000。 實驗結果與BlogCatalog的一致:在Micro-F1上,各個百分比下都比最好的baseline高至少三個百分點;當僅使用3%的資料訓練的效果,就比最好的baseline用10%的資料訓練的效果好,換言之,DeepWalk演算法在減少60%的有標籤資料後,效果依然強於最好的baseline。 在Macro-F1上,效果也很好。有1%的有標籤資料時,效果只比最好的baseline好一點;但當有10%的有標籤資料時,效果比最好的baseline好了一個百分點。 #### 2.1.3 YouTube YouTube網路的規模十分龐大,更加接近真實情況下的網路,這也導致SpectralClustering和Modularity兩個演算法已經無法執行。 改變有標籤節點的百分比/密度,從1%至10%。在1%時,DeepWalk在Micro-F1和Macro-F1上分別領先baseline14%和10%的得分,隨著有標籤資料的增多,和baseline之間的差距在逐漸縮小,但到10%時依然分別保持3%和5%的領先。 綜合以上三個實驗,我們可以得得出以下結論。在多標籤分類的任務上使用DeepWalk有兩點好處—— 1. **可以適用於大規模的圖** 2. **僅需要少量有標記的樣本就擁有很高的分類準確率** ### 2.2 引數敏感性 改變模型引數時,觀察模型效果的變化情況。作者在Flickr和BlogCatalog資料集上: 固定視窗大小$\omega$=10 和 隨機遊走序列長度$t$=40, 改變嵌入維度$d$、每個節點作為根節點的次數$\gamma$、訓練集比例$T_R$。 #### 2.2.1 維度敏感性 觀察a1和a3可以發現,兩個資料集上結論高度一致:存在最優的維度,且最優維度的大小和$T_R$的大小有關(注意到,Flickr的1%的訓練集大小與BlogCatalog的10%的訓練集大小相當)。 觀察a2和a4可以發現,模型效果對維度並不十分敏感,在$\gamma$的各個取值上都呈現這個特徵。除此之外,還有兩個有趣的發現: 1. 在$\gamma$小於30時,增加$\gamma$對模型的準確率提升非常模型。但當$\gamma$大於30後,增加$\gamma$對模型準確率的提升就比較有限了。 2. 在兩個資料集上,不同的$\gamma$引數模型之間的差距非常相似。然而Flickr資料集中邊的個數比BlogCatalog的高一個數量級(所以$T_R$的取值分別是0.05和0.5)。 #### 2.2.2 取樣頻率敏感性 本圖和2.2.1中的圖高度一致。$\gamma$的增大對於模型效果的提升有著非常巨大的作用,但當$\gamma$大於10後這種作用在逐漸減小。 ## 參考文獻 [39] L. Tang and H. Liu. Relational learning via latent social dimensions. In Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’09, pages 817–826, New York, NY, USA, 2009. ACM. [40] L. Tang and H. Liu. Scalable learning of collective behavior based on sparse social dimensions. In Proceedings of the 18th ACM conference on Information and knowledge management, pages 1107–1116. ACM, 2009. [41] L. Tang and H. Liu. Leveraging social media networks for classification. Data Mining and Knowledge Discovery, 23(3):447–478, 2011 [24] S. A. Macskassy and F. Provost. A simple relational classifier. In Proceedings of the Second Workshop on Multi-Relational Data Mining (MRDM-2003) at KDD-2003, pages 64–76, 2003. [25] S. A. Macskassy and F. Provost. Classification in networked data: A toolkit and a univariate case study. The Journal of Machine Learning Research, 8:935–983, 2007. [10] R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification. Journal of Machine Learning Research, 9:1871–187