DeepWalk論文精讀：（3）實驗

阿新 • • 發佈：2020-05-03

# 模組三 ## 1 實驗設計 ### 1.1 資料集

- BLOGCATALOG[39]：部落格作者網路。標籤為作者感興趣的主題。 - FLICKR[39]：照片分享網站的使用者網路。標籤為使用者的興趣群組，如“黑白照片”。 - YOUTUBE[40]：視訊分享網站的使用者網路。標籤為使用者喜歡的視訊種類，如動漫或摔跤。 ### 1.2 baseline模型 - SpectralClustering[41]：生成節點的表示時，使用圖G的拉普拉斯矩陣的第d小的特徵向量。使用拉普拉斯矩陣的特徵向量代表作者認為圖的割對於分類十分有用。 - Modularity[39]：生成節點的表示時，使用圖的modularity（模組）矩陣的前d個特徵向量。Modularity矩陣的特徵向量蘊含了圖的模組劃分的資訊。 - EdgeCluster[40]：使用K-Means方法對圖G的鄰接矩陣進行聚類。由於當圖較大時，spectral decomposition（譜分析）難以實施，所以表現比Modularity方法更好。 - wvRN[24]：關聯鄰居的帶權投票方法。對於節點$v_i$和它的鄰居$N_i$，它的概率分佈函式由 $\Pr(y_i|N_i)=\frac{1}{Z}\sum_{v_j \in N_i}{w_{ij}\Pr(y_j|N_j)}$ 計算得到。該方法在實際的網路中有著非常出色的表現，所以經常被用作關聯分類的baseline[25]。 - Majority：非常簡單粗暴的模型，直接取訓練集中最經常出現的標籤。在後邊進行對比時，基本只與SpectralClustering、EdgeCluster、Modularity、wvRN這四種baseline進行對比。 ## 2 實驗 ### 2.1 多標籤分類為說明對比效果，採用了和前述模型相同的資料集合實驗步驟。劃分訓練集和驗證集進行實驗，重複十次取Macro-F1以及Micro-F1的平均值。 >

**---F1-score:** > > F1 = 2 \* (P\*R) / (P+R) > > 準確率(P) = TP/ (TP+FP) ，衡量是否有誤判 > > 召回率(R) = TP/ (TP+FN)，衡量是否有遺漏 > > 真陽性（TP）: 預測為正，實際也為正 > > 假陽性（FP）: 預測為正，實際為負 > > 假陰性（FN）: 預測為負，實際為正 > > 真陰性（TN）: 預測為負，實際也為負 > > **---Macro-F1 & Micro-F1:** > > Macro-F1和Micro-F1，巨集觀F1值和微觀F1值，將只適用於Binary分類的F1值推廣了，考慮的是在多標籤(Multi-label)情況下，分類效果的評估方式。 >

> Micro-F1：先將各類別的TP，FN和FP的數量累加，得到總體的數量，再計算F1。在Micro-F1的計算公式中考慮到了每個類別的數量，所以適用於資料分佈不平衡的情況；但同時因為考慮到資料的數量，所以在資料極度不平衡的情況下，數量較多的類會較大的影響到F1的值。 > > Macro-F1：分佈計算每個類別的F1，然後求它們的算術平均（即各類別F1的權重相同）。沒有考慮到資料的數量，會平等地看待每一類別，相對地受高precision和高recall類別的影響較大。所有模型都使用LibLinear[10]的one-vs-rest邏輯迴歸用於分類。 DeepWalk引數設定為：$\gamma=80, \omega=10, d=128$； SpectralClustering、Modularity和EdgeCluster的引數設定為：$d=500$（原作者使用的引數）。作者用$T_R$表示選取訓練集的比例，$T_R$越大表明訓練集樣本越多，帶標籤的樣本越密集。 #### 2.1.1 BlogCatalog

改變有標籤節點的百分比/密度，從10%至90%。和四個baseline相比，效果遠好於EdgeCluster、Modularity、wvRN這三個，甚至當僅使用20%的資料訓練的效果，就比這三個baseline用90%的資料訓練的效果要好。 SpectralClustering的效果和DeepWalk比較接近，但依然可以看出來DeepWalk在有標籤的資料少於20%時，Macro-F1的值更高；少於60%時，Micro-F1的值更高。綜上，當圖中僅有少量資料有標記時，DeepWalk的效果非常好，這也正是DeepWalk的核心優點。 #### 2.1.2 Flickr

改變有標籤節點的百分比/密度，從1%至10%，即節點個數從800到8000。實驗結果與BlogCatalog的一致：在Micro-F1上，各個百分比下都比最好的baseline高至少三個百分點；當僅使用3%的資料訓練的效果，就比最好的baseline用10%的資料訓練的效果好，換言之，DeepWalk演算法在減少60%的有標籤資料後，效果依然強於最好的baseline。在Macro-F1上，效果也很好。有1%的有標籤資料時，效果只比最好的baseline好一點；但當有10%的有標籤資料時，效果比最好的baseline好了一個百分點。 #### 2.1.3 YouTube

YouTube網路的規模十分龐大，更加接近真實情況下的網路，這也導致SpectralClustering和Modularity兩個演算法已經無法執行。改變有標籤節點的百分比/密度，從1%至10%。在1%時，DeepWalk在Micro-F1和Macro-F1上分別領先baseline14%和10%的得分，隨著有標籤資料的增多，和baseline之間的差距在逐漸縮小，但到10%時依然分別保持3%和5%的領先。綜合以上三個實驗，我們可以得得出以下結論。在多標籤分類的任務上使用DeepWalk有兩點好處—— 1. **可以適用於大規模的圖** 2. **僅需要少量有標記的樣本就擁有很高的分類準確率** ### 2.2 引數敏感性改變模型引數時，觀察模型效果的變化情況。作者在Flickr和BlogCatalog資料集上：固定視窗大小$\omega$=10 和隨機遊走序列長度$t$=40，改變嵌入維度$d$、每個節點作為根節點的次數$\gamma$、訓練集比例$T_R$。 #### 2.2.1 維度敏感性

觀察a1和a3可以發現，兩個資料集上結論高度一致：存在最優的維度，且最優維度的大小和$T_R$的大小有關（注意到，Flickr的1%的訓練集大小與BlogCatalog的10%的訓練集大小相當）。觀察a2和a4可以發現，模型效果對維度並不十分敏感，在$\gamma$的各個取值上都呈現這個特徵。除此之外，還有兩個有趣的發現： 1. 在$\gamma$小於30時，增加$\gamma$對模型的準確率提升非常模型。但當$\gamma$大於30後，增加$\gamma$對模型準確率的提升就比較有限了。 2. 在兩個資料集上，不同的$\gamma$引數模型之間的差距非常相似。然而Flickr資料集中邊的個數比BlogCatalog的高一個數量級（所以$T_R$的取值分別是0.05和0.5）。 #### 2.2.2 取樣頻率敏感性

本圖和2.2.1中的圖高度一致。$\gamma$的增大對於模型效果的提升有著非常巨大的作用，但當$\gamma$大於10後這種作用在逐漸減小。 ## 參考文獻 [39] L. Tang and H. Liu. Relational learning via latent social dimensions. In Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’09, pages 817–826, New York, NY, USA, 2009. ACM. [40] L. Tang and H. Liu. Scalable learning of collective behavior based on sparse social dimensions. In Proceedings of the 18th ACM conference on Information and knowledge management, pages 1107–1116. ACM, 2009. [41] L. Tang and H. Liu. Leveraging social media networks for classification. Data Mining and Knowledge Discovery, 23(3):447–478, 2011 [24] S. A. Macskassy and F. Provost. A simple relational classifier. In Proceedings of the Second Workshop on Multi-Relational Data Mining (MRDM-2003) at KDD-2003, pages 64–76, 2003. [25] S. A. Macskassy and F. Provost. Classification in networked data: A toolkit and a univariate case study. The Journal of Machine Learning Research, 8:935–983, 2007. [10] R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification. Journal of Machine Learning Research, 9:1871–187

DeepWalk論文精讀：（3）實驗

# 模組三 ## 1 實驗設計 ### 1.1 資料集 - BLOGCATALOG[39]：部落格作者網路。標籤為作者感興趣的主題。 - FLICKR[39]：照片分享網站的使用者網路。標籤為使用者的興趣群組，如“黑白照片”。 - YOUTUBE[40]：視訊分享網站的使用者網路。標籤為使用者喜歡

DeepWalk論文精讀：（2）核心演算法

# 模組2 ## 1. 核心思想及其形成過程 DeepWalk結合了兩個不相干領域的模型與演算法：隨機遊走（Random Walk）及語言模型（Language Modeling）。 ### 1.1 隨機遊走由於網路嵌入需要提取節點的**區域性結構**，所以作者很自然地想到可以使用隨機遊走演算法。隨

DeepWalk論文精讀：（4）總結及不足

# 模組4 ## 1 研究背景隨著網際網路的發展，社交網路逐漸複雜化、多元化。在一個社交網路中，充斥著不同型別的使用者，使用者間產生各式各樣的互動聯絡，形成大小不一的社群。為了對社交網路進行研究分析，需要將網路中的節點（使用者）進行分類。 ## 2 解決的問題利用**節點在圖中的區域性結構資訊**

計算機網路課程實驗——可靠傳輸協議：（3）GBN（unidirectional）

/* Zhang Jingtun(Ordinary Crazy) */ #include <stdio.h> #include <stdlib.h> #include <string.h> //#include <time.h&g

軟工作業：（3）用戶體驗分析

span 基礎管理用戶體驗過程在線菜單 ges log 一.作業目標及要求 http://www.cnblogs.com/juking/p/7660646.html 二、分析過程及內容（一）滿意的地方 1.必要的提示和幫助文檔 ①在公共號服務未出現故障的情況

2017（秋）軟工作業：（3）用戶體驗分析

調整進行提供服務 src http -a 快速在線使用 1.目標：基於實例分析，體會用戶體驗設計的7條準則（1）給用戶及時快速反饋；（2）界面符合慣例；（3）用戶控制權（主人）；（4）一致性和標準化；（5）適合各類用戶（不絕對）（6）幫助用戶排除軟件缺陷

NoSQL初探之人人都愛Redis：（3）使用Redis作為消息隊列服務場景應用案例

public 系統服務就是 toolbar logfile manager 客戶端連接狀態信息朋友 http://www.cnblogs.com/edisonchou/p/3825682.html 一、消息隊列場景簡介　　“消息”是在兩臺

docker：（3）docker容器掛載宿主主機目錄

有一項重要的引數 -v 目錄掛載，就是讓容器內部目錄和宿主主機目錄關聯起來，這樣就可以直接操作宿主主機目錄而不用再操作具體容器了比如在2中，我們要釋出一個war包，是通過 sudo docker cp demo.war tomcat_xiao:/usr/local/

自動化運維：（3）寫一個簡單的Shell指令碼（案例）

一、需求 1、test.sh 指令碼執行時候需要新增引數才能執行引數和功能詳情如下：引數執行效果 start 啟動中... stop 關閉中... restart 重啟中... * 指令碼幫

自動化運維：（3）寫一個簡單的Shell腳本（案例）

sage 數字 shel $1 test 多余限制 div nbsp 一、需求 1、test.sh 腳本執行時候需要添加參數才能執行參數和功能詳情如下：參數執行效果 start 啟動中... stop 關閉

【機器人學】機器人開源專案KDL原始碼學習：（3）機器人操作空間路徑規劃(Path Planning)和軌跡規劃（Trajectory Planning）示例

很多同學會把路徑規劃(Path Planning)和軌跡規劃（Trajectory Planning）這兩個概念混淆，路徑規劃只是表示了機械臂末端在操作空間中的幾何資訊，比如從工作臺的一端（A點）沿直線移動到另一端（B點）。而軌跡規劃則加上了時間律，比如它要完成的任務是從A點開始到B點結束，中間

springmvc基礎：（3）攔截器與檔案上傳

Springmvc與Struts2的區別 springmvc的入口是一個servlet即前端控制器，而struts2入口是一個filter過慮器。 springmvc是基於方法開發(一個url對應一個方法)，請求引數傳遞到方法的形參，可以設計為單例或

NoSQL初探之人人都愛Redis：（3）使用Redis作為訊息佇列服務場景應用案例

一、訊息佇列場景簡介　　“訊息”是在兩臺計算機間傳送的資料單位。訊息可以非常簡單，例如只包含文字字串；也可以更復雜，可能包含嵌入物件。訊息被髮送到佇列中，“訊息佇列”是在訊息的傳輸過程中儲存訊息的容器。　　在目前廣泛的Web應用中，都會出現一種場景：在某一個時刻，網站會迎來一個使用者請求的高峰期（

robotframework基礎入門：（3）：找不到關鍵字的對應方法

這篇文章記錄一下robotframe執行中出現No keyword with name的對應方法現象錯誤提示資訊：No keyword with name ‘Title Should Be’ found. sh-4.2# robot test.

藍的成長記——追逐DBA（1）：奔波於路上，挺進山東藍的成長記——追逐DBA（3）：古董上操作，資料匯入匯出成了問題藍的成長記——追逐DBA（8）：重拾SP報告，回憶oracle的STATSPACK實驗藍的成長記— —追逐DBA（9）：國慶漸去，追逐DBA，新規劃，新啟程

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

DeepWalk論文精讀：（3）實驗

DeepWalk論文精讀：（3）實驗

DeepWalk論文精讀：（2）核心演算法

DeepWalk論文精讀：（4）總結及不足

計算機網路課程實驗——可靠傳輸協議：（3）GBN（unidirectional）

軟工作業：（3）用戶體驗分析

2017（秋）軟工作業：（3）用戶體驗分析

NoSQL初探之人人都愛Redis：（3）使用Redis作為消息隊列服務場景應用案例

docker：（3）docker容器掛載宿主主機目錄

自動化運維：（3）寫一個簡單的Shell指令碼（案例）

自動化運維：（3）寫一個簡單的Shell腳本（案例）

【機器人學】機器人開源專案KDL原始碼學習：（3）機器人操作空間路徑規劃(Path Planning)和軌跡規劃（Trajectory Planning）示例

springmvc基礎：（3）攔截器與檔案上傳

NoSQL初探之人人都愛Redis：（3）使用Redis作為訊息佇列服務場景應用案例

robotframework基礎入門：（3）：找不到關鍵字的對應方法

實驗報告：（1）合理定義一個三角形類Triangle，成員屬性包括3條邊，能否構成三角形的標誌；成員方法包括構造方法、修改3條邊、計算面積。（2）寫一測試類，測試自定義三角形類Triangle是否正

Pro Android學習筆記（一三七）：Home Screen Widgets（3）：配置Activity

Windows Phone開發（3）：棋子未動，先觀全局

第2章 GNS3和PacketTracer網絡模擬器（3）_搭建Packet tracer實驗環境

Akka（3）： Actor監管 - 細述BackoffSupervisor

DeepWalk論文精讀：（3）實驗

相關推薦