1. 程式人生 > >用R語言對網路資料進行統計分析(五)

用R語言對網路資料進行統計分析(五)

網路圖特徵的描述性統計

簡介

在對給定的複雜系統的研究中,利益問題通常可以用作為對相應的網路圖的結構或特徵的某些方面的問題的方式來重新表述。例如,各種型別的基本社會動力學可以用三重頂點來表示;涉及資訊或商品的移動的問題通常對應網路圖的路徑,沿著這些路徑流動;對於單個系統元素的’重要性’的某些概念,可以通過’中心’對應網路的頂點;一個系統中搜索’社群’和類似型別的未指定的’組’通常可以作為一個圖分割槽問題來解決。

在傳統中,網路圖的結構性分析主要作為一種描述性任務來處理,而不是推理任務,而用於此類目的的工具主要來自’主流’統計之外的領域。例如,這些工具中絕大部分是來自於圖論和電腦科學。同樣的,社會網路分析領域也是另一個重要來源,提供了用以獲取社會結構和動態網路的基本面。最近,在物理學領域,尤其是在統計力學,新的工具被大量挖掘。

頂點和邊的屬性

由於網路圖的基本元素是它們的頂點和邊,因此有許多以這些為中心的網路特徵。我們在這一節討論了幾個這樣的描述。我們的展示是根據頂點度和那些一些更基本的概念(通常是頂點的中心度量)的特徵來分解的。我們將探討從頂點到邊的規則擴充套件。

頂點的度數

這裡我們用之前空手道的資料集舉例。
這裡寫圖片描述

左圖是度數的頻率分佈圖,右圖是強度的頻率分佈圖。強度又被稱為加權度數,顧名思義它是每個頂點鄰近邊的加權平均。這兩張圖都反映了空手道分裂成兩派後,教練和管理者的頻率和接近,其他的都是會員,強度圖會更加明顯。

再來看一下 在酵母中蛋白質對之間的相互作用網路
這裡寫圖片描述
從右邊的圖中可以看出,對數頻率作為對數度函式存在一個相當線性的衰減。雖然我們可以用一個簡單的線性歸回得出一個簡單的衰變率,但在這裡舉例,說明我們可以用一個稍複雜一點的方法得出更好的結論。

這裡寫圖片描述
除了度數分佈本身,瞭解不同度數頂點之間聯絡是很有趣的,這導致我們給出了一個頂點的鄰接平均度的概念。如上圖所示,一個酵母的平均鄰接度與頂點度的資料。表明了,雖然高度數的頂點更傾向於與他相似的頂點,低度數的頂點則與兩者都保持了密切的關聯。

中心性

這裡我們引入三個不同的中心概念及其定義。
Closeness centrality 用來描述一個頂點與其他所有頂點的一種中心性。我們定義頂點v的中心性是他到其他頂點距離和的倒數。

cCl(v)=1uVdist(v,u)

Betweenness centrality 基於兩點來描述的中心性,其中

σ(s,t)表示的是節點s和t之間的最短路徑的數量,而σ(s,t|v)是最短路徑中經過節點v的數量

cB(v)=stvVσ(s,t|v)σ(s,t) cEi(v)=αu,vEcEi(u)
對於給定的圖 G:=(V,E) 同 V 頂點的數量 A=(av,t)是鄰接矩陣,即 av,t=1如果頂點v 連結到頂點t,和 av,t=0除此以外。頂點的相對中心性分數 v 可以定義為: xv=1λtM(v)xt=1λtGav,txtxv=1λtM(v)xt=1λtGav,txt Ax=λx
一般來說,將會有許多不同的特徵值 λ 為此存在非零特徵向量解。由於鄰接矩陣中的各項是非負的,因此Perron-Frobenius定理有一個唯一的最大特徵值,它是真實的和正的。這個最大的特徵值導致期望的中心性度量。所述的vth第 相關特徵向量的分量然後給出頂點的相對中心性分數v在網路中。特徵向量只被定義為一個公共因子,因此只有頂點的中心性比率被很好地定義。為了定義絕對分數,必須對特徵向量進行歸一化,例如使得所有頂點的總和為1或頂點總數n。功率迭代是許多特徵值演算法之一,可以用來找到這個主導特徵向量。此外,這可以被概括,使得在條目阿可以是代表連線強度的實數,如在一個隨機矩陣。

下面我們用空手道的資料來展示一下三種中心性;
degree
close
between
eigen

hub

auth

邊的描述

到目前為止所討論的所有處理都是對於頂點來說的,因為在實踐中最常見的問題是關於圖形頂點的重要性。但有些情況緊密的和邊緣聯絡在一起。比如,我們可能會問,在社交網路中,哪些聯絡最重要的是資訊或者謠言的傳播。在中心度之間的邊,通過給每條邊賦值,反應最短路徑的數量。我們繼續以空手道資料為例,檢查最大的三條邊,我們注意到成員20在溝通John和Mr Hi之間起了重要作用(管理者和教練)。

R
eb <- edge.betweenness(karate)
E(karate)[order(eb,decreasing = T)[1:3]]
[1] Actor 20--John A   Mr Hi   --Actor 20 Mr Hi   --Actor 32

網路凝聚力

在網路工作中,許多問題歸結為涉及網路工作內聚性的問題,即頂點的子集在多大程度上內聚(形象來說,就是粘在一起)。在社交網路中,你的朋友的朋友是否彼此之間也會成為朋友呢?細胞內的蛋白質集合是如何緊密結合在一起的?全球資訊網的頁面結構是否傾向於區分不同型別的內容?一個網際網路拓撲結構的那一部分似乎構成了’主幹’。

我們可以通過許多方式來定義網路內聚性。

子圖和統計

定義網路聚合的一種方法是通過對特定子圖的規範。這種子圖的典型例子是一個小團體。對各種大小的小團體的統計可以提供一些關於圖示結構的子圖。

各種各樣削弱了派系的概念存在。比如,一個擁有k-core圖G的是一個G的子圖,所有頂點的度都至少是k,並且沒有其他子圖遵循相同俄條件包含他。
核心的概念在視覺化中也別受歡迎,因為它提供了一種將網路分解為層的方法。這樣的分解可以以一種特別有效的方式組合在一個徑向佈局上。如下圖所示。
cores

相對頻率的密度和相關性

到目前為止所描述的網路內聚的特徵首先說明了一種預先指定的子結構概念,然後觀察它是否出現在圖G中,如果有,那麼接著觀察它在哪裡以及如何發生。一般說來,相對頻率的相關概念可以在各個地方來應用。

圖的密度是真實邊相對於潛在邊的頻率。比如,一個無自環沒有重邊的無向圖G,其中一個子圖H 的密度定義如下: