1. 程式人生 > >複雜網路和社會網路

複雜網路和社會網路

轉:http://www.techcn.com.cn/index.php?edition-view-152732-1

很好的入門介紹

關於複雜網路(complex network)和社會網路(social network)。

第一次從學術意義上接觸這兩個詞兒還是不久之前,也就是去年冬天的R會議上。已經記不得是誰的presentation裡面有一幅很經典的複雜網路的圖了(當時學到的東西太多了,很難一一拎清楚來源了。歡迎各位知情人士把圖扒翻出來給我),而後大家的話題也多多少少牽扯到複雜網路。

先澄清一下這兩個概念之間的區別:從我的理解來說,複雜網路更多的是一種數學工具,一種分析問題的方法。而社會網路則是一種概念和定義上的東西,是社會學研究的物件。現在社會學研究社會網路的時候會經常用到複雜網路的工具,這也是二者的結合點。簡而言之,複雜網路>社會網路。

或許社會網路中最著名的就是“六度分割理論”:

美國著名社會心理學家米爾格倫(Stanley Milgram)於20世紀60年代最先提出。“你和任何一個陌生人之間所間隔的人不會超過六個,也就是說,最多通過六個人你就能夠認識任何一個陌生 人。”

還有一個著名的“150法則”:

從歐洲發源的“赫特兄弟會”是一個自給自足的農民自發組織,這些組織在維持民風上發揮了重要作用。有趣的是,他 們有一個不成文的嚴格規定:每當聚居人數超過150人的規模,他們就把它變成兩個,再各自發展。“把 人群控制在150人以下似乎是管理人群的一個最佳和最有效的方式。”——150成為我們普遍公認的“我們可以與之保持社交關係的人數的最大值”。

我第一次對複雜網路有個感性的認識大概是大一的時候,當時雅虎中國出來一個很有趣兒的名人搜尋(當然現在很多網站都有了),然後我就泡在上面折騰了個把小時。

複雜網路從數學的角度看自然離不開“圖與網路分析”(插曲:我覺得運籌學是我學的最得心應手的數學課,幾乎不用證明多好啊,直觀的很容易理解,演算法上的東西比定義上的容易搞定得多)。不過這裡我們撇開數學不談,看看複雜網路的應用(原文在此):

研究所涉及的網路主要有:生命科學領域的各種網路(如細胞網路、蛋白質-蛋白質作用網路、蛋白質摺疊網路、神經網路、生態網路)、 Internet/WWW網路、社會網路,包括流行性疾病的傳播網路、科學家合作網路、人類性關係網路、語言學網路,等等;所使用的主要方法是數學上的圖論、物理學中的統計物理學方法和社會網路分析方法。

錢學森給出了複雜網路的一個較嚴格的定義:具有自組織、自相似、吸引子(網路的內聚傾向)、小世界(相互關係的數目可以很小但卻能夠連線世界的事實)、無標度中部分或全部性質的網路稱為複雜網路。

看來看去,社會網路無疑是複雜網路應用中最好觀測、最易直觀理解的例子。

之所以提起來這個話題,主要是前幾天無聊的時候翻了翻去年10月的一期《大眾軟體》,雖然其中《複雜網路——網路的科學》一文更多的是一種科普的角度來闡述複雜網路的概念,但是也並非沒有分析上的啟迪意義。複雜網路或許從數學工具的角度已經有比較成熟的框架和脈絡,但是真正應用到社會學中,又是另外一番天地。經濟學的研究現在特別討厭弄個假設然後找個數學家來解題,畢竟我們研究的是人類的行為。

記得R會議之後Mr Liu曾發給我一篇沃頓商學院倆教授寫的論文,原文載於Marketing Science,標題為New product diffusion with influences and imitators(謝謝tryshy訂正)。可能從商業的角度看這篇文章有著自己的市場營銷層面的價值,但是我感興趣的則是裡面利用的社會網路的分析方法。當時我是出於我理解中的微觀經濟學缺少一些人類行為層面的分析(我總覺得貝克爾在《人類行為的經濟分析》裡面只是分析了經濟因素而非把行為本身作為一個決定模型的因素),也想多瞭解一些behavior economics方面的東西。從某種程度上來說,群體的行為必然是個人行為的加總,只是這個不能簡簡單單的是一個線性加法,而有著更多的決定因素和巢狀關係。

對於群體行為,心理學和社會學瞭解的要比經濟學通透的多,他們的精華成果也頗為值得借鑑。我欲借複雜網路構建模型,卻奈何對其理解不足,怕造成災難性的錯誤,只得擱置。故而對於群體行為,即將撰寫的博文中只會涉及正態分佈和布朗運動,暫時放下複雜網路。或許有朝一日,對複雜網路的理解通透了之後,可以在兩者之間構建一個橋樑,或許能看到一番新的景象。

複雜網路與社會網回目錄

從最初的規則網路,之後的隨機網路,到近幾年的複雜網路,越來越多的關於網路的研究成果被髮掘並應用,為人們更深刻認識現實中的複雜系統,並對之進行控制或應用提供了有效幫助。現實世界中的很多系統都可以用複雜網路的形式來描述,這些複雜網路具有網路平均路徑長度較小、聚類係數較大、節點度分度服從冪律分佈等相同特性。近年來,複雜網路已逐漸成為研究複雜系統的一種重要方法,對複雜網路的研究正受到來自不同領域的越來越多的研究人員的關注,複雜網路已經成為一個跨學科的研究熱點。
社會網是一種複雜網路,反映了社會成員及其相互關係。通過對社會網的理論研究,嘗試挖掘隱藏在表面關係之下的隱性關係,可進行電子商務、資訊推薦等有益的應用。
1、複雜網路及其特點

複雜網路的定義及來源

現實世界中的許多系統都可以採用網路的形式來加以描述,可以將網路看作由節點和連線節點的邊組成的集合。通常用節點來表示現實系統中的個體,用邊表示個體間的某種關聯,有邊相連的兩個節點被稱作相鄰節點.有點相連的兩條邊被稱作相鄰邊。若網路中的邊具有方向性,稱為有向網路;反之.稱為無向網路。本書中未特別指明的網路為尤向網路。圖論中的圖與本書中的網路類似,圖是抽象化的網路,圖論中的方法可以用於解決複雜網路中的問題。
現實世界中的許多系統都可以利用網路圖進行描述。例如,如果用一個節點表示一個人,一條邊表示它所連線的兩個節點(即所表示的兩個人)之間的交往,就能構成反映人際關係的社會網路;如果用節點表示城市,用邊表示城市之間的鐵路,就能構建反應交通路線狀況的鐵路網;如果用節點表示物種,用邊表示從被捕食者指向捕食者的能量傳遞關係,就構成了食物鏈網;如果用節點表示協同團隊中的成員,邊表示知識在成員之間的傳播,就構成了知識流網。這樣的例子隨處可見,如Internet、World Wide Web、神經網路、代謝網路、分散式的血管網路等。研究網路的結構,並發現其內在共同特性,以便多個領域相互參考借鑑,是科學家們一‘直所關注的問題。
網路研究的初次嘗試可以追溯到1736年,瑞士數學家尤拉(Euler)在他的一篇論文中討論了哥尼斯堡七橋問題。在二百多年的發展過程中,網路理論的研究先後經歷了規則網路、隨機網路和複雜網路三個階段。在最初的—百多年裡,研究人員普遍認為真實系統各因素之間的關係可以用一些規則的結構表示,例如二維平面上的歐幾里得格子,它看起來像是格於襯衫上的花紋;又或者最近鄰環網,它容易讓人想到一群手牽著手圍著篝火跳圓圈舞的人們。1960年,數學家Erdos和Renyi提出了隨機圖理論,為構造網路提供了一種新的方法。在這種方法中,兩個節點之間是否有邊連線不再是確定的事情,而是根據一個概率決定,這樣生成的網路稱作隨機網路。隨機圖的思想主宰複雜網路研究長達四十年之久,直到近幾年,科學家們對大量的現實網路的實際資料進行計算研究後得到的許多結果,既不是規則網路,也不是隨機網路,而是具有與前兩者皆不同的統計特徵的網路。這樣的一•些網路稱為複雜網路,對於複雜網路的研究標誌著網路研究的第三階段的到來。由Watts和Strogatz於1998年提出的WS小世界網路模型,刻畫了現實世界中的網路所具有的大的凝聚係數和短的平均路徑長度的小世界特性。1999年,Barabasi和Albert提出的無尺度網路模型,刻畫了實際網路中普遍存在的“富者更富”的現象。小世界網路和無尺度網路的發現掀起了複雜網路的研究熱潮。
2、複雜網路的特徵及度量
(一)平均路徑長度與小世界現象
在網路研究中,如果網路中的兩個節點可以通過一些首尾相連的邊連線起來,則稱這兩個節點是可達的,並把連線兩者的路徑中邊數最少的路徑稱為最短路徑,最短路徑的邊數稱為兩個節點之間的距離。顯然兩個點之間的距離總是比網路擁有的節點總數要小。網路的直徑定義為網路中任意兩個節點間的最大距離。把所有節點對的距離進行平均,就得到了網路的平均距離,它描述了網路中節點間的分離程度,即網路的大小或尺寸。
“小世界現象”源於社會心理學家Stanley Milgram在20世紀60年代所做的試驗。他要求從奧馬哈市(()maha)隨機選取的300人嘗試寄一封信給波士頓市(Boston)的一位證券業務員,寄信的規則是每個參與者只能轉發
給一個他們認識的人。直覺告訴我們,從茫茫人海中找到一條相續認識的鏈,把最初的寄信人跟目標業務員連線起來,應該會費盡周折。然而,實驗結果表明:完整的鏈的平均長度為6個人。
小世界特性容易使人聯想起疾病、謠言、或資料在網路中的傳播或傳輸問題,這些問題很多時候恰恰是很關鍵的問題。除了具有平均最短距離較小以外,小世界網路還要具有高聚集性,同時具有這兩個方面特性的網路才可以被稱為是小世界的。實驗結果說明,在以細胞中的化學物質為節點、化學反應關係為邊構成的網路中,節點之間的典型間隔為3;在以好萊塢演員作為節點、同在一部電影中出演作為邊的網路中,演員之間的平均間隔為3;在具有153127個節點的全球資訊網(World Wide Web)中,節點之間的平均路徑長度為3.1。另外,ErdOs和R~nyi已經證明,經典的隨機網路中,任何兩個節點間的典型距離為網路節點數的對數數量級,所以也具有小世界的特點。
(二)聚類係數與聚集性
在一個社會網路中,一個人的朋友的朋友可能也是他的朋友,或者他的兩個朋友可能彼此也是朋友。聚集性用於描述這類可能性的程度,即,網路有多緊密。聚集性表達了網路連線的聚集程度。
通常用聚類係數(Cluster Coefficient)來描述網路中節點的聚集情況,其定義為:假設節點i與其他k;個節點相連線,如果這ki個節點都相互連線,它們之間應該存在是;ki(ki一1)/2條邊,而這是;個節點之間實際存在的邊數只有Ei的話,則它與是;ki(ki一1)/2之比就是節點i的聚類係數。

相應的計算公式為:

  顯然聚類係數表達了節點的緊鄰之間也是緊鄰的程度。所有節點的聚類係數的平均值稱為平均聚類係數C或整個網路的聚類係數。其中N為節點總數。


平均聚類係數也是複雜網路中的一個重要的全域性幾何量,在全連通網路(每個節點都與其餘所有的節點相連線)中,聚類係數才能等於1,其他情況均小於1。對於隨機網路,則有C=p,p為節點間的連線概率。Watts和Strogatz首先指出,許多實際網路的聚集係數遠大於具有相同節點數和邊數的隨機網路。也就是說,許多實際網路趨於具有集團的特性,就像人的社會關係網路一樣。這個定義被廣泛使用,在社會學領域常稱為網路密度。
(三)度和度分佈
節點的度(Degree)是網路研究中的一個重要概念,是描述網路區域性特性的基本引數。在N個節點的網路中,任意一個節點i的度ki等於與該節點相連的其他節點的數目(連線數)。若網路的鄰接矩陣為A=[aii)N*N,則節點i的度為:

在有向網路中,節點的度分為出度(Out-degree)和人度(In-degree)。節點的出度,是指從該節點指向其他節點的邊的數目;節點的人度,是指從其他節點指向該節點的邊的數目。度用於描述網路節點連線數目的分佈情況。直觀上看,一個節點的度越大,表明其在網路拓撲中的地位越重要。事實上度在不同的網路中含義不同。如,社會網路中,度可以表示個體的影響力和重要程度,度越大的個體,其影響力就越大,在整個組織中的作用也就越大;反之亦然。
節點的平均度是指所有節點的度的平均值,用符號<k> 表示。

度分佈(Degree distributions)是對節點的度的規律的一種描述,通常用度分佈函式P(K)表示任意選擇一個網路節點,其度恰好為是的概率。其值等於網路中度為是的節點的個數佔網絡節點總個數的比值。由於連線的隨機性,隨機網路的所有節點的度應該接近網路的平均度<K>。隨機網路的度分佈為二項分佈(Binomial)或大規模極限下的泊松分佈(Poisson Distri—
bution),其峰值為<k>,在遠離峰值處呈指數下降。在無尺度網路中,如論文引用網路、WWW、Internet、代謝網路,電話呼叫網路和人之性關係網路等,其度分佈都呈一種冪律分佈(Power-law Distribution),也就是分佈函式的形式為P(k)~K—y,其中Y一般介於2~3之間。
同時研究者也發現,在非泊松度分佈的真實網路中,除了冪律分佈外,還存在其他形式的度分佈。如電力網路的度分佈服從指數分佈,在單對數座標系下是一條下降的直線;也存在冪律加指數截斷(Cutoff)的度分佈的網路,如電影演員合作網路以及蛋白質相互作用網路。
(四)度和聚類係數之間的相關性/選型連線性(Assorta—tiveness)
網路中度和聚類係數之間的相關性被用來描述不同網路結構之間的差異,包括兩方面內容:節點的度相關性和節點度分佈與其聚類係數之間的相關性。前者也稱為網路選型連線性(或選型相關性),指的是網路中與高度數(或低度數)節點相連線的節點的度數偏向於高還是低。若連線度大的節點趨向於和其他連線度大的節點連線,則認為網路呈現協調混合;若連線度大的節點趨向於和其他連線度小的節點連線,則認為網路呈現非協調混合。
研究中常用相關係數來描述網路的選型連線性。

相關係數的定義為:式中,ji,ki為與第i條邊關聯的兩個節點的度;c=1/m,m是網路中邊的條數。實際的網路的選型連線性有一些呈現協調混合(T>o),一些呈現非協調混合(T<o)。如,社會網路(演員合作網路、公司董事網路、電子郵箱網路)中節點具有正的度的相關性,而節點度分佈與其聚類係數之間卻具有負的相關性。其他型別的網路(資訊網路、技術網路、生物網路)則
相反。因此,這兩種相關性也被認為是社會網路區別於其他型別網路的重要特徵,在社會網路的研究中引起了人們的高度重視。
(五)網路健壯性(Robustness)/網路彈性
許多實際複雜系統表現出驚人的容錯能力,這引起研究者的廣泛關注。舉例來說,複雜的通訊網路呈現高度的健壯性,常規的區域性失效及關鍵部件的故障很少會導致網路的整體資訊承載傳送能力的喪失,這種網路的穩定性常被人們歸因於網路的冗餘連線。但是除了冗餘之外,網路的拓撲是否對其穩定與健壯性有一定作用呢?網路對部件失效或者連線失敗的抗拒能力稱為網路的健壯性或者恢復力(Resilience)。
網路的功能依賴其節點的連通性,即,依賴於節點間存在的路徑。網路節點的刪除對網路連通性的影響稱為網路彈性,其分析方式有兩種:隨機刪除和有選擇的刪除,分別稱為網路的健壯性分析和網路的脆弱性分析。Albert和Barabasi對度分佈服從指數分佈的隨機網路模型和度分佈服從冪律分佈的無尺度網路進行了研究,結果顯示:隨機刪除節點基本上不影響無尺度網路的平均路徑長度,即對隨機節點的刪除具有高度彈性;相反,有選擇的刪除度數最大的節點時,無尺度網路的平均路徑長度較隨機網路的增長快得多。這表明,無尺度網路相對隨機網路具有較強的魯棒性和易受攻擊性。
出現上述現象的原因在於:冪律分佈網路中存在的少數具有很大度數的節點,它們在網路連通中扮演著關鍵角色,一般也稱它們為Hub節點。
(六)介數/居間中心性(Betweenness Centrality,BC)
介數分為邊介數和節點介數,節點的介數為網路中所有的最短路徑中經過該節點的數量比例。節點K的介數定義為:



式中,Ck(I,j)表示節點i和j 之間最短路徑中經過節點k的次數;Ck(I,j)則表示i和j之間最短路徑的總數目。
介數反映了相應的節點或者邊在整個網路中的作用和影響力,具有很強的現實意義。社會學中常用這個指標描述指定的人在社會中的影響力,介數在社會關係網路或技術網路中的分佈特徵反映了不同人員、資源和技術在相應社會關係或生成關係中的地位,這對於在網路中發現和保護關鍵資源和技術具有重要意義。
邊的介數與節點介數的含義類似,是指網路中所有的最短路徑中經過該邊的數量比例,多應用於網路中的社群結構的識別,這方面的內容將在第三章給出詳細介紹。
二、複雜網路模型
真實網路所表現出來的小世界特性、無尺度冪律分佈或高聚集度等現象促使人們從理論上構造出多樣的網路模型,以解釋這些統計特性,探索形成這些網路的演化機制。本節介紹了幾個經典網路模型的原理和構造方法,包括ER隨機網路模型、BA無尺度網路模型和小世界模型。
1、ER隨機網路模型
ErdOs-Renyi隨機網路模型(簡稱ER隨機網路模型)是匈牙利數學家Erdos和Renyi提出的一種網路模型。1959年,為了描述通訊和生命科學中的網路,Erdos和Renyi提出,通過在網路節點間隨機地佈置連線,就可以有效地模擬出這類系統。這種方法及相關定理的簡明扼要,導致了圖論研究的復興,數學界也因此出現了研究隨機網路的新領域。ER隨機網路模型在電腦科學、統計物理、生命科學、通訊工程等領域都得到了廣泛應用。
ER隨機網路模型是個機會均等的網路模型。在該網路模型中,給定一定數目的個體(節點),它和其他任意一個個體(節點)之間有相互關係(連線)的概率相同,記為戶。因為一個節點連線k個其他節點的概率,會隨著k值的增大而呈指數遞減。這樣,如果定義是為每個個體所連線的其他個體的數目,可以知道連線概率p(k)服從鐘形的泊松(Poisson)分佈,有時隨機網路也稱作指數網路。
隨機網路理論有一項重要預測:儘管連線是隨機安置的,但由此形成的網路卻是高度民主的,也就是說,絕大部分節點的連線數目會大致相同。實際上,隨機網路中連線數目比平均數高許多或低許多的節點,都十分罕見。
在過去40多年裡,科學家習慣於將所有複雜網路都看作是隨機網路。在1998年研究描繪全球資訊網(以網頁為節點、以超級連結為邊)的專案時,學者們原以為會發現一個隨機網路:人們會根據自己的興趣,來決定將網路檔案連結到哪些網站,而個人興趣是多種多樣的,可選擇的網頁數量也極其龐大,因而最終的連結模式將呈現出相當隨機的結果。
然而,事實並非如此。因為在全球資訊網上,並非所有的節點都是平等的。在選擇將網頁連結到何處時,人們可以從數十億個網站中進行選擇。然而,我們中的大部分人只熟悉整個全球資訊網的一小部分,這一小部分中往往包含那些擁有較多連結的站點,因為這樣的站點更容易為人所知。只要連結到這些站點,就等於造就或加強了對它們的偏好。這種“擇優連線(Preferential Attachment)”的過程,也發生在其他網路中。在Internet上,那些具有較多連線的路由器通常也擁有更大的頻寬,因而新使用者就更傾向於連線到這些路由器上。在美國的生物技術產業內,某些知名公司更容易吸引到同盟者,而這又進一步加強了它在未來合作中的吸引力。類似地,在論文引用網路(論文為節點,引用關係為邊)中,被引用次數較多的科學文獻,會吸引更多的研究者去閱讀並引用它。針對這些網路的“擇優連線”的新特性,學者提出了BA無尺度網路模型。
2、BA無尺度網路模型
無尺度網路的發現,使人類對於複雜網路的認識進入了一個新的天地。無尺度網路的最主要特徵是節點的度分佈服從冪次定律。BA模型是無尺度網路(Scale-free Network)的第一個抽象模型。由於考慮了系統的成長性(Growth)和擇優連線性,BA模型給我們帶來了很多啟發,並且可以應用於多種實際網路。但是BA模型的兩個基本假定,對於解釋許多現實中的現象來說過於簡單,與現實的網路還有較大的距離。有學者試圖對BA模型進行擴充套件,即根據現實中的網路,增添某些假定,以便進一步探索複雜網路系統的規律。對BA模型的擴充可以考慮三個因素:擇優選擇的成本、邊的重新連線、網路的初始狀態。擴充的BA模型可以更好地模擬現實世界中的網路現象。
(一)無尺度網路
1999年,丸Barabasi和兄Albert在對網際網路的研究中發現了無尺度網路,使人類對於複雜網路系統有了全新的認識。過去,人們習慣於將所有複雜網路看作是隨機網路,但Barabasi和Albert發現網際網路實際上是由少數高連線性的頁面組織起來的,80%以上頁面的連結數不到4個。只佔節點總數不到萬分之一的極少數節點,卻有1000個以上的連結。這種網頁的連結分佈遵循所謂的“冪次定律”:任何一個節點擁有是條連線的概率,與1/k成正比。它不像鐘形曲線那樣具有一個集中度很高的峰值,而是一條連續遞減的曲線。如果取雙對數座標系來描述冪次定律,得到的是一條直線。Scale-free網路指的是節點的度分佈符合冪律分佈的網路,由於其缺乏一個描述問題的特徵尺度而被稱為無尺度網路。其後的幾年中,研究者們在許多不同的領域中都發現了無尺度網路。從生態系統到人際關係,從食物鏈到代謝系統,處處可以看到無尺度網路。

圖1—1描述了一個隨機網路和無尺度網路的例子:美國公路系統為典型
的隨機網路(上圖),其節點間的連線服從鐘形的泊松分佈;

美國航空網則是典型的無尺度網路(右上圖),存在少數擁有大量連線的集散節點,而大多數節點擁有較少連線,其節點連線數服從冪次定律分佈。
(二)BA模型及其機制
為什麼隨機模型與實際不相符合呢?Barabasi和Albert在深入分析了ER模型之後,發現問題在於ER模型討論的網路是一個既定規模的,不會繼續擴充套件的網路。正是由於現實當中的網路往往具有不斷成長的特性,早進入的節點(老節點)獲得連線的概率就更大。當網路擴張到一定規模以後,這些老節點很容易成為擁有大量連線的集散節點。這就是網路的“成長性”。
其次,ER模型中每個節點與其他節點連線時,建立連線的概率是相同的。也就是說,網路當中所有的節點都是平等的。這一情況與實際也不相符。例如,新成立的網站選擇與其他網站連結時,自然是在人們所熟知的網站中選擇一個進行連結,新的個人主頁上的超文字連結更有可能指向新浪、雅虎等著名的站點。由此,那些熟知的網站將獲得更多的連結,這種特性稱為“擇優連線”。這種現象也稱為“馬太效應(Matthew Effect)”或“富者更富
(Rich Get Richer)”。
“成長性”和“擇優連線”這兩種機制解釋了網路當中集散節點的存在。



(三)BA模型的改進方向
BA無尺度模型的關鍵在於,它把實際複雜網路的無尺度特性歸結為增長和優先連線這兩個非常簡單的機制。當然,這也不可避免地使得BA無尺度網路模型和真實網路相比存在一些明顯的限制。比如,一些實際網路的局域特性對網路演化結果的影響、外界對網路節點及其連線邊刪除的影響等。
一般自然的或者人造的現實網路與外界之間有節點交換,節點間連線也在不斷變化,網路自身具有一定的自組織能力,會對自身或者外界的變化作出相應的反應。因此,在BA模型基礎上,可以把模型的動力學過程進行推廣,包括對網路中已有節點或者連線的隨機刪除及其相應的連線補償機制。
對每一個時間步長,考慮如下三種假設:
(1)成長假設:一個帶有m個擇優連線的新節點加入網路,這個新節點選擇網路中m個節點,即對於每一個連線,一個度為是的節點作為目標
被選擇的概率正比於k;
(2)刪除假設:考慮網路中若干個節點,這些節點與其他節點之間的連線邊被隨機地選作目標邊而被刪除,導致網路的演化;
(3)補償假設:網路中失去一個連線,同時產生n個連線進行補償,其中”有上確界,是一個受網路補償能力限制的量,這裡的補償連線所選擇的目標節點也遵循擇優連線原則。
利用以上三種假設,很多學者已經對BA模型進行了有效的改進,讀者可參考相關文獻,此處不再詳述。
三、小世界網路模型
複雜網路研究中一個重要的發現是絕大多數大規模真實網路的平均路徑長度比想象的小得多,稱之為“小世界現象”,或稱“六度分離(Six Degrees of Separation)”。所謂小世界現象,是來自社會網路(Social Networks)中的基本現象,即每個人只需要很少的中間人(平均6個)就可以和全世界的人建立起聯絡。在這一理論中,每個人可看作是網路的一個節點,並有大量路徑連線著他們,相連線的節點表示互相認識的人。
1998年,Watts和Strogatz引入了一個介於規則網路和完全隨機網路之間的單引數小世界網路模型,稱為WS小世界模型,該模型較好地體現了社會網路的小平均路徑長度和大聚類係數兩種現象。
WS小世界模型的構造方法如下:
(1)從規則圖開始,考慮一個含有N個節點的規則網路,它們圈成一個環,其中每個節點都與它左右相鄰的各K/2個節點相連線,K為偶數;
(2)隨機化重連,以概率戶隨機地重新連線網路中的每條邊(將邊的一個端點保持不變,而另一個端點取為網路中隨機選擇的一個節點),其中規定,任意兩個不同的節點之間至多隻能有一條邊,並且每一個節點都不能有邊與其自身相連。
圖1—2表示了小世界網路的構造以及它與規則網路、隨機網路的關係。在WS小世界模型中,p=0對應於規則網路,p=l則對應於完全隨機網路,通過調節聲的值就可以控制從規則網路到完全隨機圖的過渡。因此,WS小世界網路是介於規則網路和隨機網路之間的一種網路。


圖1—2 小世界網路的構造及與規則網路和隨機網路的關係

WS小世界模型構造演算法中的隨機化過程有可能破壞網路的連通性。因此,Newman和Watts稍後提出了NW小世界模型。NW小世界模型的構造方法如下:
(1)從規則圖開始,考慮一個含有N個點的規則網路,它們圈成一個環,其中每個節點都與它左右的相鄰的各K/2節點相連,K是偶數;
(2)隨機化加邊,以概率p隨機選取的一對節點之間加上一條邊。其中規定,任意兩個不同的節點之間至多隻能有一條邊,並且每一個節點都不能有邊與自身相連。
NW模型只是將WS小世界模型構造中的“隨機化重連”改為“隨機化加邊”。圖1—3顯示了WS小世界模型與NW小世界模型的構造區別,其中
圖1—3(a)是WS小世界模型的構造,圖l—3(b)是NW小世界模型的構造。NW模型不同於WS模型之處在於它不切斷規則網路中的原始邊,而是以概率p重新連線一對節點。這樣構造出來的網路同時具有大的聚類數和小的平均距離。NW模型的優點在於其簡化了理論分析,因為WS模型可能存在孤立節點,但NW模型不會。當戶足夠小和N足夠大時,NW小世界模型本質上就等同於WS小世界模型。



小世界網路模型反映了實際網路所具有的一些特性,例如朋友關係網,大部分人的朋友都是和他們住在同一個地方,其地理位置不是很遠,或只在同一單位工作或學習的同事和同學。另一方面,也有些人住得較遠的,甚至是遠在異國他鄉的朋友,這種情形好比WS小世界模型中通過重新連線或在NW小世界模型中通過加入連線產生的遠端連線。
小世界網路模型的主要特徵之一是節點之間的平均距離隨遠端連線的個數而指數下降。對於規則網路,平均距離L可估計為L正比於N;而對於小世界網路模型,L正比於ln(N)/1n(K)。例如,對於一個千萬人口的城市,人與人的平均接觸距離是6左右,這使得生活人群之間的距離大大縮短。該模型由一個規則的環組成,通常是一個一維的幾乎具有周期性邊界條件的環(即環中每個節點幾乎都連線到一固定數目的鄰近節點)和少量的隨機選取節點連線成的“捷徑” (重新連線現存的邊)。小世界網路同時具有“高網路聚集度”和“低平均路徑”的特性。
從小世界網路模型中可以看到,只要改變很少的幾個連線,就可以劇烈的改變網路的效能。這樣的性質也可以應用其他網路,尤其是對已有網路的調整方面。例如,蜂窩電話網,改動很少幾條線路(低成本、低工作量)的連線,就可以顯著提高效能。也可以應用到網際網路的主幹路由器上,以改變流量和提高傳輸速度。同樣的思路也可以應用到電子郵件的快速傳遞、特定Web站點的定位等。
三、 社會網路及其分析方法
社會網路
“社會網路”指的是社會成員及其相互關係的集合。社會網路中所說的“點”是各個社會成員,而社會網路中的“邊”指的是成員之間的各種社會關係。成員間的關係可以是有向的,也可以是無向的。同時,社會關係可以表現為多種形式,如人與人之間的朋友關係、上下級關係、科研合作關係等,組織成員之間的溝通關係,國家之間的貿易關係等。社會網路分析(Social Network Analysis)就是要對社會網路中行為者之間的關係進行量化研究,是社會網路理論中的一個具體工具。
社會網路通常表達人類的個體通過各種關係連線起來,比如朋友、婚姻、商業等,這些連線巨集觀上呈現出一定的模式。很早的時候,一些社會學家開始關注人們交往的模式。Ebel等進行了一個電子郵件版的小世界問題的實驗,完成了Kiel大學的5000個學生的112天電子郵件連線資料,節點為電子郵件地址,連線為訊息的傳遞,得到帶指數截斷的冪律度分佈,指數為r=1.18。同時證明,該網路是小世界的,平均分隔為4.94。
分析方法
(一)中心性分析
“中心性”是社會網路分析的重點之一,用於分析個人或組織在其社會網路中具有怎樣的權力,或者說居於怎樣的中心地位,這一思想是社會網路分析者最早探討的內容之一。
個體的中心度(Centrality)測量個體處於網路中心的程度,反映了該點在網路中的重要性程度。網路中每個個體都有一箇中心度,刻畫了個體特性。除了計算網路中個體的中心度外,還可以計算整個網路的集中趨勢(可簡稱為中心勢,Centralization)。網路中心勢刻畫的是整個網路中各個點的差異性程度,一個網路只有一箇中心勢。根據計算方法的不同,中心度和中心勢都可以分為3種:點度中心度/點度中心勢,中間中心度/中間中心勢,
接近中心度/接近中心勢。
1.點度中心性
在一個社會網路中,如果一個個體與其他個體之間存在大量的直接聯絡,那麼該個體就居於中心地位,在該網路中擁有較大的“權力”。在這種思想的指導下,網路中一個點的點度中心性就可以用網路中與該點之間有聯絡的點的數目來衡量,這就是點度中心度。
網路中心勢指的是網路中點的集中趨勢,其計算依據如下步驟:首先找到圖中的最大點度中心度的數值,然後計算該值與任何其他點的中心度的差值,再計算這些“差值”的總和,最後用這個總和除以各個“差值”總和的最大可能值。
2.中間中心性
在網路中,如果一個個體位於許多其他兩個個體之間的路徑上,可以認為該個體居於重要地位,因為他具有控制其他兩個個體之間的交往能力,這種特性用中間中心度描述,它測量的是個體對資源控制的程度。一個個體在網路中佔據這樣的位置越多,代表它具有很高的中間中心性,就有越多的個體需要通過它才能發生聯絡。
中間中心勢定義為網路中中間中心性最高的節點的中間中心性與其他節點的中間中心性的差距,用於分析網路整體結構。中間中心勢越高,表示該網路中的節點可能分為多個小團體,而且過於依賴某一個節點傳遞關係,說明該節點在網路中處於極其重要的地位。
3.接近中心性
接近中心性用來描述網路中的個體不受他人“控制”的能力。在計算接近中心度的時候,我們關注的是捷徑,而不是直接關係。如果一個點通過比較短的路徑與許多其他點相連,我們就說該點具有較高的接近中心性。
對一個社會網路來說,接近中心勢越高,表明網路中節點的差異性越大;反之,則表明網路中節點間的差異越小。
(二)凝聚子群分析
1、凝聚子群
當網路中某些個體之間的關係特別緊密,以至於結合成一個次級團體時,這樣的團體在社會網路分析中被稱為凝聚子群。分析網路中存在多少個這樣的子群,子群內部成員之間關係的特點,子群之間關係特點,一個子群的成員與另一個子群成員之間的關係特點等就是凝聚子群分析。由於凝聚子群成員之間的關係十分緊密,因此有的學者也將凝聚子群分析形象地稱為“小團體分析”或“社群現象”,其定義和發現方法將在本書下面章節中詳細介紹。
2.凝聚子群密度
凝聚子群密度(External-Internallndex,E-IIndex)主要用來衡量一個大的網路中小團體現象是否十分嚴重,在分析組織管理等問題時非常有效。
最差的情形是大團體很散漫,核心小團體卻有高度內聚力。另外一種情況是,大團體中有許多內聚力很高的小團體,很可能就會出現小團體間相互鬥爭的現象。凝聚子群密度的取值範圍為[-1,+1]。該值越向1靠近,意味著派系林立的程度越大;該值越接近-1,意味著派系林立的程度越小;該值越接近0,表明關係越趨向於隨機分佈,未出現派系林立的情形。
E-I Index可以說是企業管理者的一個重要的危機指數。當一個企業的E-I Index過高時,就表示該企業中的小團體有可能結合緊密而開始圖謀小團體私利,從而傷害到整個企業的利益。其實E-I Index不僅僅可以應用到企業管理領域,也可以應用到其他領域,比如用來研究某一學科領域學者之間的關係。如果該網路存在凝聚子群,並且凝聚子群的密度較高,說明處於這個凝聚子群內部的這部分學者之間聯絡緊密,在資訊分享和科研合作方面交往頻繁,而處於子群外部的成員則不能得到足夠的資訊和科研合作機會。從一定程度上來說,這種情況也是不利於該學科領域發展的。
3.核心-緣結構分析
核心-邊緣(Core-Periphery)結構分析的目的是研究社會網路中哪些節點處於核心地位,哪些節點處於邊緣地位。核心-邊緣結構分析具有較廣的應用性,可用於分析精英網路、論文引用關係網路以及組織關係網路等多種社會現象。
根據關係資料的型別(定類資料和定比資料),核心—邊緣結構有不同的形式。定類資料和定比資料是統計學中的基本概念,一般來說,定類資料是用類別來表示的,通常用數字表示這些類別,但是這些數值不能用來進行數學計算;定比資料是用數值來表示的,可以用來進行數學計算。如果資料是定類資料,可以構建離散的核心-邊緣模型;如果資料是定比資料,可以構建連續的核心-邊緣模型。離散的核心-邊緣模型,根據核心成員和邊緣成員之間關係的有無及緊密程度,又可分為3種:核心-邊緣全關聯模型、核心-邊緣區域性關聯模型、核心-邊緣關係缺失模型。
如果把核心和邊緣之間的關係看成是缺失值,就構成了核心-邊緣關係缺失模型。這裡介紹適用於定類資料的4種離散的核心-邊緣模型。

(1)核心-邊緣全關聯模型。網路中的所有節點分為兩組,其中一組的成員之間聯絡緊密,可以看成是一個凝聚子群(核心),另外一組的成員之間沒有聯絡,但該組成員與核心組的所有成員之間都存在關係。
(2)核心-邊緣無關模型。網路中的所有節點分為兩組,其中一組的成員之間聯絡緊密,可以看成是一個凝聚子群(核心),而另外一組成員之間則沒有任何聯絡,並且同核心組成員之間也沒有聯絡。
(3)核心-邊緣區域性關聯模型。網路中的所有節點分為兩組,其中一組的成員之間聯絡緊密,可以看成是一個凝聚子群(核心),而另外一組成員之間則沒有任何聯絡,但是它們同核心組的部分成員之間存在聯絡。
(4)核心-邊緣關係缺失模型。網路中的所有節點分為兩組,其中一組的成員之間的密度達到最大值,可以看成是一個凝聚子群(核心),另外一組成員之間的密度達到最小值,但是並不考慮這兩組成員之間關係密度,而是把它看作缺失值。