1. 程式人生 > >一種面向高維資料的整合聚類演算法

一種面向高維資料的整合聚類演算法

聚類整合已經成為機器學習的研究熱點,它對原始資料集的多個聚類結果進行學習和整合,得到一個能較好地反映資料集內在結構的資料劃分。很多學者的研究證明聚類整合能有效地提高聚類結果的準確性、魯棒性和穩定性。本文提出了一種面向高維資料的聚類整合演算法。該方法針對高維資料的特點,先用分層抽樣的方法結合資訊增益對每個特徵簇選擇合適數量比較重要的特徵的生成新的具代表意義的資料子集,然後用基於連結的方法對資料子集上生成的聚類結果進行整合.最後在文字、影象、基因資料集上進行實驗,結果表明,與整合前的K均值聚類演算法及基於連結的聚類整合演算法相比,該方法能有效的改善聚類結果。

引 言

聚類分析又稱群分析,是根據“物以類聚”的道理對樣品或指標進行分類的一種多元統計分析方法。它是一個將資料分到不同類或者簇的過程,所以同一個簇中的物件有很大的相似性,而不同簇間的物件有很大的相異性。聚類分析是機器學習、模式識別的一個最重要的研究方向之一,它是瞭解資料集的結構的一種最重要的手段,並已經成功的應用於資料探勘、資訊檢索、語音識別、推薦系統等領域。

現實世界中的資料集具有各種形狀和結構,不存在哪一種單一的演算法對任何資料集都表現的很好[3],沒有一種聚類演算法能準確揭示各種資料集所呈現出來的多種多樣的形狀和簇結構,每一種聚類演算法都有其優缺點,對於任何給定的資料集,使用不同的演算法都會有不同的結果,甚至對於同一種演算法給定不同的引數都會有不同的聚類結果,自然分組概念內在的不明確性決定了沒有一個通用的聚類演算法能適用於任何資料集的聚類問題。此外,類存在多樣性的特點,類具有不同的形狀、大小、密度,而且類之間往往是相互重疊的,這樣的問題在高維資料中更加明顯,因為不相關的或者冗餘的特徵會使類的結構更加不明顯。K均值演算法[5]是一種應用廣泛的最經典的聚類演算法之一,它的特點之一就是隨機選取初始的聚類中心,如果選取的中心點不同,聚類結果就可能產生很大的差異。K均值聚類演算法對初始中心點的依賴性,導致K均值演算法的聚類結果不穩定。在這種情況下,聚類整合應運而生,許多學者在這個領域進行了深入的研究。

聚類整合的目的在於結合不同聚類演算法的結果得到比單個聚類演算法更優的聚類。對聚類集體中的成員聚類的問題成為一致性函式問題,或叫做整合問題。很多學者證實通過聚類整合可以有效的提高像K均值聚類這些單一聚類演算法的準確性、魯棒性和穩定性.在現有的研究中,產生基聚類結果的方法有:

(1)使用同一種聚類演算法,每次執行使用不同的引數和隨機初始化;

(2)使用不同的聚類演算法,如K均值產生多個不同的聚類;

(3)對資料集的子集聚類,子集通過不同取樣像bagging、Sub-sampling等方法獲得;

(4) 在資料集的不同特徵子集或在資料集的不同子空間的投影上聚類得到不同聚類結果構成聚類集體。我們的方法主要是對第四種聚類整合問題進行了深入研究,在資料集的不同子集上進行整合分析。對於高維資料來說,資料點為單位劃分仍存在維數災難的問題,維數災難可能會引發這種現象,一個給定資料點與離它最近點的距離比與離它最遠的資料點的距離近,所以我們引入同樣的資料點但基於不同的特徵子集就可能會避免這種問題。生成基聚類結果以後就是設計一致性函式對聚類結果整合,就是將聚類成員進行合併,得到一個統一的聚類結果。目前存在很多一致性函式,常用的有投票法、超圖劃分、基於共協矩陣的證據積累、概率積累等等,我們在文章中用了文獻[1]中的方法,它是一種基於連結的方法。常規的整合方法往往基於一個由基聚類結果即這些資料基聚類結果內部的關係生成,忽略了這些結果之間的關係,所以Iam-on等利用簇之間的相似度來精煉整合資訊矩陣。在高維資料中,我們將資料集的區域性特徵子集用作聚類成員與基於連結的整合聚類方法有效結合,解決了高維資料進行整合聚類的問題。

本文組織如下:第2節對聚類整合做了一個概述,並針對於高維資料這一特殊資料集提出了自己的整合聚類方法。第3節是本文的核心部分,它講述了對特徵進行分層抽樣,並基於資訊增益抽取出比較重要的具有代表意義的區域性特徵子集的過程,此外對傳統的K均值演算法的具體過程進行了簡要的描述,然後引出了分層抽樣的概念,用分層抽樣的思想確定我們選擇的特徵的數目,最後給出了資訊增益的定義,通過這個指標最終確定我們在每一個聚類簇中選擇的特徵;最後把我們前面的工作抽取區域性特徵子集與基於連結的方法結合起來形成了自己的演算法描述;第4節首先對8個實際資料集包括文字、影象、基因資料進行描述,然後在這八個資料集上比較和分析了我們的方法(SSLB)和傳統K均值演算法和基於連結的聚類整合演算法(LB)在四個聚類評價標準上的聚類效能;第5節是對全文的總結。

相關工作

聚類整合概述

聚類分析是按照某種相似性測度將多維資料分割成自然分組或簇的過程。 聚類演算法很多,但是沒有一個萬能的聚類演算法能用於任何聚類問題,其原因在自然分組概念的內在不明確性以及類可以有不同的形狀、大小、密度等,這個在高維資料中的問題更為明顯,那些不相關的特徵和冗餘的特徵會使類結構更加模糊。單個聚類存在的這些問題,引發了學者們對聚類整合的研究。首先由Strehl[12]等人提出”聚類整合”的概念,而後Gionis[13]等人也給出該問題的描述。楊草原等給聚類整合下了一個定義,認為聚類整合就是利用經過選擇的多個聚類結果找到一個新的資料(或物件)劃分,這個劃分在最大程度上共享了所有輸入的聚類結果對資料或物件集的聚類資訊。

聚類整合的符號化形式為:假設資料集X有n個例項,X={x1,x2,…,xn},首先對資料集X使用M次聚類演算法,得到M個聚類,={1,2,…,M}(下面稱為聚類成員),其中i(i=1,2,…,M)為第i次聚類演算法得到的聚類結果。然後用一致性函式T對的聚類結果進行整合得到一個新的資料劃分’[1].

摘 要




圖1聚類整合的基本過程。首先對資料集使用不同的聚類演算法得到不同的劃分,然後對這些劃分用一致性函式合併為一個聚類結果P’

由上面的聚類整合過程可知,對一個數據集進行聚類整合,主要有兩個階段,第一個階段是基聚類器對原始資料進行聚類,得到基聚類結果。第二個階段是基聚類結果整合,根據聚類整合演算法對前一個階段採集的基聚類結果進行處理,使之能夠最大限度地分享這些結果,從而得到一個對原始資料最好的聚類整合結果。

面向高維資料的整合聚類

資訊時代網際網路成為最大的資訊聚集地,像Web文件、交易資料、基因表達資料、使用者評分資料等等,這些成為聚類分析的主要研究物件,而這些資料的維度成千上萬,甚至更高,這給聚類分析帶來了極大的挑戰。高維資料的聚類整合面臨更多的問題。

傳統的整合學習的第一步是產生多個基聚類結果,這一階段是對資料集或者其子集反覆進行聚類演算法。現有的方法主要有:使用一個聚類演算法,每次執行設定不同的引數和隨機初始化;使用不同的聚類演算法;對資料集的子集進行聚類;將資料集的特徵空間投影到資料子空間。基聚類結果生成以後就開始對基聚類結果進行整合。一致性函式是一個函式或者是一個方法,它將聚類成員進行整合,得到一個統一的聚類結果。目前存在許多一致性函式,它大致可以分為:

(1)基於成對相似性的方法,它主要考慮的是所有的資料點對的關係的重現、

(2)基於超圖劃分的方法和(3)基於特徵的方法,它是把聚類的整合轉換為類標的整合。

針對高維資料的特點,我們選擇基於相似性的方法對聚類結果進行整合,凝聚層次聚類演算法是最經典的基於相似性方法,我們用了文獻中的方法,他把SL凝聚聚類演算法用來生成最終的劃分。但是基於成對相似度的整合的過程都是一個比較粗糙的過程,整合的結果往往基於一個由基聚類結果即這些資料劃分內部的關係生成,忽略了這些劃分結果之間的關係,所以它使用了Iam-on[17]等利用簇之間的相似度來精煉整合資訊矩陣,實驗證明這種方法在很多資料集上表現很好,不僅增強了聚類穩定性也改善了聚類效能。由於我們研究的物件是高維資料,考慮到需要聚類的物件的維度很大,對完整的物件聚類一定會增加聚類演算法的執行開銷。這對基於連結的方法效能有所影響,因此,我們考慮對特徵空間的區域性特徵子集進行聚類得到結果。經過上面的分析,我們引出自己的方法。我們對其中的基本步驟進行細化,我們的方法示意圖如下:



我們方法的示意圖,對聚類整合的過程進行了細化,描述了每一個過程的輸入和輸出

我們的方法就是針對高維資料的特點,對傳統的聚類整合進行了一些改進,我們首先用前面提到的K均值演算法對特徵進行聚類,然後用資訊增益來衡量不同簇中的特徵的重要程度,而每個特徵簇中的所抽取特徵的數目nh由上面stratified sampling[18]的方法得到,最後利用資訊增益選擇top(nh)的特徵。根據上述方法對特徵進行降維,得到了最具代表的資料子集。資料子集的生成,變換K均值演算法的k值,取 k=2,3…√N(N為資料點的數目)生成不同的具有差異的資料子集,然後沿用[1]中的方法進行聚類整合,最後把這√N-2次的聚類結果進行最後一次整合得到我們最終的聚類結果。基於區域性特徵子集的生成方法內容在下一章詳細講述。

基於區域性特徵的資料子集生成方法

整合時使用哪種方法產生聚類成員一般從兩個方面來考慮,一個是整合者的目的,一個是資料集的結構。在機器學習的實際應用中,我們面對的絕大多數都是高維資料。資料集的特徵數量往往較多,可能存在不相關的特徵,特徵之間可能存在相互依賴,容易導致分析特徵、訓練模型的時間變長,甚至引發“維度災難”,模型複雜推廣能力下降。所以我們採用基於區域性特徵的資料子集生成方法。圖3是我們生成區域性特徵的資料子集的示意圖:


區域性特徵子集的生成方法

Fig. 3 The basic process of the generation of feature subset

首先我們用傳統的K均值演算法對資料集的特徵進行聚類,然後對於不同的特徵簇我們用資訊增益來衡量它的重要性,不同的特徵簇中我們應該篩選多少特徵簇呢?分層抽樣很好的解決了這個問題,分層抽樣的思想是計算每個例項之間的相關性(用標準差、方差來衡量),它認為類中的例項相關性比較大的可以選擇較多的樣本來代替當前類,類中相關性較小的就少選擇一些例項來代替當前類的樣本,根據分層抽樣中計算出的特徵簇的數目再利用資訊增益這種衡量重要性的標準進行篩選後就得到了區域性的特徵子集。下面具體論述基於區域性特徵的資料子集生成方法中的關鍵技術。

k均值演算法

K均值演算法[5]是MacDueen提出的一個著名的聚類學習演算法。它根據相似度距離迭代的更新向量集的聚類中心,當聚類中心不再變化或者滿足某些停止條件,則停止迭代過程得到最終的聚類結果。K均值演算法的具體步驟為:

(1) 隨機選擇k個數據項作為聚類中心;

(2) 根據相似度距離公式,將資料集中的每一項資料分配到離他最近的聚類中去;

(3) 計算新的聚類中心;

(4) 如果聚類中心沒有發生改變,演算法結束;否則跳轉到第(2)步.

我們使用K均值演算法對資料集的特徵進行聚類,我們通過選取不同的k值進行特徵聚類,然後用後面的分層抽樣進行選擇得到差異度比較明顯的區域性特徵的資料子集作為後面的聚類整合的輸入。

資訊增益

對特徵進行聚類後得到多個特徵團,如何對它們進行特徵選擇,如何度量特徵團中的特徵的重要程度是我們面臨的問題。資訊增益是資訊理論中的一個重要概念,它被廣泛應用在機器學習、資料探勘領域,計算資訊增益是針對一個特徵項而言的,它通過統計某一個特徵項t在類別C中出現與否的例項數來計算特徵項t對類別C的資訊增益,定義為:



其中P(ci)表示ci類例項在資料集中出現的概率,p(t)表示資料集中包含特徵項t的例項數,p(ci|t)表示例項包含特徵項t時屬於ci類的條件概率,p(t ̅ )表示資料集中不包含特徵項t的例項數,p(c_i |t ̅ )表示例項不包含特徵項t時屬於ci類的概率,m為類別數。資訊增益考慮特徵與類別資訊的相關程度,認為資訊增益值越大,其貢獻越大。我們的方法採用資訊增益來度量特徵簇中的特徵的重要程度。

分層抽樣(Stratified sampling)

在對特徵進行聚類後對特徵進行選擇,我們採用資訊增益來度量每個特徵簇中的特徵的重要程度。但是每個特徵簇我們選擇多少個特徵比較合適,這是分層抽樣解決的問題。抽樣的目的是在不影響聚類效果的情況下在已經分好或者聚好類的例項中,從每個類中抽取部分的樣本來代替整個類。Stratified sampling[18]方法遵循的原則是:計算每個例項之間的相關性(用標準差、方差來衡量),我們認為類中的例項相關性比較大的可以選擇較小的樣本來代替當前類,類中相關性較小的就多選擇一些例項來代替當前類的樣本。這個方法就是確定每個類中篩選的例項的數目。此方法中每個類的樣本數目為:



其中nh是第h類應該抽取的例項數。n是預計抽取的總樣本數,Nh是在總體樣本中第h類的例項數,h是第h類的標準差。通過(1)式我們就可以得到每個類中應該選擇的例項數目。提出這中抽樣方法的學者還對它的精確度、置信區間進行了分析,證明了它在不影響學習效果的情況下對可以對資料降維,提高學習效率。
在本文的方法中,我們先用前面提到的k均值演算法對特徵進行聚類,然後用資訊增益來衡量不同簇中的特徵的重要程度,而每個特徵簇中的所抽取特徵的數目nh由上面stratified sampling的方法得到,最後利用資訊增益選擇top(nh)的特徵。根據上述方法對特徵進行降維,得到了最具代表的資料子集,進行後面的資料集的聚類整合。

實驗結果與分析

實驗資料集

本文選用了8個數據集,包括文獻[1]中的兩個資料集:一個人工資料集Four-Gaussian[19]和一個被用來做基因資料聚類的真實資料集Leukemia dataset[20],另外就是六個真實資料集包括兩個文字資料集,兩個影象資料集,兩個基因資料。表1給出了這些資料集的名稱以及資料的樣本、屬性、類別數量。

Table 1 Number of instance, features and classes of datasets



實驗分析

實驗中,本文對比了三種分類演算法包括傳統的k-means演算法,文獻[1]中的LB演算法以及我們實現的演算法SSLB。聚類效能通過下面四個評價指標來衡量,表2給出了這四個評價指標[1]的具體描述:

Table 2 Name of measures, formulas



K為聚類結果中簇的數目,nk是屬於第k個簇的資料點數目,d(xi,xj)是資料點xi和xj的距離,N是資料集中資料點的總數。n11是指在兩個劃分’(正確的劃分)和中出現在相同簇中的資料線對的個數,n00是指在兩個劃分’、中中出現在不同簇中的資料點對的個數,n01表示在劃分中屬於不同簇在另一個劃分’ 中屬於同一個簇的資料點對數目,n10表示在劃分’中屬於不同簇在另一個劃分中屬於同一個簇的資料點對數目。
其中CP衡量的是在同一個簇中,所有資料點的資料點對的平均距離,越小越好。CA衡量的是與已經的類標相比,聚類正確的資料點數目,CA的範圍是從0到1,越大越好。RI這個指標衡量存在於相同和不同簇中的點對數目,RI的值從0到1,越大越好,AR也是越大越好。

本文對這8個數據集進行聚類整合,聚類成員由k均值對特徵聚類然後分層抽樣產生的區域性特徵子集獲得,聚類中心的個數為資料集的類別數。為了增加實驗的可靠性,所有的實驗結果為10次結果的平均值。對比試驗採用原始的K均值聚類演算法、基於連結(LB)的方法,與我們實現的方法(SSLB)進行比較。在表3中,我們把關鍵值都突出的表現出來,在這8個數據集上,SSLB有在四個評價指標上都表現出比較大的優勢。

根據表四,比較整合前的K均值演算法、LB方法和SSLB方法,可以看出,在資料集Four-Gaussian上,SSLB在四種評價指標上都可以看出,其聚類效能明顯優於整合前的K均值演算法和LB聚類整合演算法。在兩種文字資料集Tr31和Tr41上,我們的方法優勢不是很明顯,但是在前兩個指標CP和CA上還是明顯好於整合前的K均值聚類,與LB演算法在這兩個指標上效能相當,而且在這兩個文字資料上,在RI和AR上整合前的K均值演算法與LB和SSLB方法相比都存在優勢。在兩個影象資料集上,SSLB方法在CP這個評價指標上都遠遠好於整合前的K均值聚類演算法和LB演算法,但是在第二個評價指標和第三個評價指標上就比LB演算法差一點。在基因資料Colon上SSLB再第一個聚類評價指標上仍然存在很大的優勢,在聚類的準確率上,我們的方法與LB方法相當,但是明顯優於整合前的K均值演算法。在基因資料TOX-171上,我們的方法獲得了最好的聚類整合效能,在四個聚類評價指標上,都遠遠好於整合前的K均值演算法和LB演算法。

下面我們逐一在這四個聚類評價標準比較整合前的K均值演算法、SSLB演算法和LB演算法。圖四、圖五、圖六、以及圖七分別描述了整合前的K均值聚類、LB以及我們的方法SSLB在CP、CA、RI、AR上的表現。



聚類評價指標CP衡量的是在同一個簇中,所有資料點的資料點對的平均距離,越小越好。通過圖四可以看出,在所有資料集上,我們的演算法SSLB都存在很大的優勢,比整合前的K-means演算法以及LB演算法在CP這個指標上都好,此外還能看出CP在不同的資料集上的差異還是比較大的,在Four-Gaussian上明顯比其他資料集上差。




聚類評價指標CA衡量的是與已知的類標相比,聚類正確的資料點數目佔總的資料點數目的比例,CA的範圍是從0到1,越大越好。從圖五可以看出我們的演算法在資料集Four-Gaussian、Tr41、Colon和TOX-171上的聚類精度比整合前的K均值演算法以及LB演算法都要好,但是在Tr31以及兩個影象資料集上的優勢不大,這這個現象值得我們關注,也是我們接下來會研究的工作。



聚類評價指標RI衡量的是存在於相同和不同簇中的點對數目,RI的值從0到1,越大越好。從圖六可以看出我們的演算法在人工資料集Four-Gaussian以及幾個基因資料集上的表現比較突出、但是在其他資料集上就處於弱勢,而且可以看出整合前的K均值演算法在所有的資料集在RI上的表現都比較好。


聚類評價指標AR衡量的也是存在於相同和不同簇中的點對數目,AR的值從0到1,越大越好。從圖七可以看出我們的演算法SSLB在大多數資料集上存在著優勢,但是在資料集Leukemia、Tr41、Colon上的超過了整合前的K均值演算法和我們的演算法。這些現象和結果都是我們接下來的研究的重點。



綜上所述,在幾乎所有資料集上,在所有的聚類評價指標上我們的聚類整合演算法SSLB好於整合前K均值演算法的聚類效果,而且在大多數資料集上,我們的演算法比LB演算法存在一定的優勢,尤其是在基因資料上的表現較為突出。但是在有的資料集上優勢也不夠明顯,我們要繼續分析這些資料結構上的特點和我們的演算法可能存在的問題,這也是我們接下來研究的方向。

結 論

本文提出了一種面向高維資料的整合聚類方法。針對高維資料的特點,對傳統的聚類整合進行了一些改進,首先對特徵聚類然後基於分層抽樣抽取特徵子集,抽取到最具代表性的特徵子集後用基於連結的方法進行聚類整合。並在8個實際資料集包括文字、影象、基因資料上進行實驗,在這8個數據集上分析和比較了我們的方法和整合前的K均值演算法以及基於連結的聚類整合演算法在四個評價標準上的聚類效能,能夠看出我們的演算法在聚類效能上有一定改善。