1. 程式人生 > >聚類分析方法

聚類分析方法

實際應用 多少 三種 輸入 k-means 情況 度量 分析方法 差異

一、層次聚類(系統聚類)

原理:合並法(分解法方向相反算法相同,SPSS只提供合並法)

1、將每一個樣本作為一類,如果是k個樣本就分k成類

2、按照某種方法度量樣本之間的距離,並將距離最近的兩個樣本合並 為一個類別,從而形成了k-1個類別

3、再計算出新產生的類別與其他各類別之間的距離,並將距離最近的 兩個類別合並為一類。這時,如果類別的個數仍然大於1,則繼續重 復這一步,直到所有的類別都合並成一類為止

4、總是先把離得最近的兩個類進行合並

5、合並越晚的類,距離越遠

6、事先並不會指定最後要分成多少類,而是把所有可能的分類都列出, 再視具體情況選擇一個合適的分類結果

缺點:如果樣本數大,輸入的值超級大,一般不采用這個方法。

二、K-means聚類(快速聚類)

1、確定要分的類別數目K (實際應用中可選擇8類,如果某些類別中包含的樣本明顯很少,可減少類別數再次進行聚類,嘗試合適的類別數)

2、確定K個類別的初始聚類中心 (使用SPSS進行聚類時,一般由系統自動指定初始聚類中心K)

3、根據確定的K個初始聚類中心,依次計算每個樣本到K個聚類中心的距離歐氏距離,並根據距離最近的原則將所有的樣本分到 事先確定的K個類別中

4、根據所分成的K個類別,計算出各類別中每個變量的均值, 並以均值點作為新的K個類別中心。根據新的中心位置,重新計算每 個樣本到新中心的距離,並重新進行分類

5、重復第4步,直到滿足終止聚類條件為止

叠代次數達到研究者事先指定的最大叠代次數(SPSS隱含的叠代次數 是10次,如果超過10此仍未收斂可調大這個數值)

新確定的聚類中心點與上一次叠代形成的中心點的最大偏移量小於指定的量(SPSS隱含的是0.02)

註意:

1、若原始值差異過大,則需要事先標準化

三、兩步聚類法(一般在SPSS中使用k-means即可)

四、聚類方法的選擇

1、首先看數據的類型,如果參與分類的變量是連續變量,層次聚類法 、K-均值聚類法、以及兩步聚類法都是適用的。如果變量中包括離 散變量(計數變量),則需要將先對離散變量進行連續化處理,否則應 該使用兩步聚類法。當數據量較少時(比如小於100),三種方法都可 以選用,當數據量較多時(比如大於1000),則應該考慮選用K-均值 聚類法或兩步聚類法

2、要看分類的對象。如果是對樣本分類,三種方法都可用;如果是對變量分類則應選擇層次聚類法(至少SPSS的程序是這樣)

聚類分析方法