1. 程式人生 > >R語言學習之聚類分析

R語言學習之聚類分析

1.動態聚類:k—means

基本思想:

(1)選擇K個點作為質心

(2)將每個點指派到最近的質心,形成K個類

(3)重新計算每個類的質心

(4)重複2—3知道質心不發生變化

例項:


優缺點:

(1)有效率且不易受初始值的影響

(2)不能處理非球形簇

(3)不能處理不同尺寸,不同密度的簇

(4)離群值可能有較大幹擾(因此要先剔除)

2.基於有代表性的點的技術:K中心聚類法

基本思想:

(1)隨機選擇K個點作為“中心點”

(2)計算剩餘的顛倒k箇中心點的距離,每個點被分配到最近的中心店組成聚簇

(3)隨機選擇一個非中心點Or,用它來替代現有的某個中心點Oj,計算這個代換的總代價S(pam使用離差平方和來計算成本S,在cluster包中可以實現)

(4)如果S<0,則用Or代替Oj,形成k箇中心點集合

(5)重複2,直至中心點集合不發成變化


K中心法的優缺點:

對於“噪聲較大和存在離群值的情況,K中心法更加健壯,不像Kmeans那樣容易受到極端資料的影響”,但其執行代價更高