1. 程式人生 > >資料探勘中的聚類演算法綜述

資料探勘中的聚類演算法綜述

1.聚合聚類的策略是先將每個物件各自作為一個原子聚類,然後對這些原子聚類逐層進行聚合,直至滿足一定的終止條件;後者則與前者相反,它先將所有的物件都看成一個聚類,然後將其不斷分解直至滿足終止條件

2.分割聚類演算法是另外一種重要的聚類方法。它先將資料點集分為 ! 個劃分,然後從這 ! 個初始劃分開始,通過重複的控制策略使某個準則最優化以達到最終的結果。

3.基於網格的聚類可以處理任意型別的資料,但以降低聚類的質量和準確性為代價,。CLIOUE也是一個基於網格的聚類演算法,它結合了網格聚類與密度聚類的思想,對於處理大規模高維資料具有較好的效果。

4.基於圖論的聚類一個優點在於它不需要進行一些相似度的計算,就能把聚類問題對映為圖論中的一個組合

優化問題。

5.概率聚類演算法具有另外幾個重要的特性:①能處理具有複雜結構的記錄;②能夠連續處理成批的資料;③具有線上處理能力;④產生的聚類結果易於解釋。

6.最近鄰距離的計算,通過只保留資料點的 " 個最近鄰居從而簡化了相似矩陣,並且也保留了與每個資料點相連的最近鄰居的個數,但是其時間複雜度也提高到了 o($2)($ 為資料點個數)。

7.K-medoids 方法具有兩個優點:它能處理任意型別的屬性;它對異常資料不敏感。

原始K-means 演算法:①聚類結果的好壞依賴於對初始聚類中心的選擇;②容易陷入區域性最優解;③對 " 值的選擇沒有準則可依循;④對異常資料較為敏感;⑤只能處理數值屬性的資料,不能用於類別屬性的資料;⑤聚類結

果可能不平衡。

8.自組織對映具有兩個主要特點:!它是一種遞增的方法,即所有的資料點是逐一進行處理的;"它能將聚類中心點對映到一個二維的平面上,從而實現視覺化。

9.在基於進化理論的聚類方法中,模擬退火的應用經常使用到微擾因子,其作用等同於把一個點從當前的聚類重新分配到一個隨機選擇的新類別中。

10.遺傳演算法也可以用於聚類處理,它主要通過選擇、交叉和變異這三種遺傳運算元的運算以不斷優化可選方案從而得到最終的聚類結果。

11.對高維資料聚類的困難主要來源於以下兩個因素:!高維屬性空間中那些無關屬性的出現使得資料失去了聚類趨
勢;"高維使資料之間的區分界限變得模糊。除了降維這一最直接的方法之外,對高維資料的聚類處理還包括子空間聚類以及聯合聚類技術等。

12.子空間聚類的思想,它基於對原始空間在二維平面上的一個投影處理。

13.聯合聚類對資料點和它們的屬性同時進行聚類。