1. 程式人生 > >K-measn 聚類:雜談

K-measn 聚類:雜談

0、K-means演算法,也稱 K-平均或 K-均值演算法,是 MacQueen於1967年首次提出的,它是一種應用最廣泛的硬聚類演算法。

1、在 k-means 聚類模型中,相似度函式是關係到聚類效果好壞的關鍵因素。

2、聚類是模式識別和計算機視覺中的經典概念,其目的是將一個集合中的不同資料按照資料間相似程度大小,區分為不同的類別( 相似程度較大的資料組成一類、相似程度較小的資料組成不同類) 。

3、在傳統的聚類模型中,該相似度函式一般通過人為事先假定。

4、常見的相似度函式形式包括:線性相似度函式、多項式相似度函式、雙曲線相似度函式、高斯徑向相似度函式等。

5、如何確定聚類模型中的相似度函式成為聚類研究中的核心問題?

6、相似度學習分為:有監督學習、無監督學習和半監督學習三大類。

7、“相似度”這個概念可以通過距離函式來定量表徵; 這是因為在認知心理學中一般認為兩相隔距離近的元素間的相似度會比兩相隔距離遠的元素間的相似度更高( 即相似度與距離成反比) 。因此,相似度函式的定義可以轉化為對距離函式的定義。

8、演算法的核心思想是通過迭代演算法把資料集劃分為不同的類別.利用函式求極值的方法得到迭代運算的調整規則,從而使生成的每一個聚類內緊湊,類間獨立.這一演算法不適合處理離散型屬性,但是對於連續型具有比較好的聚類效果.K-means演算法以歐式距離作為相似度測度,演算法採用誤差平方和準則函式作為聚類準則函式.

9、優缺點:K-means聚類演算法作為典型的給予距離的非監督實時聚類演算法,它強調以最小化誤差函式為基礎,將資料劃分為預定的類數 K.這種演算法的優點是原理簡單,可以處理大量資料,廣泛應用於資料分析中。其缺點是在進行分割前,必須先確定聚類數目迭代次數或收斂條件,並需確定初始聚類中心,形成類。然後以每一類的平均向量作為這一類的聚類中心,重新分配,反覆迭代直到類收斂或達到最大的迭代次數.

10、K-means聚類演算法的K個初始類聚類中心點的選取對聚類結果具有較大的影響。因為在該演算法第一步中是隨機地選取任意 K 個物件作為初始聚類的類心。該演算法在每次迭代中對資料集中剩餘的每個物件,根據其與各個類中心的距離將其重新分配到最近的類心的類。當考察完所有資料物件後,一次迭代運算完成,新的聚類中心被計算出來。

11、具體演算法過程如下:

①從 N 個物件中隨機選取K 個物件作為類心。

②對剩餘的每個物件計算其到每個類心的距離,並把它歸到最近的類心的類。

③重新計算已經得到的各個類的類心。

④迭代②③步直至新的類心與原類心相等或小於指定閾值,演算法結束。

1
2
3

參考文獻:

一種基於k_means聚類和半監督學習的醫學影象分割演算法

一種改進的K-means聚類演算法的影象檢索方法

一種改進的K-means聚類彩色影象分割方法