機器學習聚類演算法——K-means聚類

k均值演算法

k-means聚類又稱k均值聚類。
給定N個數據點{xn→∈RM,n=1,⋯,N}，M是資料點的維度。現在希望把資料點聚類成K個簇。

演算法：

(1)初始化：在給定的N個樣本中隨機選擇K個作為初始聚類中心
(2)更新劃分：對每個資料點，計算其到各個聚類中心的距離，並把它歸到距離最近的類
(3)更新聚類中心：計算各個類簇中資料點在每個維度上的均值，將求得的均值點作為新的聚類中心
(4)判斷是否收斂：如果聚類中心的改變不超過預先設定的閾值或者損失的改變不超過設定的閾值，那麼認為收斂；否則，轉到步驟(2)　

從優化角度看待k均值演算法

給定N個數據點{xn

→∈RM,n=1,⋯,N}，M是資料點的維度。現在希望根據空間位置把資料點聚類成K個簇，使得損失函式

J(C,U)=ΣnΣkcnkDistance(xn→−uk→)
最小。其中，聚類矩陣C∈RN∗K，(n,k)位置上的元素cnk∈{0,1}表示資料點xn→是否屬於類k，cnk=0表示資料點xn不屬於k類；cnk=1表示資料點xn屬於k類。那麼矩陣C的每一行有且僅有一個元素為0。聚類中心矩陣U∈RK∗M，第k行向量uk→∈RM表示第k個類的聚類中心。

代價函式也可以從無監督的目的出發來考慮。無監督學習是學習資料的組織方式，用更簡單的方式來描述資料（比如用更低維的向量），在聚類問題中就可以看成用聚類中心來描述每個例項。但是描述的簡化必然會帶來資訊的丟失，這裡用距離來表示丟失的資訊。

最常用距離是L2距離，那麼現在代價函式可以寫成：

J(C,U)=ΣnΣkcnk||xn→−uk→||2
固定聚類中心矩陣U，想一想此時聚類矩陣C應該是什麼樣才能使得損失函式最小呢？不難想到，當每個資料點xn屬於最近的類別時，代價函式才最小。具體做法就是對每個資料點xn計算和各聚類中心之間的距離，將xn劃分到距離最近的類別k∗，也就是把對應的cnk∗設為1，其他的cnk設為0。此時損失值為J∗。不難驗證，J∗是最小的損失值。假設xn屬於k−類，對應的損失值為J−。
J∗−J−=||xn→−uk∗→||2−||xn→−uk−→||2≤0
所以J∗是最小損失。於是演算法的第二步驟——更新劃分必然會使得損失變小。

固定聚類矩陣C，那麼聚類中心U應該是什麼樣才能使得損失函式最小呢？可以通過求導得出：
J′ukm=2Σn

機器學習聚類演算法——K-means聚類

k均值演算法

從優化角度看待k均值演算法

機器學習聚類演算法——K-means聚類

機器學習筆記六：K-Means聚類，層次聚類，譜聚類

機器學習聚類(Clustering)____K-均值聚類演算法(K-means Clustering) 層次聚類(Hierarchical Clustering)

機器學習學習筆記第十九章聚類演算法-K-MEANS

機器學習（二）——K均值聚類演算法（K-means）

【機器學習】聚類演算法：層次聚類、K-means聚類

【無監督學習】1：K-means聚類演算法原理

【OpenCV學習筆記 020】K-Means聚類演算法介紹及實現

機器學習實戰筆記-利用K均值聚類算法對未標註數據分組

CS229 Machine Learning學習筆記:Note 7(K-means聚類、高斯混合模型、EM算法)

聚類演算法-K-means

資料聚類演算法-K-means演算法

聚類演算法實踐（一）——層次聚類、K-means聚類

聚類演算法-K-means-C++實現

[聚類演算法]K-means優缺點及其改進

python機器學習案例系列教程——k均值聚類、k中心點聚類

聚類演算法—K-Means原理與應用

mahout in Action2.2-聚類介紹-K-means聚類算法

【轉】使用scipy進行層次聚類和k-means聚類

使用scipy進行層次聚類和k-means聚類

機器學習聚類演算法——K-means聚類

k均值演算法

從優化角度看待k均值演算法

相關推薦