kmeans聚類演算法改進

阿新 • • 發佈：2019-01-16

由於kmeans聚類演算法對離群點或者噪音很敏感，而且適合凸規模的資料集，而且可能陷入區域性最優等等問題，前輩們又提出了很多改進的演算法！（總參考：機器學習(25)之K-Means聚類演算法詳解）

二分kmeans（bisecting K-means）演算法：

思路：

1）將所有的資料看做一個簇；
2）當簇的個數小於所要求的k時候：
      對每一個簇：
                    假設對當前的簇進行k-means聚類（k=2），計算k-means之後的
                        當前簇的SSE1（Sum of Squared Error）；
                    計算剩下的簇的SSE2；
                    然後總的SSE=SSE1+SSE2；
        選擇SSE最小的簇進行k-means 
聚類（k=2）；

以上就是二分k-means的總體思路，那麼它相比較k-means有什麼提升和改進呢，看看它的優點：

不受初始化問題的影響，而且每步都能保證得到的總體誤差最小；
加速kmeans演算法的執行速度，進行的運算有所降低；
《Machine Learning in action》說這種可以克服k-means收斂於區域性最優，達到全域性最優，但個人感覺這個演算法並不能達到全域性最優，有對這塊比較熟悉的大佬還望不吝賜教！

k-mediods（k中心點演算法）

思路：
1）隨機選取k個樣本作為k個簇；
2）對每一個數據點來說從k個簇中進行選擇，將其歸類為距離它最近的簇中；
3）此時進行質心轉移操作，k-means選用的是簇中所有節點的均值，而k-mediods則選用簇內距離其他各個頂點絕對誤差最小的點，作為新的質心；
4）如果新的質心與原質心相同，則停止；否則轉回2）步驟進行迴圈操作！

優點：
1）相比k-means演算法可以處理大規模的資料集；
2）對於離群點或者噪聲，k-mediods對其沒有那麼敏感，離群點就不會造成劃分的結果偏差太大；
3）相比k-means，k-mediods的時間複雜度提升了o(n)，更快一些！
參考：K-mediods演算法

Mini-batch k-means演算法

思路：
1）隨機選擇k個樣本作為k個簇，注意k的選擇方法，在k-means那篇部落格中有介紹k的選取方法；
2）隨機選擇小批量的資料集，並將其歸屬到距離它最近的質心中，然後更新質心；
3）當質心穩定或者達到最大迭代次數的話停止迭代！

優點
- 可以提高k-means演算法的效能，降低它的時間複雜度；

k-means++演算法

思路：
1）將所有的資料點看做一個簇，隨機選擇一個節點作為第一個質心；
2）對每一個節點來說，計算D(i,k)，即該節點i距離不同的質心的距離，D(i)的計算方法：
這裡寫圖片描述
然後計算每個樣本被選為第k個質心簇的概率，D(i)越大被選中的概率越大，利用輪盤法進行下一個聚類中心的選擇。
3）重複2）直到達到k個簇停止！

PS：
輪盤法：
在2）中，我們計算了每個樣本點被選擇為下一個聚類中心的概率p(x)，然後呢，要怎麼利用這些概率來求解呢，答案是執行加和操作，第一個點被選擇的概率為p(x0)，第二個點被選擇的概率為[p(x0),p(x0)+p(x1)],第三個節點被選中的概率為[p(x0)+p(x1),p(x0)+p(x1)+p(x2)].，第n個節點為[∑p(xi),∑p(xj)]，(i=∑(k=0~n-2)，j=∑(k=0~n-1)；然後隨即地生成0~1之間的隨機數，判斷它屬於哪個區間，那麼該區間對應的序列號就是被選擇出來的下一個聚類中心了，這樣選擇的話就可以使得D(x)越大的樣本被選為下一個聚類樣本的概率越大！

kmeans聚類演算法改進

二分kmeans（bisecting K-means）演算法：

k-mediods（k中心點演算法）

Mini-batch k-means演算法

k-means++演算法

kmeans聚類演算法改進

KMeans聚類演算法分析以及實現

從零開始實現Kmeans聚類演算法

影象基本變換---KMeans聚類演算法

Scala語言實現Kmeans聚類演算法

基礎演算法（二）：Kmeans聚類演算法的基本原理與應用

kmeans聚類演算法及複雜度

Kmeans聚類演算法及其matlab原始碼

KMeans聚類演算法

NLP——Kmeans聚類演算法簡單實現

KMeans聚類演算法示例

大資料：Spark mlib(一) KMeans聚類演算法原始碼分析

Kmeans聚類演算法在python下的實現--附測試資料

python實現簡單的kmeans聚類演算法

Hadoop/MapReduce 及 Spark KMeans聚類演算法實現

kmeans聚類演算法及matlab實現

Spark MLlib中KMeans聚類演算法的解析和應用

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

聚類演算法（一）—— k-means演算法以及其改進演算法

聚類演算法：KMEANS原理介紹

kmeans聚類演算法改進

二分kmeans（bisecting K-means）演算法：

k-mediods（k中心點演算法）

Mini-batch k-means演算法

k-means++演算法

相關推薦