1. 程式人生 > >100天搞定機器學習|day43 幾張GIF理解K-均值聚類原理

100天搞定機器學習|day43 幾張GIF理解K-均值聚類原理

前文推薦

如何正確使用「K均值聚類」?

KMeans演算法是典型的基於距離的聚類演算法,採用距離作為相似性的評價指標,即認為兩個物件的距離越近,其相似度就越大。該演算法認為簇是由距離靠近的物件組成的,因此把得到緊湊且獨立的簇作為最終目標。

K個初始聚類中心點的選取對聚類結果具有較大的影響,因為在該演算法第一步中是隨機地選取任意k個物件作為初始聚類中心,初始地代表一個簇。該演算法在每次迭代中對資料集中剩餘的每個物件,根據其與各個簇中心的距離賦給最近的簇。當考查完所有資料物件後,一次迭代運算完成,新的聚類中心被計算出來。

演算法過程如下:
(1)從N個數據文件(樣本)隨機選取K個數據文件作為質心(聚類中心)。
本文在聚類中心初始化實現過程中採取在樣本空間範圍內隨機生成K個聚類中心。
(2)對每個資料文件測量其到每個質心的距離,並把它歸到最近的質心的類。
(3)重新計算已經得到的各個類的質心。
(4)迭代(2)~(3步直至新的質心與原質心相等或小於指定閾值,演算法結束。

The data points.

Starting with 4 left-most points

Starting with 4 right-most points

Starting with 4 top points

Starting with 4 bottom points

Starting with 4 random points in one cluster

參考:

https://github.com/MLEveryday/100-Days-Of-ML-Code
https://www.cnblogs.com/eczhou/p/7860424.html
http://www.avikjain