1. 程式人生 > >ML09-K均值聚類

ML09-K均值聚類

基本含義:

將具有相似特性的資料點,分到同一個簇內,使得同簇之內的資料相較於簇外的資料更加的相似。

關鍵計算:

相似度度量的方法。計算同簇之內資料點之間的相似度,計算不同簇之間的相似度。

計算距離/相似度有很多的方法,在K均值聚類方法中,經常使用的是歐氏距離。

K均值聚類的目標是使得總體群內方差最小或者平方誤差最小。

聚類步驟:

  1. 在資料中,隨機生成K個初始均值
  2. 通過關聯每個觀測值到最近的均值,建立K個簇
  3. 每個簇的形心變成新的均值
  4. 重複步驟2-3,直到最後資料收斂