機器學習筆記之K-means聚類
K-means聚類是聚類分析中比較基礎的演算法,屬於典型的非監督學習演算法。
其定義為對未知標記的資料集,按照資料內部存在的資料特徵將資料集劃分為多個不同的類別,使類別內的資料儘可能接近,類別間的資料相似度比較大。用於衡量距離的方法主要有曼哈頓距離、歐氏距離、切比雪夫距離,其中歐氏距離較為常用。
演算法原理如下:
1.建立K個點作為初始質心(通常是隨機選擇)
2.當任意一個點的簇分類結果發生改變時
2.1對資料的每一個點,計算每一個質心與該資料點的距離,將資料點分配到距其最近的簇
2.2對於每一個簇,計算簇中所有點的均值並將均值作為質心