1. 程式人生 > >【機器學習】聚類

【機器學習】聚類

1. 距離計算

  當對一些沒有 Label 的資料進行分類的時候,需要滿足一些的基本性質:

  1. 非負性:dist(xi,xj)0
  2. 同一性:dist(xi,xj)=0,當且僅當 xi=xj
  3. 對稱性:dist(xi,xj)=dist(xj,xi)
  4. 直遞性:dist(xi,xj)=dist(xj,xk)+dist(xk,xj)

給定樣本 xi=(xi1;xi2;...,xin

)xj=(xj1;xj2;...;xjn),最常用的是 “閔可夫斯基距離”(Minkowski distance)

distmk(xi,xj)=(u=1n|xiuxju|p)1p
對於 p1,顯然滿足上面的四條距離度量的基本性質。

p=2 時,閔可夫斯基距離轉換為歐氏距離(Euclidean distance)

disted(xi,xj)=||xix
j||2=u=1n|xiuxju|2

p=1 時,閔可夫斯基距離轉換為曼哈頓距離(Manhattan distance)