1. 程式人生 > >機器學習———聚類的效能度量指標與距離度量計算

機器學習———聚類的效能度量指標與距離度量計算

聚類,是無監督學習的代表,將資料集D劃分成了若干個不相交的子集,稱為簇,我們總體的目標是“簇間相似性越低越好,簇內相似性越高越好”。

1.效能度量指標——外部指標

外部指標:聚類結果與某個“參考模型”進行比較。

對資料集D=\left \{ \right.\begin{matrix} x_1 & x_2 & ... & x_m \end{matrix}\left. \right \},假設通過聚類劃分為C=\left \{ \right.\begin{matrix} C_1 & C_2 & ... & C_m \end{matrix}\left. \right \},參考模型的劃分為:C^*=\left \{ \right.\begin{matrix} C^*_1 & C^*_2 & ... & C^*_m \end{matrix}\left. \right \},令\lambda\lambda ^*分別表示CC^*的標記。則令

a=\left | SS \right |, SS=\left \{ \lambda _i = \lambda_j, \lambda^*_i = \lambda^*_j, i<j \right \}

b=\left | SD \right |, SD=\left \{ \lambda _i = \lambda_j, \lambda^*_i \neq \lambda^*_j, i<j \right \}

c=\left | DS \right |, DS=\left \{ \lambda _i \neq \lambda_j, \lambda^*_i = \lambda^*_j, i<j \right \}

d=\left | DD \right |, DD=\left \{ \lambda _i \neq \lambda_j, \lambda^*_i \neq \lambda^*_j, i<j \right \}

可以看出a+b+c+d = m(m-1)/2

  • Jaccard係數(JC)                                   JC=\frac{a}{a+b+c}
  • FM指數(FMI)                                        FMI = \sqrt{\frac{a}{a+b}\frac{a}{a+c}}
  • Rand指數(RI)                                       RI=\frac{2(a+d)}{m(m-1)}

顯然,上述效能指標的都在[0,1]之內,且越大越好

2. 幾個距離計算公式

定義dist(.,.)為某一個距離度量,給定樣本\mathbf{x_i}=(x_{i1};x_{i2};...x_{in})\mathbf{x_j}=(x_{j1};x_{j2};...x_{jn})

  • 閔可夫斯基距離                                               dist_{mk}(x_i,x_j)=\left \| x_i-x_j \right \|_p=\left ( \sum |x_{iu}-x_{ju}|^p \right )^{\frac{1}{p}}
  • 歐式距離 (p=2)                                            dist_{ed}(x_i,x_j)=\left \| x_i-x_j \right \|_2=\left ( \sum |x_{iu}-x_{ju}|^2 \right )^{\frac{1}{2}}
  • 曼哈頓距離(p=1)                                         dist_{man}(x_i,x_j)=\left \| x_i-x_j \right \|_1= \sum |x_{iu}-x_{ju}|

以上三種距離可以進行有序屬性的劃分

  • Value Difference Metric(VDM)                       VDM_p(a,b)=\sum \left | \frac{m_{u,a,i}}{m_{u,a}} -\frac{m_{u,b,i}}{m_{u,b}} \right |

VDM可以進行無序屬性的劃分

  • Minkov_VDM                                              MinkovVDM_p(x_i,x_j)=(\sum |x_{iu}-x_{ju}|^p+\sum VDM_p(x_{iu},x_{ju}) )^\frac{1}{p}

閔可夫斯基距離與VDM的混合可以用於混合屬性

當樣本空間的不同屬性重要性不同時,可以使用“加權距離”

3.效能度量指標——內部指標

內部指標:直接考察聚類結果而不利用任何參考模型。

考慮到聚類結果的簇劃分C=\left \{ \right.\begin{matrix} C_1 & C_2 & ... & C_m \end{matrix}\left. \right \},定義:

簇內樣本間的平均距離:               avg(C)=\frac{2}{|C|(|C|-1)}\sum _{1\leq i<j\leq |C|}dist(x_i,x_j) 

簇內樣本間的最遠距離:             diam(C)=max_{1\leq i<j\leq |C|} dist(x_i,x_j)

簇間樣本間的最短距離:            d_{min}(C_i,C_j)=min_{x_i \in C_i,x_j \in C_j}dist(x_i,x_j)

簇間樣本間中心點距離:           d_{cen}(C_i,C_j)=dist(\mu_{i},\mu_{j}),  其中,\mu=\frac{1}{|C|}\sum _{1\leq i\leq |C|}x_i,被稱作是簇C的樣本中心。

  • DB指數                         DBI=\frac{1}{k}\sum _1^k max_{j \neq i} (\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)})
  • Dunn指數                    DB=\min_{1\leq i \leq k}\left \{ \min_{j \neq i} \left ( \frac{d_{min}(C_i,C_j)}{\max_{1\leq l\leq k}diam(C_l)} \right )\right \}

顯然,DBI越小越好,DB越大越好。