機器學習———聚類的效能度量指標與距離度量計算

阿新 • • 發佈：2019-02-03

聚類，是無監督學習的代表，將資料集D劃分成了若干個不相交的子集，稱為簇，我們總體的目標是“簇間相似性越低越好，簇內相似性越高越好”。

1.效能度量指標——外部指標

外部指標：聚類結果與某個“參考模型”進行比較。

對資料集 $D=\left \{ \right.\begin{matrix} x_1 & x_2 & ... & x_m \end{matrix}\left. \right \}$ ,假設通過聚類劃分為 $C=\left \{ \right.\begin{matrix} C_1 & C_2 & ... & C_m \end{matrix}\left. \right \}$ ，參考模型的劃分為： $C^*=\left \{ \right.\begin{matrix} C^*_1 & C^*_2 & ... & C^*_m \end{matrix}\left. \right \}$ ,令 $\lambda$ 和 $\lambda ^*$ 分別表示 $C$ 和 $C^*$ 的標記。則令

$a=\left | SS \right |, SS=\left \{ \lambda _i = \lambda_j, \lambda^*_i = \lambda^*_j, i<j \right \}$

$b=\left | SD \right |, SD=\left \{ \lambda _i = \lambda_j, \lambda^*_i \neq \lambda^*_j, i<j \right \}$

$c=\left | DS \right |, DS=\left \{ \lambda _i \neq \lambda_j, \lambda^*_i = \lambda^*_j, i<j \right \}$

$d=\left | DD \right |, DD=\left \{ \lambda _i \neq \lambda_j, \lambda^*_i \neq \lambda^*_j, i<j \right \}$

可以看出 $a+b+c+d = m(m-1)/2$

Jaccard係數(JC) $JC=\frac{a}{a+b+c}$
FM指數(FMI) $FMI = \sqrt{\frac{a}{a+b}\frac{a}{a+c}}$
Rand指數(RI) $RI=\frac{2(a+d)}{m(m-1)}$

顯然，上述效能指標的都在[0,1]之內，且越大越好。

2. 幾個距離計算公式

定義 $dist(.,.)$ 為某一個距離度量，給定樣本 $\mathbf{x_i}=(x_{i1};x_{i2};...x_{in})$ 與 $\mathbf{x_j}=(x_{j1};x_{j2};...x_{jn})$

閔可夫斯基距離 $dist_{mk}(x_i,x_j)=\left \| x_i-x_j \right \|_p=\left ( \sum |x_{iu}-x_{ju}|^p \right )^{\frac{1}{p}}$
歐式距離 ( $p=2$ ) $dist_{ed}(x_i,x_j)=\left \| x_i-x_j \right \|_2=\left ( \sum |x_{iu}-x_{ju}|^2 \right )^{\frac{1}{2}}$
曼哈頓距離( $p=1$ ) $dist_{man}(x_i,x_j)=\left \| x_i-x_j \right \|_1= \sum |x_{iu}-x_{ju}|$

以上三種距離可以進行有序屬性的劃分

Value Difference Metric(VDM) $VDM_p(a,b)=\sum \left | \frac{m_{u,a,i}}{m_{u,a}} -\frac{m_{u,b,i}}{m_{u,b}} \right |$

VDM可以進行無序屬性的劃分

Minkov_VDM $MinkovVDM_p(x_i,x_j)=(\sum |x_{iu}-x_{ju}|^p+\sum VDM_p(x_{iu},x_{ju}) )^\frac{1}{p}$

閔可夫斯基距離與VDM的混合可以用於混合屬性。

當樣本空間的不同屬性重要性不同時，可以使用“加權距離”。

3.效能度量指標——內部指標

內部指標：直接考察聚類結果而不利用任何參考模型。

考慮到聚類結果的簇劃分 $C=\left \{ \right.\begin{matrix} C_1 & C_2 & ... & C_m \end{matrix}\left. \right \}$ ，定義：

簇內樣本間的平均距離： $avg(C)=\frac{2}{|C|(|C|-1)}\sum _{1\leq i<j\leq |C|}dist(x_i,x_j)$

簇內樣本間的最遠距離： $diam(C)=max_{1\leq i<j\leq |C|} dist(x_i,x_j)$

簇間樣本間的最短距離： $d_{min}(C_i,C_j)=min_{x_i \in C_i,x_j \in C_j}dist(x_i,x_j)$

簇間樣本間中心點距離： $d_{cen}(C_i,C_j)=dist(\mu_{i},\mu_{j})$ , 其中， $\mu=\frac{1}{|C|}\sum _{1\leq i\leq |C|}x_i$ ,被稱作是簇C的樣本中心。

DB指數 $DBI=\frac{1}{k}\sum _1^k max_{j \neq i} (\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)})$
Dunn指數 $DB=\min_{1\leq i \leq k}\left \{ \min_{j \neq i} \left ( \frac{d_{min}(C_i,C_j)}{\max_{1\leq l\leq k}diam(C_l)} \right )\right \}$

顯然，DBI越小越好，DB越大越好。

機器學習———聚類的效能度量指標與距離度量計算

1.效能度量指標——外部指標

2. 幾個距離計算公式

3.效能度量指標——內部指標

機器學習———聚類的效能度量指標與距離度量計算

機器學習聚類演算法Kmeans與DBSCAN

Python機器學習--聚類

機器學習--聚類系列--K-means算法

機器學習--聚類系列--DBSCAN算法

機器學習--聚類系列--層次聚類

機器學習-聚類Clustering

機器學習-聚類演算法

機器學習聚類(Clustering)____K-均值聚類演算法(K-means Clustering) 層次聚類(Hierarchical Clustering)

機器學習-聚類(層次聚類演算法)

機器學習--聚類演算法

python機器學習-聚類KMeans

機器學習聚類演算法——K-means聚類

機器學習——聚類（clustering）：K-means演算法（非監督學習）

機器學習 | 聚類分析總結 & 實戰解析

機器學習--聚類分析（劃分方法，層次方法、密度方法）

機器學習——聚類演算法

【機器學習】分類效能度量指標 : ROC曲線、AUC值、正確率、召回率、敏感度、特異度

聚類的評價指標（無監督學習）

機器學習-->無監督學習-->聚類

機器學習———聚類的效能度量指標與距離度量計算

1.效能度量指標——外部指標

2. 幾個距離計算公式

3.效能度量指標——內部指標

相關推薦