機器學習———聚類的效能度量指標與距離度量計算
阿新 • • 發佈:2019-02-03
聚類,是無監督學習的代表,將資料集D劃分成了若干個不相交的子集,稱為簇,我們總體的目標是“簇間相似性越低越好,簇內相似性越高越好”。
1.效能度量指標——外部指標
外部指標:聚類結果與某個“參考模型”進行比較。
對資料集,假設通過聚類劃分為,參考模型的劃分為:,令和分別表示和的標記。則令
可以看出
- Jaccard係數(JC)
- FM指數(FMI)
- Rand指數(RI)
顯然,上述效能指標的都在[0,1]之內,且越大越好。
2. 幾個距離計算公式
定義為某一個距離度量,給定樣本與
- 閔可夫斯基距離
- 歐式距離 ()
- 曼哈頓距離()
以上三種距離可以進行有序屬性的劃分
- Value Difference Metric(VDM)
VDM可以進行無序屬性的劃分
- Minkov_VDM
閔可夫斯基距離與VDM的混合可以用於混合屬性。
當樣本空間的不同屬性重要性不同時,可以使用“加權距離”。
3.效能度量指標——內部指標
內部指標:直接考察聚類結果而不利用任何參考模型。
考慮到聚類結果的簇劃分,定義:
簇內樣本間的平均距離:
簇內樣本間的最遠距離:
簇間樣本間的最短距離:
簇間樣本間中心點距離: , 其中,,被稱作是簇C的樣本中心。
- DB指數
- Dunn指數
顯然,DBI越小越好,DB越大越好。