1. 程式人生 > >聚類演算法評價指標

聚類演算法評價指標

一、Not Given Label:

1、Compactness(緊密性)(CP)


      CP計算 每一個類  各點到聚類中心的平均距離

      CP越低意味著類內聚類距離越近

      缺點:沒有考慮類間效果

2、Separation(間隔性)(SP)


      SP計算 各聚類中心兩兩之間平均距離

      SP越高意味類間聚類距離越遠

      缺點:沒有考慮類內效果

3、Davies-Bouldin Index(戴維森堡丁指數)(分類適確性指標)(DB)(DBI)


      DB計算 任意兩類別的類內距離平均距離(CP)之和除以兩聚類中心距離 求最大值

      DB越小意味著類內距離越小 同時類間距離越大 

      缺點:因使用歐式距離 所以對於環狀分佈  聚類評測很差

4、Dunn Validity Index (鄧恩指數)(DVI)

    

      DVI計算 任意兩個簇元素的最短距離(類間)除以任意簇中的最大距離(類內)

      DVI越大意味著類間距離越大 同時類內距離越小

      缺點:對離散點的聚類測評很高、對環狀分佈測評效果差 

二、Given Label:

1、Cluster Accuracy (準確性)(CA)


      CA計算 聚類正確的百分比

      CA越大證明聚類效果越好

2、Rand index(蘭德指數)(RI) 、Adjusted Rand index(調整蘭德指數)(ARI)


      其中C表示實際類別資訊,K表示聚類結果,a表示在C與K中都是同類別的元素對數,b表示在C與K中都是不同類別的元素對數

      其中表示資料集中可以組成的對數,RI取值範圍為[0,1],值越大意味著聚類結果與真實情況越吻合。

      RI越大表示聚類效果準確性越高 同時每個類內的純度越高

為了實現“在聚類結果隨機產生的情況下,指標應該接近零”,調整蘭德係數(Adjusted rand index)被提出,它具有更高的區分度:


     ARI取值範圍為[−1,1],值越大意味著聚類結果與真實情況越吻合。從廣義的角度來講,ARI衡量的是兩個資料分佈的吻合程度。

3、Normalized Mutual Information (標準互資訊)(NMI)、Mutual Information(互資訊)(MI)


      標準化互聚類資訊都是用熵做分母將MI值調整到0與1之間,一個比較多見的實現是下面所示:



參考文獻