ARI聚類效果評價指標

阿新 • • 發佈：2019-02-17

聚類效果有一個評價指標，ARI（Adjusted Rand Index）。這個指標不考慮你使用的聚類方法，把你的方法當做一個黑箱，只注重結果。可以說，是一個十分“功利”的指標。

1.Rand index

在講ARI之前呢，先講述一下RI，也就是rand index，從兩者的名字也可以看出來，這是ARI的祖宗版。

這裡，我們解釋一下a,b,c,d分別代表什麼。a呢就是說應該在一類，你最後聚類到一類的數量，b呢就是不應該在一類，你最後聚類結果也沒把他們聚類在一起的數量。c和d那麼就是應該在一起而被分開的和不應該在一起而被迫住在一起的。畢竟強扭的瓜不甜，c和d固然是錯誤的。所以從R的表示式中可以看出，我們只認為a和b是對的，這樣能夠保證R在0到1之間，而且，聚類越準確，指標越接近於1.

這裡有一個關鍵性的問題，就是什麼叫數量？你怎麼去計算？準確的說，是配對的數量。比如說a是應該在一起而真的幸福的在一起了的數量，這顯然就應該像人類一樣按照小夫妻數量計算，但是我們的樣本可不管一夫一妻制，任意選兩個就是一個配對，所以，就是n(n-1)/2這樣來計算，也就是組合數，n個當中選兩個的選法。同時我們看到，分母其實是所有配對的總和，所以，我們最後可以寫成這樣：

2.ARI

有了先前RI的感性理解之後，我們再來講一下ARI。

RI有一個缺點，就是懲罰力度不夠，換句話說，大家普遍得分比較高，沒什麼區分度，遍地80分。這樣的話，往往是考試的制度不合適，於是就誕生出了ARI，這個指標相對於RI就很有區分度了。

具體的公式就是下面這樣的。

我們來分析一下， nij代表的是聚類之後再i類，應該在j類的樣本數量，很顯然，這一求和，就是RI中的a,應該在一起而真的在一起的數量。

是如果你的聚類是完全對的，那麼就應該是這個數目，所以在表示式裡面叫做max index。

後面這一個部分就比較難理解了，他是a的期望，也就是

這一個部分最難理解。

假設配對矩陣是這樣的，顯然，我們共有n(n-1)/2個配對方法。我們在行方向計算出可能取到的配對書，在列方向計算可能取到的配對數，相乘以後，除以總的配對數。這就是a的期望了。

這裡呢，這個期望就像是一個benchmark，用來衡量距離用的。

ARI聚類效果評價指標

ARI聚類效果評價指標

聚類外部評價指標（F-Measure、Entropy、Purity）及matlab實現

聚類的評價指標（無監督學習）

聚類演算法評價指標

聚類效果好壞的評價指標

聚類演算法之K-means演算法與聚類演算法衡量指標

定量評估聚類效果

影象增強演算法效果評價指標及實現

【總結】分類、聚類的評估指標

聚類模型性能評價指標

評價聚類效能指標

【IM】關於聚類評價演算法的理解

聚類演算法的衡量指標

使用Sklearn模組建立聚類、迴歸、分類模型並評價

python資料分析：流量資料化運營（下）——基於自動K值得KMeans廣告效果聚類分析

使用Python進行層次聚類（三）——層次聚類簇間自然分割方法和評價方法

模糊聚類有效性指標（一）

聚類：對聚類效能的評價

機器學習———聚類的效能度量指標與距離度量計算

【Python】聚類演算法應用 -- 廣告投放效果的離線評估

ARI聚類效果評價指標

相關推薦