1. 程式人生 > >ARI聚類效果評價指標

ARI聚類效果評價指標

聚類效果有一個評價指標,ARI(Adjusted Rand Index)。這個指標不考慮你使用的聚類方法,把你的方法當做一個黑箱,只注重結果。可以說,是一個十分“功利”的指標。

1.Rand index

在講ARI之前呢,先講述一下RI,也就是rand index,從兩者的名字也可以看出來,這是ARI的祖宗版。


這裡,我們解釋一下a,b,c,d分別代表什麼。a呢就是說應該在一類,你最後聚類到一類的數量,b呢就是不應該在一類 ,你最後聚類結果也沒把他們聚類在一起的數量。c和d那麼就是應該在一起而被分開的和不應該在一起而被迫住在一起的。畢竟強扭的瓜不甜,c和d固然是錯誤的。所以從R的表示式中可以看出,我們只認為a和b是對的,這樣能夠保證R在0到1之間,而且,聚類越準確,指標越接近於1.

這裡有一個關鍵性的問題,就是什麼叫數量?你怎麼去計算?準確的說,是配對的數量。比如說a是應該在一起而真的幸福的在一起了的數量,這顯然就應該像人類一樣按照小夫妻數量計算,但是我們的樣本可不管一夫一妻制,任意選兩個就是一個配對,所以,就是n(n-1)/2這樣來計算,也就是組合數,n個當中選兩個的選法。同時我們看到,分母其實是所有配對的總和,所以,我們最後可以寫成這樣:


2.ARI

有了先前RI的感性理解之後,我們再來講一下ARI。

RI有一個缺點,就是懲罰力度不夠,換句話說,大家普遍得分比較高,沒什麼區分度,遍地80分。這樣的話,往往是考試的制度不合適,於是就誕生出了ARI,這個指標相對於RI就很有區分度了。

具體的公式就是下面這樣的。


我們來分析一下, nij代表的是聚類之後再i類,應該在j類的樣本數量,很顯然,這一求和,就是RI中的a,應該在一起而真的在一起的數量。

是如果你的聚類是完全對的,那麼就應該是這個數目,所以在表示式裡面叫做max index。

後面這一個部分就比較難理解了,他是a的期望,也就是

這一個部分最難理解。

假設配對矩陣是這樣的,顯然,我們共有n(n-1)/2個配對方法。我們在行方向計算出可能取到的配對書,在列方向計算可能取到的配對數,相乘以後,除以總的配對數。這就是a的期望了。

這裡呢,這個期望就像是一個benchmark,用來衡量距離用的。