1. 程式人生 > >基於圖的聚類演算法綜述(基於圖的聚類演算法開篇)

基於圖的聚類演算法綜述(基於圖的聚類演算法開篇)

基於圖的聚類演算法綜述

第三十二次寫部落格,本人數學基礎不是太好,如果有幸能得到讀者指正,感激不盡,希望能借此機會向大家學習。這一篇文章作為基於圖的聚類(Figure-based Clustering)演算法的開篇,簡要介紹了該類演算法的相關內容,併為之後的演算法詳解做鋪墊。

如何稀疏化鄰近度圖

  稀疏化鄰近度圖,即只保留物件與其最近鄰之間的連線,採用這種處理方法有利於處理離群點和噪聲,還可以基於稀疏化後的鄰近度圖上執行專為其開發的聚類演算法。因此,這一部分主要是介紹如何進行稀疏化,然後介紹兩種專門為稀疏化鄰近度圖開發的聚類演算法:MST和Opossum。

相似性度量的新定義——SNN

  SNN是一種基於共享的近鄰個數來定義兩個物件之間相似度的方法,該方法基於這樣一個事實,即物件和他的最近鄰通常屬於同一個類中,他可以有效的克服高維和變密度簇的問題。因此,這一部分主要介紹SNN是如何定義的,並介紹一種使用這種相似性度量的聚類演算法:Jarvis-Patrick。

基於SNN度量的類DBSCAN算

  這一部分將會介紹一種與DBSCAN類似的演算法,他同樣通過定義核心物件並構建環繞他們的簇,由於該演算法是一種基於圖的聚類演算法,因此需要引入近鄰度圖或稀疏化後的近鄰度圖的基於密度概念(SNN密度)。

何時應該合併兩個簇

  兩個簇合並的條件是,合併後生成的簇具有類似於這兩個簇的特性,這就要求我們使用鄰近度圖中的資訊,提供兩個簇是否應該合併的更復雜的評估。因此,這一部分將會討論一種使用自相似性(Self-similarity)概念確定簇是否應該合併的層次聚類演算法:Chameleon。


以下是各種基於圖的聚類演算法的連結
【1】稀疏化鄰近度圖、MST聚類、OPOSSUM聚類《稀疏化鄰近度圖》
【2】共享最近鄰相似度、Jarvis-Patrick聚類《共享最近鄰相似度》
【3】SNN密度、類DBSCAN演算法《基於密度的新概念——SNN密度》
【4】Chameleon聚類《使用自相似性的聚類方法——Chameleon》