(3)聚類演算法之DBSCAN演算法
阿新 • • 發佈:2018-12-18
文章目錄
1.引言
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
DBSCAN
將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區域劃分為簇,並可在噪聲的空間資料庫中發現任意形狀的聚類。
2.DBSCAN
相關定義
DBSCAN
是基於一組鄰域來描述樣本集的緊密程度的,引數
用來描述鄰域的樣本分佈緊密程度。其中,
描述了某一資料點的鄰域距離閾值(半徑),
描述了資料點半徑為
的鄰域中資料點個數的最小個數。下面是與密度聚類相關的定義(假設我的樣本集是
):
- -鄰域:對於 ,其 -鄰域包含樣本集 中與 的距離不大於 的子樣本集。即 , 這個子樣本集的個數記為 。 -鄰域是一個集合
- 核心物件:對於任一樣本 ,如果其 -鄰域對應的 至少包含 個樣本,即如果 ,則 是核心物件。
- 密度直達:如果 位於 的 -鄰域中,且 是核心物件,則稱 由 密度直達。反之不一定成立,即此時不能說 由 密度直達, 除非且 也是核心物件,即密度直達不滿足對稱性
- 密度可達:對於 和 ,如果存在樣本樣本序列 ,滿足 , 且 由 密度直達,則稱 由 密度可達。也就是說,密度可達滿足傳遞性。此時序列中的傳遞樣本** 均為核心物件**,因為只有核心物件才能使其他樣本密度直達。密度可達也不滿足對稱性,這個可以由密度直達的不對稱性得出。
- 密度相連:對於 和 ,如果存在核心物件樣本 ,使** 和