密度聚類(DBSCAN)
阿新 • • 發佈:2019-01-05
DBSCAN
基本概念與演算法原理
有資料集
有如下基本概念:
ϵ -鄰域:資料集D 中除xi 外的其他樣本與xi 距離小於ϵ 的樣本集合。記作Nϵ(xj)={xj∈D|dist(xi,xj)⩽ϵ}. - 核心物件(Core Object):若
xj 的ϵ -鄰域中樣本數量大於MinPts ,則樣本xj 為核心物件。記作|Nϵ(xj)|⩾MinPts. - 密度直達(Directly Density-Reachable):若樣本
xi 是xj 的ϵ -鄰域中的樣本(xi∈Nϵ(xj) ),則xi 由xj 密度直達. - 密度可達(Density-Reachable):存在樣本序列
P ,其中P1 的核心物件為xi ,Pn 的核心物件為xj ,且Pi+1 由Pi 密度直達,則xi 由xj 密度可達. - 密度相連(Density-Connected):
∃xk∈D ,使xi 和xj 均由xk 密度可達,則xi 和xj 密度相連.
圖例:
由此,我們可由密度可達關係匯出最大密度相連樣本集合。
給定引數
- 連線性(Connectivity):
Xi∈C ,xj∈C :xi 與xj 密度相連. - 最大性(Maximality):
xi∈C ,xi 由xj 密度可達,則xj∈C .
從選定的核心點出發,不斷向密度可達的
演算法原理
class sklearn.cluster.DBSCAN(eps=0.5,
min_samples=5,
metric=’euclidean’,
metric_params=None,
algorithm=’auto’,
leaf_size=30,
p=None,
n_jobs=1 )
Reference
Ester M, Kriegel H P, Xu X. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C]// International Conference on Knowledge Discovery and Data Mining. AAAI Press, 1996:226-231.