DBSCAN詳解

第二十二次寫部落格，本人數學基礎不是太好，如果有幸能得到讀者指正，感激不盡，希望能借此機會向大家學習。這一篇作為密度聚類演算法族的開篇，主要是介紹其中最流行的一種演算法——DBSCAN，其他演算法在後續會陸續更新，連結附在該篇文章的結尾處。

預備知識：

這一部分主要是談一談DBSCAN中一些概念的定義： $\epsilon$ -領域、核心物件、密度直達、密度可達以及密度相連。

$\epsilon$ -領域（ $\epsilon$ -neighborhood）

與資料集 $D$ 中樣本點 $\mathbf{x}_j$ 的距離不大於 $\epsilon$ 的樣本點所構成的集合 $N_{ϵ} (x$

j)N_{\epsilon}\left(\mathbf{x}_j\right)

N_{ϵ} (x_{j})

被稱為樣本

\mathbf{x}_j

的

\epsilon

-領域，即

N_{\epsilon}\left(\mathbf{x}_j\right)=\{\mathbf{x}_{j}\in{D}|dist\left(\mathbf{x}_i,\mathbf{x}_j\right)\leq\epsilon\}

。

核心物件（core object）

如果樣本點 $\mathbf{x}_j$

x_{j}

的

\epsilon

-領域內所含的樣本點數大於

MinPts

，那麼

\mathbf{x}_j

就被稱為核心物件，即

|N_{\epsilon}\left(\mathbf{x}_j\right)|\geq{MinPts}

。

密度直達（directly density-reachable）

如果樣本點 $\mathbf{x}_i$ 位於核心物件 $\mathbf{x}_j$ 的 $\epsilon$ -領域中，那麼稱樣本點 $\mathbf{x}_i$ 由 $\mathbf{x}_j$ 密度直達，即 $x$

i∈Nϵ(xj)\mathbf{x}_{i}\in{N_{\epsilon}\left(\mathbf{x}_j\right)}

x_{i} \in N_{ϵ} (x_{j})

且

|N_{\epsilon}\left(\mathbf{x}_j\right)|\geq{MinPts}

。注：密度直達一般不滿足對稱性，即

\mathbf{x}_i

由

\mathbf{x}_j

密度直達，但反之不一定成立。

密度可達（density-reachable）

存在樣本點序列 $P_1,P_2,...,P_n$ ，其中 $P_1=\mathbf{x}_j$ 、 $P_n=\mathbf{x}_i$ ，且 $P_{i+1}$ 由 $P_{i}$ 密度直達，那麼稱樣本點 $\mathbf{x}_i$ 由 $\mathbf{x}_j$ 密度可達。注：密度可達同樣不滿足對稱性，但是滿足直遞性，即若存在 $P_i$ 由 $P_j$ 密度可達， $P_j$ 由 $P_k$ 密度可達，那麼可以推出 $P_i$ 由 $P_k$ 密度可達。

密度相連（density-connected）

假設存在樣本點 $\mathbf{x}_k$ ，使得 $\mathbf{x}_i$ 和 $\mathbf{x}_j$ 均由 $\mathbf{x}_k$ 密度直達，那麼就稱 $\mathbf{x}_i$ 和 $\mathbf{x}_j$ 密度相連。注：密度相連滿足對稱性。

推導過程

首先介紹被DBSCAN劃分出來的三類點（核心點、邊界點和噪聲點）、DBSCAN中簇是如何定義的，然後給出該演算法的虛擬碼，並對如何選擇演算法中影響聚類效果的“鄰域引數”進行介紹，最後介紹該演算法的優缺點。

核心點（core point）、邊界點（border point）和噪聲點（noise point）

DBSCAN是密度聚類中的代表性演算法，他主要通過樣本密度來考察樣本間的可連線性，其中簇的形成主要基於樣本間距離的定義以及“鄰域引數” $\left(\epsilon,MinPts\right)$ 。根據以上條件，在DBSCAN中定義了這幾個概念： $\epsilon$ -領域、核心物件、密度直達、密度可達和密度相連，並由此引出了三種點的定義，
a)核心點：核心點即核心物件；
b)邊界點：位於核心物件的 $\epsilon$ -領域上和領域中的點；
c)噪聲點：既不是核心點又不是邊界點的樣本。

DBSCAN中的簇

DBSCAN中簇的定義為，樣本集中由密度可達關係匯出的最大的密度相連樣本集合，這種型別的簇滿足以下兩條屬性：
a)連線性：簇中任意兩點均密度可達；
b)最大性：所有密度可達的點必定位於同一個簇中。

DBSCAN的虛擬碼

DBSCAN聚類的大體思路是，先將樣本集中的核心點集提取出來，再隨機選擇一個核心點作為“種子”，通過密度可達性逐步向外發散，進而找到最大的密度相連區域，具體步驟如下所示

演算法第1-7行：初始化核心物件集合 $\Omega$ ，遍歷整個資料集 $D$ ，找出核心物件並加入到該集合中；
演算法第8-9行：初始化簇數目 $k$ ，並將未訪問樣本集合 $\Gamma$ 初始化為原始資料集 $D$ ；
演算法第10行：只要核心物件集合 $\Omega$ 中還有核心點存在，就要繼續進行迭代；
演算法第11行：將本次迭代中未訪問的樣本集合 $\Gamma$ 拷貝到 $\Gamma_{old}$ 中；
演算法第12行：從 $\Omega$ 隨機提取出一個核心點作為本次迭代的種子，並將其加入到佇列 $Q$ 中；
演算法第13行：將取到的核心點從未訪問樣本集合 $\Gamma$ 中剔除；
演算法第14-21行：只要佇列 $Q$ 不為空集，那麼每次從其中提取出首個元素，如果該元素為核心物件，那麼就將同時存在在該核心物件 $\epsilon$ -領域中的所有點和未訪問樣本集合 $\Gamma$ 中的樣本點記錄到佇列 $Q$ 中，並且從 $\Gamma$ 中剔除這些點；
演算法第22-23行：找到簇中所有的樣本點後，簇數目增一，然後將那些出現在未訪問的樣本集合原始拷貝 $\Gamma_{old}$ 中，且未出現在當前未訪問樣本集合 $\Gamma$ 的點集合作為本次迭代生成的簇 $C_k$ ，最後從核心物件集合 $\Omega$ 中剔除 $C_k$ 中出現的核心點；
演算法第24行：當不滿足第10行的迭代條件時，退出迴圈。

如何選擇DBSCAN的引數

從上述討論可知，“鄰域引數” $\left(\epsilon,MinPts\right)$ 是影響該演算法聚類質量的兩個重要的因素。根據該演算法的虛擬碼，那些沒有被分配到任何簇中的樣本點被作為噪聲來處理，當 $\epsilon$ 設定的比較大而 $MinPts$ 設定的較小時，某些噪聲點甚至會被選為核心點，而當 $\epsilon$ 設定的比較小而 $MinPts$ 設定的較大時，該演算法甚至不會生成有效簇。舉例來說，下圖中存在4個被噪聲點包圍的簇，點的密度越大，影象越深。

如果 $\epsilon$ 設定的足夠高，那麼DBSCAN就會發現簇C和D，但是這時圖中左側的簇A、B及其周圍的噪聲點將被作為一個簇來處理，如果 $\epsilon$ 設定的足夠低，那麼DBSCAN就會發現簇A和B，但是會將圖中右側的所有樣本點做為早噪聲來處理，因此如何選擇鄰域引數非常重要。一種基本的方法是基於 $k$ -距離的思想，選取某個 $k$ 值，並計算資料集中所有樣本點距離其第 $k$ （一般取4）個最近鄰的距離，然後將這些距離進行排序，會得到類似於下圖中的特性曲線

可以明顯的看出圖中某點處的 $k$ -距離急劇上升，那麼這個點所對應的 $k$ -距離可以作為 $\epsilon$ 的值，此時的 $k$ 就是 $MinPts$ 。

DBSCAN的優缺點

DBSCAN的時間複雜度是 $O\left(m^2\right)$

相關推薦

DBSCAN詳解（密度聚類演算法開篇）

DBSCAN詳解第二十二次寫部落格，本人數學基礎不是太好，如果有幸能得到讀者指正，感激不盡，希望能借此機會向大家學習。這一篇作為密度聚類演算法族的開篇，主要是介紹其中最流行的一種演算法——DBSCAN，其他演算法在後續會陸續更新，連結附在該篇文章的結尾處。

原型聚類演算法綜述（原型聚類演算法開篇）

原型聚類演算法綜述第十六次寫部落格，本人數學基礎不是太好，如果有幸能得到讀者指正，感激不盡，希望能借此機會向大家學習。這一篇作為該類演算法族的開篇，主要介紹了基於原型聚類的最終模型和優化目標。基於原型的聚類最終產生的模型包含以下兩部分： (1)

基於圖的聚類演算法綜述（基於圖的聚類演算法開篇）

基於圖的聚類演算法綜述第三十二次寫部落格，本人數學基礎不是太好，如果有幸能得到讀者指正，感激不盡，希望能借此機會向大家學習。這一篇文章作為基於圖的聚類（Figure-based Clustering）演算法的開篇，簡要介紹了該類演算法的相關內容，併為之後的演算法詳解做鋪墊。

【無監督學習】3：Density Peaks聚類演算法實現（區域性密度聚類演算法）

前言：密度峰聚類演算法和DBSCAN聚類演算法有相似的地方，兩者都是基於密度的聚類方式。自己是在學習無監督學習過程中，無意間見到介紹這種聚類演算法的文章，感覺密度峰聚類演算法方法很新奇，操作也很簡答，於是自己也動手寫一下了。 –—-—-—-—-—-—-—-—-

DBSCAN密度聚類演算法

　　　　DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪聲的基於密度的聚類方法)是一種很典型的密度聚類演算法，和K-Means，BIRCH這些一般只適用於凸樣本集的聚類相比，DBSCAN既可以適用於凸樣本集，也可以適用

java類型轉換詳解（自動轉換和強制轉換）

代碼 oid 高精 log 相加 println 類型轉換詳解範圍 void 自動轉換 class Hello { public static void main(String[] args) { //自動轉換 int a = 5; byte b = 6

深度學習 --- BP演算法詳解（誤差反向傳播演算法）

本節開始深度學習的第一個演算法BP演算法，本打算第一個演算法為單層感知器，但是感覺太簡單了，不懂得找本書看看就會了，這裡簡要的介紹一下單層感知器：圖中可以看到，單層感知器很簡單，其實本質上他就是線性分類器，和機器學習中的多元線性迴歸的表示式差不多，因此它具有多元線性迴歸的優點和缺點。

SIFT演算法詳解（這篇對演算法講解的還是相當清楚的）

尺度不變特徵變換匹配演算法詳解 Scale Invariant Feature Transform(SIFT) Just For Fun 對於初學者，從David G.Lowe的論文到實現，有許多鴻溝，本文幫你跨越。 1、SIFT綜述尺度不變特徵轉換(

階梯博弈演算法詳解（尼姆博弈進階）

1.什麼是階梯博弈？階梯的序號如圖所示，地面表示第0號階梯。每次都可以將一個階梯上的石子向其左側移動任意個石子，沒有可以移動的空間時（及所有石子都位於地面時）輸。 2.階梯博弈的演算法階梯博弈等效

linux下Nginx配置文件(nginx.conf)配置設置詳解（windows用phpstudy集成）

兩個 response 機制 .so 不用 filename 發送 php文件 code linux備份nginx.conf文件舉例: cp /usr/local/nginx/nginx.conf /usr/local/nginx/nginx.conf-2017111

Linux命令詳解（部分昨今兩天）

Linux命令詳解基本命令1.Linux的基本原則：1、由目的單一的小程序組成；組合小程序完成復雜任務；2、一切皆文件；3、盡量避免捕獲用戶接口；（盡量不和用戶進行交互，就是一個程序一但開始運行，就不需要用戶進行任何操作，如ls命令，ifconfig命令）4、配置文件保存為純文本格式；2.命令形式命令格式：命

Delphi中TApplication詳解（轉僅供自己參考）

exce 停止 main roc 參數 reference pause 響應選擇轉自：http://blog.sina.com.cn/s/blog_4d6f55d90100bmv9.html 　　TApplication是用於Delphi應用程序的類型，該類在單元fo

Flume NG高可用叢集搭建詳解（基於flume-1.7.0）

1、Flume NG簡述 Flume NG是一個分散式，高可用，可靠的系統，它能將不同的海量資料收集，移動並存儲到一個數據儲存系統中。輕量，配置簡單，適用於各種日誌收集，並支援 Failover和負載均衡。並且它擁有非常豐富的元件。Flume NG採用的是三層架構：Agent層，Collecto

oracle 高水位線詳解（刪除大量資料後續處理）

一、oracle 高水位線詳解一、什麼是水線(High Water Mark)? 所有的oracle段(segments，在此，為了理解方便，建議把segment作為表的一個同義詞) 都有一個在段內容納資料的上限，我們把這個上限稱為"high water mark"或HWM。這個HWM是一個標記，

h5標籤詳解（新增的以及改良的）

文章來自：原始碼線上https://www.shengli.me/h5/62.html 1、progress 標籤：進度條； 2、ol標籤改良：starttype reversed;翻轉排序； 3、dat

手機端rem佈局詳解（淘寶無限適配）

這是淘寶的github網址，裡面有適配所需的js還有說明文件地址：https://github.com/amfe/lib-flexible 1. 問題的引出最近閱讀白樹的博文《移動web資源整理》時，他在博文中有一段指出，如果html5要適應各種解析度的移動裝置，應該使用rem這樣的尺寸

Occlusion-aware R-CNN: Detecting Pedestrians in a Crowd 詳解（遮擋下的行人檢測）

文章地址：https://arxiv.org/pdf/1807.08407.pdf 暫時沒有放出原始碼，如果有小夥伴找到程式碼的話歡迎留言給我。一、概述依然是解決在遮擋的情況下對人的檢測的文章，作者分別從loss和two stage detector中核心的ROI Pooling

Repulsion Loss: Detecting Pedestrians in a Crowd 詳解（遮擋下的行人檢測）

最近做行人檢測Re-ID的工作，讀了Repulsion Loss: Detecting Pedestrians in a Crowd，所以剛好記錄一下對論文的閱讀和個人理解。文章中部分內容為引用別人的，我在文章最後也給出了引用的文章連結。如有侵權，請聯絡我刪除。一、綜述行人檢測中

【Mint-UI】search元件的使用及詳解（內含取消事件的觸發）

用過Mint-UI的同學都知道，Mint-UI的文件寫的極簡，剛接觸的同學難免會因為文件不夠詳細而暈頭轉向無法下手（日常吐槽）由於專案的需要，入坑了mint-ui的search元件，文件寫的果然讓人摸不到頭腦。下邊直接看效果：我們開發的是基於微信瀏覽器的移動端專案，該圖是

Python時間獲取詳解，Django獲取時間詳解，模板中獲取時間詳解（navie時間和aware時間）

# 1、Python獲取到的時間 import pytz from datetime import datetime now = datetime.now() # 這個時間為navie時間（自己不

DBSCAN詳解（密度聚類演算法開篇）