聚類方法：DBSCAN演算法研究（2）--matlab程式碼實現

阿新 • • 發佈：2019-01-31

DBSCAN聚類演算法三部分：

1、 DBSCAN原理、流程、引數設定、優缺點以及演算法；

2、 matlab程式碼實現；

3、 C++程式碼實現及與matlab例項結果比較。

摘要：介紹DBSCAN原理、流程、引數設定、優缺點以及演算法的matlab和C++程式碼例項。

matlab程式碼測試實驗(程式碼從matlab官方網站[8]下載)：

下載的程式碼主要包括一個測試資料集合mydata.mat,main.m，DBSCAN.m和PlotClusterinResult.m共4個檔案，我們在測試實驗實驗中做了兩個方面更改：1)更換了另外一個測試資料，測試資料來源於

[13]（取其中的一部分）,2)添加了個K距離圖部分程式碼(均在如下主程式程式碼中給出)，程式碼按照個人對k-distance graph的理解編寫，如有錯誤之處，望大家指正，3）改變引數Eps值大小，輸出結果並顯示。

所有測試程式碼在下文給出，包括DBSCAN.m和PlotClusterinResult.m子函式。

（所有測試程式碼下載：）

%main function：主函式
%all codes and test data downlown: http://yarpiz.com/255/ypml110-dbscan-clustering 
 % Copyright (c) 2015, Yarpiz (www.yarpiz.com)
% All rights reserved. Please read the "license.txt" for license terms.
%
% Project Code: YPML110
% Project Title: Implementation of DBSCAN Clustering in MATLAB
% Publisher: Yarpiz (www.yarpiz.com)
% 
% Developer: S. Mostapha Kalami Heris (Member of Yarpiz Team)
% 
% Contact Info:  
[email protected], [email protected]
clc;
clear;
close all;

%% test Data
%資料下載網站：http://archive.ics.uci.edu/ml/machine-learning-databases/iris/
%這裡使用的iris資料的一部分，由於第3維和第4為資料資料區分度好，因此用3、4維資料測試
X1 =[5.1,3.5,1.4,0.2;%,Iris-setosa
4.9,3.0,1.4,0.2;
4.7,3.2,1.3,0.2;
4.6,3.1,1.5,0.2;
5.1,3.7,1.5,0.4;
4.6,3.6,1.0,0.2;
5.1,3.3,1.7,0.5;
5.0,3.6,1.4,0.2;
5.4,3.9,1.7,0.4;
4.6,3.4,1.4,0.3;
5.0,3.4,1.5,0.2;
4.4,2.9,1.4,0.2;
4.9,3.1,1.5,0.1;
5.4,3.7,1.5,0.2;
4.8,3.4,1.6,0.2;
4.8,3.0,1.4,0.1;
4.3,3.0,1.1,0.1;
5.8,4.0,1.2,0.2;
5.7,4.4,1.5,0.4;
5.4,3.9,1.3,0.4;
5.1,3.5,1.4,0.3;
5.7,3.8,1.7,0.3;
5.1,3.8,1.5,0.3;
5.4,3.4,1.7,0.2;
6.4,3.2,4.5,1.5;%Iris-versicolor
6.9,3.1,4.9,1.5;
5.5,2.3,4.0,1.3;
6.5,2.8,4.6,1.5;
5.7,2.8,4.5,1.3;
6.3,3.3,4.7,1.6;
4.9,2.4,3.3,1.0;
4.9,2.4,3.3,1.0;
6.6,2.9,4.6,1.3;
5.2,2.7,3.9,1.4;
5.0,2.0,3.5,1.0;
5.9,3.0,4.2,1.5;
6.0,2.2,4.0,1.0];
 
X=X1(:,3:4);

%%KNN k distance graph, to determine the epsilon
A=X;
numData=size(A,1);
Kdist=zeros(numData,1);
[IDX,Dist]=knnsearch(A(2:numData,:),A(1,:));
Kdist(1)=Dist;
for i=2:size(A,1)
    [IDX,Dist] = knnsearch(A([1:i-1,i+1:numData],:),A(i,:));
    Kdist(i)=Dist;
end
[sortKdist,sortKdistIdx]=sort(Kdist,'descend');
distX=[1:numData]';
plot(distX,sortKdist,'r+-','LineWidth',2);
set(gcf,'position',[1000 340 350 350]);
grid on;

%% Run DBSCAN Clustering Algorithm
epsilon= 0.15 ;
MinPts=  3   ;
IDX1=DBSCAN(X,epsilon,MinPts);
%% Plot Results
figure;
PlotClusterinResult(X, IDX1);
title(['DBSCAN Clustering (\epsilon = ' num2str(epsilon) ', MinPts = ' num2str(MinPts) ')']);
set(gcf,'position',[30 -10 500 500]); 


epsilon= 0.25 ;
MinPts=  3   ;
IDX2=DBSCAN(X,epsilon,MinPts);
%% Plot Results
figure;
PlotClusterinResult(X, IDX2);
title(['DBSCAN Clustering (\epsilon = ' num2str(epsilon) ', MinPts = ' num2str(MinPts) ')']);
set(gcf,'position',[530 -10 500 500]);

epsilon= 0.5 ;
MinPts=  3   ;
IDX3=DBSCAN(X,epsilon,MinPts);
%% Plot Results
figure;
PlotClusterinResult(X, IDX3);
title(['DBSCAN Clustering (\epsilon = ' num2str(epsilon) ', MinPts = ' num2str(MinPts) ')']);
set(gcf,'position',[30 380 500 500]);


%DBSCAN演算法子函式，需另外建立.m檔案儲存
% Copyright (c) 2015, Yarpiz (www.yarpiz.com)
% All rights reserved. Please read the "license.txt" for license terms.
%
% Project Code: YPML110
% Project Title: Implementation of DBSCAN Clustering in MATLAB
% Publisher: Yarpiz (www.yarpiz.com)
% 
% Developer: S. Mostapha Kalami Heris (Member of Yarpiz Team)
% 
% Contact Info:  
[email protected], [email protected]
function [IDX, isnoise]=DBSCAN(X,epsilon,MinPts)
    C=0;
    n=size(X,1);
    IDX=zeros(n,1);
    D=pdist2(X,X);
    visited=false(n,1);
    isnoise=false(n,1);
    for i=1:n
        if ~visited(i)
            visited(i)=true;
            
            Neighbors=RegionQuery(i);
            if numel(Neighbors)<MinPts
                % X(i,:) is NOISE
                isnoise(i)=true;
            else
                C=C+1;
                ExpandCluster(i,Neighbors,C);
            end
            
        end
    end
    
    function ExpandCluster(i,Neighbors,C)
        IDX(i)=C;
        
        k = 1;
        while true
            j = Neighbors(k);
            
            if ~visited(j)
                visited(j)=true;
                Neighbors2=RegionQuery(j);
                if numel(Neighbors2)>=MinPts
                    Neighbors=[Neighbors Neighbors2];   %#ok
                end
            end
            if IDX(j)==0
                IDX(j)=C;
            end
            
            k = k + 1;
            if k > numel(Neighbors)
                break;
            end
        end
    end
    
    function Neighbors=RegionQuery(i)
        Neighbors=find(D(i,:)<=epsilon);
    end

end

%結果顯示子函式，需另外建立.m檔案儲存
% Copyright (c) 2015, Yarpiz (www.yarpiz.com)
% All rights reserved. Please read the "license.txt" for license terms.
%
% Project Code: YPML110
% Project Title: Implementation of DBSCAN Clustering in MATLAB
% Publisher: Yarpiz (www.yarpiz.com)
% 
% Developer: S. Mostapha Kalami Heris (Member of Yarpiz Team)
% 
% Contact Info: [email protected], [email protected]

function PlotClusterinResult(X, IDX)

    k=max(IDX);

    Colors=hsv(k);

    Legends = {};
    for i=0:k
        Xi=X(IDX==i,:);
        if i~=0
            Style = 'x';
            MarkerSize = 8;
            Color = Colors(i,:);
            Legends{end+1} = ['Cluster #' num2str(i)];
        else
            Style = 'o';
            MarkerSize = 6;
            Color = [0 0 0];
            if ~isempty(Xi)
                Legends{end+1} = 'Noise';
            end
        end
        if ~isempty(Xi)
            plot(Xi(:,1),Xi(:,2),Style,'MarkerSize',MarkerSize,'Color',Color);
        end
        hold on;
    end
    hold off;
    axis equal;
    grid on;
    legend(Legends);
    legend('Location', 'NorthEastOutside');
end

執行結果：

觀察當Eps由小到大變化時候，當Eps=0.15時，資料分成2類，噪音點有9個，當Eps=0.25時，資料分成3來，噪音點4個，Eps=0.15時，被分成2類，無噪音點，而根據k距離圖大致確定0.15為較適合的Eps引數值，但是這不能很好的將這兩類資料分開（資料來源：http://archive.ics.uci.edu/ml/machine-learning-databases/iris/，資料詳細說明可到上述網站檢視），這可能是資料密度分佈不均勻，導致引數Eps不太容易確定，在這種時候按照引數設定的指導原則不能選取較好的引數，而是需要根據具體應用先驗進行引數適當調整。

有關matlab版本的DBSCAN演算法程式碼，除了matlab官網可以下載DBSCAN演算法程式碼知網,[9]也給出一個最原始的DBSCAN的matlab實現，只能處理小規模的資料。

參考資料：

[2]Ester,Martin;Kriegel, Hans-Peter; Sander,Jörg; Xu, Xiaowei (1996). Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M.,eds.Adensity-based algorithm for discovering clusters in large spatial databaseswith noise. Proceedings of the Second International Conference on KnowledgeDiscovery and Data Mining (KDD-96).AAAI Press.pp. 226–231.CiteSeerX 10.1.1.121.9220.ISBN 1-57735-004-9.

[3] 各種聚類演算法的比較

聚類方法：DBSCAN演算法研究（2）--matlab程式碼實現

聚類方法：DBSCAN演算法研究（2）--matlab程式碼實現

聚類方法：DBSCAN演算法研究（1）--DBSCAN原理、流程、引數設定、優缺點以及演算法

神經網路聚類方法：SOM演算法原理

測量人臉顏值的標準有哪些，人臉影象演算法研究（2）

聚類方法之DBSCAN

視覺SLAM之詞袋（bag of words）模型與K-means聚類演算法淺析（2）

《C語言程式設計：現代方法（第2版）（K.N.King 著）》學習筆記九：格式化輸入/輸出（2）

演算法研究（1）python實現經典排序演算法並可視化分析複雜度

演算法最優化（2）線性規劃問題中的常見概念辨析：可行解，最優解，基，基向量，非基向量，基變數，非基變數等等

基於大資料的推薦演算法研究（1）

FCM演算法研究（二）--近五年改進文獻彙總

機器學習：各演算法小結（3）

iOS 給測試人員測試手機APP的四種方法：真機執行（略），打ipa包，（testFlighe）郵件,蒲公英（一）打ipa包

CamShift 目標跟蹤演算法研究（轉）

Android中apk動態載入技術研究（2）android插件化及實現

kaggle入門項目：Titanic存亡預測（五）驗證與實現

selenium2學習：單元測試框架（2）

實驗四：shell編程（2）

第一行代碼：以太坊（2）-使用Solidity語言開發和測試智能合約

Learning-Python【19】：Python常用模組（2）—— os、sys、shutil

聚類方法：DBSCAN演算法研究（2）--matlab程式碼實現

相關推薦