發表在 Science 上的一種新聚類演算法

阿新 • • 發佈：2019-02-07

 今年 6 月份，Alex Rodriguez 和 Alessandro Laio 在 Science 上發表了一篇名為《Clustering by fast search and find of density peaks》的文章，為聚類演算法的設計提供了一種新的思路。雖然文章出來後遭到了眾多讀者的質疑，但整體而言，新聚類演算法的基本思想很新穎，且簡單明快，值得學習。這個新聚類演算法的核心思想在於對聚類中心的刻畫上，本文將對該演算法的原理進行詳細介紹，並對其中的若干細節展開討論。

最後，附上作者在補充材料裡提供的 Matlab 示例程式 （加了適當的程式碼註釋）。

clear all
close all
disp('The only input needed is a distance matrix file')
disp('The format of this file should be: ')
disp('Column 1: id of element i')
disp('Column 2: id of element j')
disp('Column 3: dist(i,j)')
%% 從檔案中讀取資料
mdist=input('name of the distance matrix file (with single quotes)?\n');
disp('Reading input distance matrix')
xx=load(mdist);
ND=max(xx(:,2));
NL=max(xx(:,1));
if (NL>ND)
ND=NL; %% 確保 DN 取為第一二列最大值中的較大者，並將其作為資料點總數
end
N=size(xx,1); %% xx 第一個維度的長度，相當於檔案的行數（即距離的總個數）
%% 初始化為零
for i=1:ND
for j=1:ND
dist(i,j)=0;
end
end
%% 利用 xx 為 dist 陣列賦值，注意輸入只存了 0.5*DN(DN-1) 個值，這裡將其補成了滿矩陣
%% 這裡不考慮對角線元素
for i=1:N
ii=xx(i,1);
jj=xx(i,2);
dist(ii,jj)=xx(i,3);
dist(jj,ii)=xx(i,3);
end
%% 確定 dc
percent=2.0;
fprintf('average percentage of neighbours (hard coded): %5.6f\n', percent);
position=round(N*percent/100); %% round 是一個四捨五入函式
sda=sort(xx(:,3)); %% 對所有距離值作升序排列
dc=sda(position);
%% 計算區域性密度 rho (利用 Gaussian 核)
fprintf('Computing Rho with gaussian kernel of radius: %12.6f\n', dc);
%% 將每個資料點的 rho 值初始化為零
for i=1:ND
rho(i)=0.;
end
% Gaussian kernel
for i=1:ND-1
for j=i+1:ND
rho(i)=rho(i)+exp(-(dist(i,j)/dc)*(dist(i,j)/dc));
rho(j)=rho(j)+exp(-(dist(i,j)/dc)*(dist(i,j)/dc));
end
end
% "Cut off" kernel
%for i=1:ND-1
% for j=i+1:ND
% if (dist(i,j)<dc)
% rho(i)=rho(i)+1.;
% rho(j)=rho(j)+1.;
% end
% end
%end
%% 先求矩陣列最大值，再求最大值，最後得到所有距離值中的最大值
maxd=max(max(dist));
%% 將 rho 按降序排列，ordrho 保持序
[rho_sorted,ordrho]=sort(rho,'descend');
%% 處理 rho 值最大的資料點
delta(ordrho(1))=-1.;
nneigh(ordrho(1))=0;
%% 生成 delta 和 nneigh 陣列
for ii=2:ND
delta(ordrho(ii))=maxd;
for jj=1:ii-1
if(dist(ordrho(ii),ordrho(jj))<delta(ordrho(ii)))
delta(ordrho(ii))=dist(ordrho(ii),ordrho(jj));
nneigh(ordrho(ii))=ordrho(jj);
%% 記錄 rho 值更大的資料點中與 ordrho(ii) 距離最近的點的編號 ordrho(jj)
end
end
end
%% 生成 rho 值最大資料點的 delta 值
delta(ordrho(1))=max(delta(:));
%% 決策圖
disp('Generated file:DECISION GRAPH')
disp('column 1:Density')
disp('column 2:Delta')
fid = fopen('DECISION_GRAPH', 'w');
for i=1:ND
fprintf(fid, '%6.2f %6.2f\n', rho(i),delta(i));
end
%% 選擇一個圍住類中心的矩形
disp('Select a rectangle enclosing cluster centers')
%% 每臺計算機，控制代碼的根物件只有一個，就是螢幕，它的控制代碼總是 0
%% >> scrsz = get(0,'ScreenSize')
%% scrsz =
%% 1 1 1280 800
%% 1280 和 800 就是你設定的計算機的解析度，scrsz(4) 就是 800，scrsz(3) 就是 1280
scrsz = get(0,'ScreenSize');
%% 人為指定一個位置，感覺就沒有那麼 auto 了 :-)
figure('Position',[6 72 scrsz(3)/4. scrsz(4)/1.3]);
%% ind 和 gamma 在後面並沒有用到
for i=1:ND
ind(i)=i;
gamma(i)=rho(i)*delta(i);
end
%% 利用 rho 和 delta 畫出一個所謂的“決策圖”
subplot(2,1,1)
tt=plot(rho(:),delta(:),'o','MarkerSize',5,'MarkerFaceColor','k','MarkerEdgeColor','k');
title ('Decision Graph','FontSize',15.0)
xlabel ('\rho')
ylabel ('\delta')
subplot(2,1,1)
rect = getrect(1);
%% getrect 從圖中用滑鼠擷取一個矩形區域， rect 中存放的是
%% 矩形左下角的座標 (x,y) 以及所截矩形的寬度和高度
rhomin=rect(1);
deltamin=rect(2); %% 作者承認這是個 error，已由 4 改為 2 了!
%% 初始化 cluster 個數
NCLUST=0;
%% cl 為歸屬標誌陣列，cl(i)=j 表示第 i 號資料點歸屬於第 j 個 cluster
%% 先統一將 cl 初始化為 -1
for i=1:ND
cl(i)=-1;
end
%% 在矩形區域內統計資料點（即聚類中心）的個數
for i=1:ND
if ( (rho(i)>rhomin) && (delta(i)>deltamin))
NCLUST=NCLUST+1;
cl(i)=NCLUST; %% 第 i 號資料點屬於第 NCLUST 個 cluster
icl(NCLUST)=i;%% 逆對映,第 NCLUST 個 cluster 的中心為第 i 號資料點
end
end
fprintf('NUMBER OF CLUSTERS: %i \n', NCLUST);
disp('Performing assignation')
%% 將其他資料點歸類 (assignation)
for i=1:ND
if (cl(ordrho(i))==-1)
cl(ordrho(i))=cl(nneigh(ordrho(i)));
end
end
%% 由於是按照 rho 值從大到小的順序遍歷,迴圈結束後, cl 應該都變成正的值了.
%% 處理光暈點，halo這段程式碼應該移到 if (NCLUST>1) 內去比較好吧
for i=1:ND
halo(i)=cl(i);
end
if (NCLUST>1)
% 初始化陣列 bord_rho 為 0,每個 cluster 定義一個 bord_rho 值
for i=1:NCLUST
bord_rho(i)=0.;
end
% 獲取每一個 cluster 中平均密度的一個界 bord_rho
for i=1:ND-1
for j=i+1:ND
%% 距離足夠小但不屬於同一個 cluster 的 i 和 j
if ((cl(i)~=cl(j))&& (dist(i,j)<=dc))
rho_aver=(rho(i)+rho(j))/2.; %% 取 i,j 兩點的平均區域性密度
if (rho_aver>bord_rho(cl(i)))
bord_rho(cl(i))=rho_aver;
end
if (rho_aver>bord_rho(cl(j)))
bord_rho(cl(j))=rho_aver;
end
end
end
end
%% halo 值為 0 表示為 outlier
for i=1:ND
if (rho(i)<bord_rho(cl(i)))
halo(i)=0;
end
end
end
%% 逐一處理每個 cluster
for i=1:NCLUST
nc=0; %% 用於累計當前 cluster 中資料點的個數
nh=0; %% 用於累計當前 cluster 中核心資料點的個數
for j=1:ND
if (cl(j)==i)
nc=nc+1;
end
if (halo(j)==i)
nh=nh+1;
end
end
fprintf('CLUSTER: %i CENTER: %i ELEMENTS: %i CORE: %i HALO: %i \n', i,icl(i),nc,nh,nc-nh);
end
cmap=colormap;
for i=1:NCLUST
ic=int8((i*64.)/(NCLUST*1.));
subplot(2,1,1)
hold on
plot(rho(icl(i)),delta(icl(i)),'o','MarkerSize',8,'MarkerFaceColor',cmap(ic,:),'MarkerEdgeColor',cmap(ic,:));
end
subplot(2,1,2)
disp('Performing 2D nonclassical multidimensional scaling')
Y1 = mdscale(dist, 2, 'criterion','metricstress');
plot(Y1(:,1),Y1(:,2),'o','MarkerSize',2,'MarkerFaceColor','k','MarkerEdgeColor','k');
title ('2D Nonclassical multidimensional scaling','FontSize',15.0)
xlabel ('X')
ylabel ('Y')
for i=1:ND
A(i,1)=0.;
A(i,2)=0.;
end
for i=1:NCLUST
nn=0;
ic=int8((i*64.)/(NCLUST*1.));
for j=1:ND
if (halo(j)==i)
nn=nn+1;
A(nn,1)=Y1(j,1);
A(nn,2)=Y1(j,2);
end
end
hold on
plot(A(1:nn,1),A(1:nn,2),'o','MarkerSize',2,'MarkerFaceColor',cmap(ic,:),'MarkerEdgeColor',cmap(ic,:));
end
%for i=1:ND
% if (halo(i)>0)
% ic=int8((halo(i)*64.)/(NCLUST*1.));
% hold on
% plot(Y1(i,1),Y1(i,2),'o','MarkerSize',2,'MarkerFaceColor',cmap(ic,:),'MarkerEdgeColor',cmap(ic,:));
% end
%end
faa = fopen('CLUSTER_ASSIGNATION', 'w');
disp('Generated file:CLUSTER_ASSIGNATION')
disp('column 1:element id') <

發表在 Science 上的一種新聚類演算法

今年 6 月份，Alex Rodriguez 和 Alessandro Laio 在 Science 上發表了一篇名為《Clustering by fast search and find of density peaks》的文章，為聚類演算法的設計提供了一種新的思路。雖

Science上發表的超讚聚類演算法

作者(Alex Rodriguez, Alessandro Laio)提出了一種很簡潔優美的聚類演算法, 可以識別各種形狀的類簇, 並且其超引數很容易確定. 演算法思想該演算法的假設是類簇的中心由一些區域性密度比較低的點圍繞, 並且這些點距離其他有高區域性密度的點的

一種改進的自適應快速AF-DBSCAN聚類演算法

本人研究生期間寫的關於聚類演算法的一篇論文，已發表，希望對大家學習機器學習、資料探勘等相關研究有所幫助！一種改進的自適應快速AF-DBSCAN聚類演算法 An Improved Adaptive and Fast AF-DBSCAN Clustering Algorit

Science發表的超讚聚類演算法

作者(Alex Rodriguez, Alessandro Laio)提出了一種很簡潔優美的聚類演算法, 可以識別各種形狀的類簇, 並且其超引數很容易確定. 演算法思想聚類過程那些有著比較大的區域性密度ρi和很大的δi的點被認為是類簇的中心. 區域性密度較小但是δi較大的點是異常點.在確定了類簇

一文盤點5種聚類演算法，資料科學家必備！

聚類是一種將資料點按一定規則分群的機器學習技術。給定一組資料點，我們可以使用聚類演算法將每個資料點分類到一個特定的簇中。理論上，屬於同一類的資料點應具有相似的屬性或特徵，而不同類中的資料點應具有差異很大的屬性或特徵。聚類屬於無監督學習中的一種方法，也是一種在許多領域中用於統計

一種面向高維資料的整合聚類演算法

聚類整合已經成為機器學習的研究熱點，它對原始資料集的多個聚類結果進行學習和整合，得到一個能較好地反映資料集內在結構的資料劃分。很多學者的研究證明聚類整合能有效地提高聚類結果的準確性、魯棒性和穩定性。本文提出了一種面向高維資料的聚類整合演算法。該方法針對高維資料的

聚類演算法推薦：一種元學習的方法

摘要：元學習是一種技術，其目的在於理解什麼型別的演算法解決什麼型別的問題。相比之下，聚類是基於物件的相似性把一個數據集劃分幾個簇，不需要物件類標籤的先驗知識。本文提出了基於無標籤物件特徵的提取，使用元學習推薦出聚類演算法。基於將要被計算的聚類問題的特徵以及不同聚類演算法的排

如何在PyEos上整合一種新的智慧合約VM

在PyEos上整合一種新的虛擬機器非常的簡單。PyEos在程式碼中實現了VM介面層，新的VM可以很方便的接進來。接入一款新的VM只需要實現以下5個函式就可以了。五個重要函式 void vm_init(struct vm_api* api) ; void vm_

kotlin，一種新的android平臺一級開發語言

程序 16px 語法 jvm ava lin 使用 ide 擁有最近看到一則科技新聞，大致內容是google將kotlin語言作為android應用開發的一級語言，與java並駕齊驅，這是一個開發界的大事件大新聞，連google的親兒子go語言也沒有這

【HLSDK系列】怎麽增加一種新實體

sta fun class 使用 pen 關聯 creat bsp cnblogs 你平常肯定接觸到很多比如 info_player_start hostage info_target 之類的實體，這裏就解釋一下怎麽創建一種新的實體。首先建立一個新的 .h 文件（當然你寫

SaltStack介紹——SaltStack是一種新的基礎設施管理方法開發軟件,簡單易部署,可伸縮的足以管理成千上萬的服務器,和足夠快的速度控制,與他們交流

con mar stack 通信 class 交流 ast 集中速度 SaltStack介紹和架構解析簡介 SaltStack是一種新的基礎設施管理方法開發軟件,簡單易部署,可伸縮的足以管理成千上萬的服務器,和足夠快的速度控制,與他們交流,以毫秒為單位。S

QProcess::startDetached（5.10有了一種新的方式）

add rep set rpath pos ppr sed int rtai From Qt 5.10 on, there is a new way how to start detached processes with QProcess. Of course you

VMware vSAN中小企業應用案例，嘗試一種新的教學方式

1年配置 vsphere 掌握 blog 編輯初學者延伸 ima 各位朋友，大家好！我是王春海，很高興你能閱讀我寫的文章。許多朋友知道我，可能是看我的博客，可能是看我的文章，或者看我寫作出版的圖書。你們的認可，是我繼續學習、持續創作的動力！這些年我寫的一些文章主要

吳恩達老師機器學習筆記K-means聚類演算法（一）

今天接著學習聚類演算法以後堅決要八點之前起床學習！不要浪費每一個早晨。 K-means聚類演算法聚類過程如下：原理基本就是先從樣本中隨機選擇聚類中心，計算樣本到聚類中心的距離，選擇樣本最近的中心作為該樣本的類別。最後某一類樣本的座標平均值作為新聚類中心的座標，如此往復。原

從實驗室走向世界：HSP90抑制劑，一種新的癌症藥物

熱休克蛋白90（HSP90）是細胞內一種普遍存在的、十分保守的以及有高度活性的蛋白質，它在腫瘤細胞內的含量要比正常細胞多。作為一種分子伴侶，HSP90協助不同種類的癌蛋白（即HSP90的服務蛋白）進行摺疊並使之變得穩定、成熟，而HSP90的服務蛋白中擁有大量的諸如激酶和轉錄因子等訊號轉導分子，這些分子對於腫瘤

一種新的python區域性除錯手法

我們都知道，python裡面可以用pdb來除錯程式碼。但是pdb往往不大好用。有時候除錯程式碼往往在多重條件裡面，直接用pdb需要下條件斷點，設定複雜的條件。一個簡單的辦法就是這麼幹。 __import__('pdb').set_trace() 但是有的時候，連這個出現的條件都不滿足。例如，程式碼必須

.net 一種新的傳參方式作為傳參的參考，很可能在實際專案中使用

<asp:LinkButton ID="LinkButton1" runat="server" OnClientClick='<%# String.Format("return checkreturn(\"turnpost\",\"{0}

Filenet：ipfs網路激勵層一種新的解決方案

人有不當好人的權利，可是如果別人想當好人，我們起碼不要去做洩氣的旁觀者。 ----考慮到Filecoin在當下的影響，中立的表達對新激勵層的看法今年慢熊市，大家對挖礦都失去了信心，不過有兩樣東西是共識的熱點，一是EOS超級節點，另一個就是IPFS。我們知道，第一批挖

一種新的自動化 UI 測試解決方案 Airtest Project

今天分享一個自動化UI測試工具airtest——一款網易出品的基於影象識別面向遊UI測試的工具，也支援原生Android App基於元素識別的UI自動化測試。主要包含了三部分：Airtest IDE、Airtest（用截圖寫指令碼）和 Poco（用介面UI元素來寫指令碼）。來自google的評價：

for迴圈的一種新的使用方法

在使用Qt過程中，看到有人使用一種新的for迴圈，感覺很方便，就記錄下來了。 vector<QString> vStrList; vStrList.push_back("A"); vStrList.push_back("B"); vStrLis

發表在 Science 上的一種新聚類演算法

相關推薦