機器學習之聚類分析---K-means（一）

阿新 • • 發佈：2019-01-20

初探k-means（Matlab）

俗話說：，聚類分析的目的是：在資料中發現數據物件之間的關係，並將資料進行分組，使得組內的相似性儘可能大，組間的差別盡可能大，那麼聚類的效果越好。

例如在市場營銷中，聚類分析可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來，並且概括出每一類消費者的消費模式或者說習慣。在機器學習中，聚類分析也可以作為其他分析演算法的一個預處理步驟。

下面介紹諸多聚類演算法中的K-means演算法。

在機器學習與資料探勘中，K-Means是一種cluster analysis的演算法，屬於無監督學習的演算法範疇。K-Means演算法簡單，易於理解。其具體演算法流程如下：

（1）隨機從資料中選取K個元素，作為k個簇（這裡可以理解為各個分類）中各自的中心。

（2）分別計算各個元素到這K個簇的距離，並將這些元素劃歸到距離最近的簇。這裡可以認為距離越近，兩者之間越相似。而不同距離的度量其聚類結果不同。這裡提供了不同的距離參考。點選開啟連結

（3）重新計算各個簇的中心點。例如取平均的方式。

（4）重複2~3步，直到迭代次數達到最大值或者中心點移動小於某個臨界值（即認為已經收斂）。

下面利用Matlab具體進行講解：

一、首先輸入資料，這裡選用Matlab自帶的資料fisheriris，然後判斷資料中是否含有異常值

clear
clc
%%輸入資料
load fisheriris
data= meas(:,3:4);
figure(1)
plot(data(:,1),data(:,2),'*')

%%判斷資料中是否含有錯誤資料或非法字元
isNAN = any(isnan(data),2);  %any表示有非0元素時返回為1,any(A,2)表示矩陣的行向量進行判斷
hadNAN=any(isNAN);          %表示資料中含有壞資料
if hadNAN
    disp('kmeans:MissingDataRemoved');
    disp(['missaddress is located ' num2str(find(isNAN==1))])
    data = data(~isNAN,:);
end

二、配置K-means引數，包括聚類類別K、設定距離方式以及最大迭代次數和偏差等。

%%設定聚類類別k
k=3;

%%設定距離方式
%距離選擇
%歐式距離：'euclidean'，標準歐式距離：'seuclidean'
%曼哈頓距離(城市區塊距離)：'cityblock'
%閔可夫斯基距離：'minkowski'
%切比雪夫距離：'chebychev'
%夾角餘弦距離：'cosine'
%相關距離：'correlation'
%漢明距離：'hamming'
distanceSize='euclidean';

%%設定最高迭代次數step和偏差
step=10;
maxdeviation=1e-5;

三、開始K-means聚類

[m,n]=size(data);         %資料個數為m個，維度為n維
center = zeros(k,n+1);    %聚類中心
center(:,n+1) =1:k ;      %生成聚類的類別
dataSize=zeros(m,1);      %生成資料類別
for j=1:k
    center(j,1:n)=data(randi([1,m]),:);  %隨機產生k箇中心
end


for i=1:step
    %%第二步，分別計算各個點到中心的距離，並將離中心距離近的點歸為一類
    %計算距離
    for j=1:k
        distance(:,j)=pdist2(data,center(j,1:n),distanceSize);
    end
    %取距離最小的點歸為一類
    [~,temp]=min(distance,[],2);
    dataSize=temp;
    oldcenter=center;
    %%更新中心點
    for j=1:k
        center(j,1:n)=mean(data(dataSize==j,:));
    end

    deviation=sum(abs(center-oldcenter));  %殘差
    if deviation<maxdeviation
        break;
    end    
end

四、畫出各個類別

figure(2)
for i=1:k
    scatter(data(dataSize==i,1),data(dataSize==i,2));
    hold on
end
plot(center(:,1),center(:,2),'x','MarkerSize',10);
hold off

可以看出這裡標註了聚類結果和各個簇的中心點位置。下面是運算資料結構：

我們可以看到這裡j=3；也就是說只迭代了3次，演算法達到收斂。

因此，K-means具有如下優點：

（1）演算法簡單，特別對於類球型分佈的資料效果特別好。

（2）收斂速度快，往往只需要5~6步即可達到收斂。

（3）演算法複雜度為O(t,k,n)。其中t為迭代次數，k為分類的個數，n為資料點的個數。

當然，K-means也有一些缺點。

（1）由於聚類演算法為無監督學習，人們事先無法確定到底需要分多少個簇，也就是說k值無法提前確定。

（2）同很多演算法一樣，它可能會收斂到區域性最優解。而這和初始點的選取有關，我們可以採用多次選取初始點，最後選擇效果最好的結果。

（3）對噪聲影響敏感。我們可以看出K-means中means表示平均值，而平均值往往對噪聲敏感，一個離群點往往會對整個結果造成很大影響。

（4）不適合某些非球類資料分佈。

值得注意的是，這些缺點也正是K-means可以改進的地方。

最後，這裡再介紹一個指標：silhouette。

這裡，silhouette(i)=（b(i)-a(i)）/max{b(i),a(i)}

a(i)表示第i個點到所被分類的簇的中心點的距離。

b(i)表示第i個點到其他簇中心點距離的最小值。

那麼silhouette表示什麼呢？我們可以看出，當a(i)<b(i)時，silhouette>0，表示該點距離該類中心距離更近；當a(i)>b(i)時，silhouette<0，表示該點距離其他類中心距離更近，這就好比一個人與他宿舍的人不如與他隔壁宿舍的人更加親近。

如圖所示為silhouette結果

%%silhouette
figure(3)
s=silhouette(data,dataSize);

可以看到圖中有個別點的silhouette為負數，我們將其找到，這裡‘*’表示該點silhouette為負數。我們可以看到由於資料的分佈為狹長的傾斜向上的分佈，右上方兩類距離很近，在這兩類的交界處，很容易出現劃歸為A類的資料離另一類B更近的現象。

機器學習之聚類分析---K-means（一）

初探k-means（Matlab）

機器學習之聚類分析---K-means（一）

機器學習之多變量回歸模型（一）

[五]機器學習之聚類

吳恩達機器學習之聚類演算法的引數選擇以及優化

機器學習之聚類（二）

聚類分析(K-means 層次聚類和基於密度DBSCAN演算法三種實現方式)

機器學習之聚類演算法（層次聚類）

opencv學習之聚類與k均值聚類

R語言學習之聚類分析

資料建模-聚類分析-K-Means演算法

機器學習經典聚類演算法 —— k-均值演算法（附python實現程式碼及資料集）

機器學習之采樣和變分（八）

es6零基礎學習之項目目錄創建（一）

【機器學習】谷歌的速成課程（一）

機器學習入門-貝葉斯分類器（一）

HTTP學習之瞭解Web及網路基礎（一）

機器學習在量化交易上的運用（一）

android底層驅動學習之I2C概述及工作原理（一）

《多執行緒程式設計》學習之七：等待/通知機制（一）

機器學習中各個算法的優缺點（一）

機器學習之聚類分析---K-means（一）

初探k-means（Matlab）

相關推薦