用MATLAB做聚類分析時非常有用的自定義距離函式和標準化函式

阿新 • • 發佈：2019-01-07

聚類分析中,經常遇到觀測值缺失的情況.

例如統計歷史降水資料時,某個月的資料缺失了,這時用MATLAB做聚類分析時,

就需要自定義距離函式,處理nan的問題.

下面是相關的MATLAB函式,裡面有例子,可自行修改:

function [ nandistance ] = nandistfun( X,Y,varargin)
%  A distance function  for pdist,ignoring NaNs
% [ nandistance ] = nandistfun( X,Y,varargin)
% arguments :
% X: 1-by-n vector
% Y:m-by-n vector
% nandistance::m-by-1,  whose kth element is the distance between X and Y(k,:).
%
%         methods = {'euclidean'; 'seuclidean'; 'cityblock'; 'chebychev'; ...
%           'mahalanobis'; 'minkowski'; 'cosine'; 'correlation'; ...
%            'spearman'; 'hamming'; 'jaccard'};
%
% Example:
% >> X =[9, nan, 2, 4, 7;  8, 2, 9, nan, 5;  2, 5, 8, nan, 6];
% >> D = pdist(X,@nandistfun)
% >> D= pdist(X,@(a,b)nandistfun(a,b,'seu'))
%
%   See also PDIST, SQUAREFORM, LINKAGE, SILHOUETTE, PDIST2.
%
%Author:Wu Xuping Date:2013-09-21 Version:1.0.0 

[xrow,xcolumn]=size(X);
[yrow,ycolumn]=size(Y);
%可變引數的個數
nVarargs = length(varargin);
%初始化距離
nandistance=zeros(yrow,1);

if (xrow==1 && xcolumn==ycolumn)
    for m=1:yrow
        x1=X;%必須是行向量,不能是空向量
        y1=Y(m,:);%必須是行向量,不能是空向量
        b=( ~isnan(x1)) & (~isnan(y1)); %提取(x1,y1)中都不是nan的索引
        A=[];
        A(1,:)=x1(b);%必須是行向量,不能是空向量
        A(2,:)=y1(b);%必須是行向量,不能是空向量
        %計算距離
        if (nVarargs>0)
            nandistance(m,1) = pdist(A,varargin{:});
        else
            nandistance(m,1) = pdist(A); %預設'euc'
        end
    end
end

end

上面這個函式,包括了常用的各種距離函式.

看完了這個函式的實現方式,我想大家也可以自定義其它型別的距離函數了.

通常做聚類分析時先將資料標準化,matlab提供了zscore函式,不過不支援nans,

這時可以試試下面的函式:

function [ z ] = nanzscore( x )
%[ z ] = nanzscore( x ),ignoring NaNs
%   類似於標準化函式[ z ] = zscore( x ),忽略NaNs
% Author:wuxuping,Date:2013-09-21

nm=nanmean(x);
ns=nanstd(x);

[xrow,xcolumn]=size(x);

if ((xrow>1 )&&(xcolumn >1))
    %如果是多行多列的矩陣
    z=zeros(size(x));
    for m=1:xrow
        for n=1:xcolumn
            z(m,n) = (x(m,n)- nm(n))./ns(n);
        end
    end
else
    %如果是單行或單列的向量
    if (xrow==1)
        for m=1:numel(x)
            z(m) = (x(m)- nm)./ns;%行向量
        end
    else
        for m=1:numel(x)
            z(m,1) = (x(m)- nm)./ns;%列向量
        end
    end    
end

上面的標準化函式用起來和zscore是一樣的,只是忽略所有的NaNs.

下面給出是一般的聚類分析過程例項:

x=dlmread(filename);%80*51,八十個站點,測量了51次降水量,現在對八十個站點的降水型別進行聚類分析
%即將降水型別相同的站點聚為一類;不同類間的降水型別應該很不相同!
x=nanzscore( x );%標準化
%標準化主要是測量值可能為多個專案如降水量和能見度等,而降水量和能見度的數值記錄相差可能太大.
%標準化其實就是把各種相差很大的量伸縮到同一個量級上來,否則計算距離時會出現大數吃小數的現象.
%如果只有降水量,且採用同樣的單位則無需標準化
D = pdist(x,@nandistfun);%計算距離向量,大小為:(1*3160)
%Y = squareform(D,'tomatrix')%格式化距離向量為矩陣,方便檢視
Z=linkage(D,'average');%採用平均距離法計算聚類,獲取分層聚類樹
[H,T] =dendrogram(Z,'colorthreshold','default');%繪製聚類圖,返回影象物件H和聚類表T
%size(T)應為80*1
numCluster=numel(H);%分類的總數,如果numCluster為29則表明將80個站點分為29個降水型別
set(H,'LineWidth',2);%將所有類的線條都加粗為2
set(H(5),'LineWidth',5);%將第五類的顏色加粗為5
find(T==5)%顯示屬於第五類的索引值

分層聚類樹圖如下:

剩下的問題是就是如何評價聚類的結果,也就是聚類的結果是否合理?對於合理的聚類,

我們知道同類的相似性一定要大,不同類之間的相似性一定要小.這個同樣也可用距離來度量,當然也有用置信係數或風險係數去度量的.

第一種評價方法:對於第i類,我們計算該類中心的位置,然後該類中的所有站點到中心的距離之和的平均值記為di,

然後對所有的di求平均得dm,認為di平均值最小的聚類中同類之間的相似性是最大的,即為最合理的類.

第二種評價方法:將每一類的中心計算出來,然後將各類中心之間的距離累加,記為DM,所得的結果最大則表明該種聚類中,各類之間的差異是最大的.

第三種評價方法綜合考慮同類相似性和異類的差異性,計算max(DM)/min(dm),該值取最大則表示該聚類是最合理的聚類.這在matlab中使用表象係數來求解即可.

用MATLAB做聚類分析時非常有用的自定義距離函式和標準化函式

聚類分析中,經常遇到觀測值缺失的情況. 例如統計歷史降水資料時,某個月的資料缺失了,這時用MATLAB做聚類分析時, 就需要自定義距離函式,處理nan的問題. 下面是相關的MATLAB函式,裡面有例子,可自行修改: function [ nandistance ] = n

用MATLAB做聚類分析

近期工作關係用到Matlab做聚類分析。所謂聚類分析，其目的在於將研究的資料樣本劃分為不同類別。Matlab的統計工具箱提供了相應的分析工具。相關概念在網上可以找到不少資料，這裡推薦兩個部落格供大家參考。兩個部落格多傾向於聚類演算法的分析，因為聚類分析可劃歸為計算機人工智慧領域裡面無監督的學習。

matlab做聚類分析

MATLAB的統計工具箱中的多元統計分析中提供了聚類分析的兩種方法：1.層次聚類 hierarchical clustering 2.k-means聚類這裡用最簡單的例項說明以下層次聚類原理和應用發法。層次聚類是基於距離的聚類方法，MATLAB中通過pdist、linkage、dendrogram、clu

十一、用scikit-learn做聚類分析

線性迴歸和邏輯迴歸都是監督學習方法，聚類分析是非監督學習的一種，可以從一批資料集中探索資訊，比如在社交網路資料中可以識別社群，在一堆菜譜中識別出菜系。本節介紹K-means聚類演算法 K-means k是一個超引數，表示要聚類成多少類。K-means計算方法是重複移

R語言做聚類分析Kmeans時確定類的個數

方法一： K平均演算法（k-means）在下面的誤差平方和圖中，拐點（bend or elbow）的位置對應的x軸即k-means聚類給出的合適的類的個數。 > n = 100 > g=6 > set.seed(g) > d &l

在R環境下基於鳶尾花資料做聚類分析

title: “cluster with graphs (Iris species)” author:”gongzi liu” data:”2017/06/02” output: html_notebook setwd(“C:/Users/Adm

Python聚類分析作業代寫代做、人工智能Python作業代寫

data nal clas 決心 learn 前臺數值算法課程一個分析要求： 1. 對所給463條評語進行分詞聚類，分析其所反映的活動類型以下是人工分析得出的主要活動類型的參考舉例： 2. 按年份統計各種活動類型每年所提及的頻次比如：親子閱覽，這一活動在13

聚類分析（三）層次聚類及matlab程式

一、層次聚類介紹 1.1 簡介層次聚類，主要是對給定的待聚類的資料集進行層次化分解。主要分為兩大類： 1.從下到上的凝聚聚類 2.從上到下的分裂聚類其他演算法大部分是對樣本之間距離度量或者類間凝聚/分裂依據進行改進。 1.2從下到上的凝聚演算法從下到上的凝聚演算法能夠讓人們較為直觀的觀

聚類分析（二）k-means及matlab程式

1.介紹 k-means是一種常見的基於劃分的聚類演算法。劃分方法的基本思想是：給定一個有N個元組或者記錄的資料集，將資料集依據樣本之間的距離進行迭代分裂，劃分為K個簇，其中每個簇至少包含一條實驗資料。 2.k-means原理分析 2.1工作原理（1）首先，k-means方法從資料集中隨機

使用 Spark MLlib 做 K-means 聚類分析

引言提起機器學習 (Machine Learning)，相信很多計算機從業者都會對這個技術方向感到興奮。然而學習並使用機器學習演算法來處理資料卻是一項複雜的工作，需要充足的知識儲備，如概率論，數理統計，數值逼近，最優化理論等。機器學習旨在使計算機具有人類一樣的學習能力和模仿能力，這也是實現人工

K-means聚類分析-互動式GUI演示(Matlab)

K-means聚類分析-互動式GUI演示(Matlab) 學習K-means的時候總是想，這應該是一個很酷的演算法，那麼酷的演算法，就應該有比較酷的demo來演示它，於是我寫了這個程式就是為了能裝逼，哦不，可以更直觀的和K-means演算法進行互動。原創程式，希望大家可以喜歡，

聚類分析matlab

感覺自己的業餘時間好像越來越少了，實習和學校的工作看來必然會帶來一定的衝突，需要適應這個節奏的變化啊，加油。一、理論聚類就是把東西聚在一起，那一定有一定的規則，相似等

聚類分析的Matlab 程式—系統聚類（附有案例分析）

聚類分析的Matlab 程式—系統聚類 (1)計算資料集每對元素之間的距離,對應函式為pdistw. 呼叫格式：Y=pdist(X),Y=pdist(X,’metric’), Y=pdist(X,’distfun’),Y=pdist(X,’minkowski’,p) 說

Matlab聚類分析(Cluster Analyses)

MATLAB中提供了cophenet, inconsistent等表示相關性的函式。cophenet和inconsistent用來計算某些係數，前者用於檢驗一定演算法下產生的二叉聚類樹和實際情況的相符程度（就是檢測二叉聚類樹中各元素間的距離和pdist計算產生的實際的距離之間有多大的相關性），inco

使用python sklearn下的k_means聚類分析演算法時遇到的問題

#-*- coding: utf-8 -*- #使用K-Means演算法聚類消費行為特徵資料 import pandas as pd #引數初始化 inputfile = '../data/consumption_data.xls' #銷量及其他屬性資料 o

Spark 實戰，第 4 部分: 使用 Spark MLlib 做 K-means 聚類分析

引言提起機器學習 (Machine Learning)，相信很多計算機從業者都會對這個技術方向感到興奮。然而學習並使用機器學習演算法來處理資料卻是一項複雜的工作，需要充足的知識儲備，如概率論，數理統計，數值逼近，最優化理論等。機器學習旨在使計算機具有人類一樣的學習能力和模仿能力，這也是實現人工智慧的核

Matlab提供的兩種聚類分析方法

一種是利用 clusterdata函式對樣本資料進行一次聚類，其缺點為可供使用者選擇的面較窄，不能更改距離的計算方法；另一種是分步聚類：（1）找到資料集合中變數兩兩之間的相似性和非相似性，用pdist函式計算變數之間的距離；（2）用 linkage函式定義變數之間的連線；（3）用 copheneti

MATLAB聚類分析(Cluster Analysis)

使用環境：MATLAB2016a、MATLAB2010a 聚類分析是一種無監督式學習，不像迴歸分析等需要Inputs 和 Targets ，聚類分析是隻通過提供一組資料實現分類的演算法。下面給出本人在學習聚類分析的MATLAB程式 x1=5*[randn(5

聚類分析——層次聚類

logs 較高的 bsp 分析類對象定義 .com blog image 聚類的定義：聚類分析將分類對象分成若幹類，相似的歸為同一類，不相似的歸為不同的類，在同一類內對象之間具有較高的相似度，不同類之間的對象差別較大。層次聚類法：聚類分析——層次聚類

聚類分析方法

實際應用多少三種輸入 k-means 情況度量分析方法差異一、層次聚類（系統聚類）原理：合並法（分解法方向相反算法相同，SPSS只提供合並法） 1、將每一個樣本作為一類，如果是k個樣本就分k成類 2、按照某種方法度量樣本之間的距離，並將距離最近的兩個樣本合並

用MATLAB做聚類分析時非常有用的自定義距離函式和標準化函式

相關推薦