資料探勘之clara演算法原理及例項(程式碼中有bug)

阿新 • • 發佈：2019-01-26

繼上兩篇文章介紹聚類中基於劃分思想的k-means演算法和k-mediod演算法

本文將繼續介紹另外一種基於劃分思想的k-mediod演算法-----clara演算法

clara演算法可以說是對k-mediod演算法的一種改進,就如同k-mediod演算法對

k-means演算法的改進一樣.clara(clustering large application)演算法是應用

於大規模資料的聚類.而其核心演算法還是利用k-mediod演算法.只是這種演算法

彌補了k-mediod演算法只能應用於小規模資料的缺陷.

clara演算法的核心是,先對大規模資料進行多次取樣,每次取樣樣本進行med-diod

聚類,然後將多次取樣的樣本聚類中心進行比較,選出最優的聚類中心.

當然clara演算法也有一定的缺陷,因為它依賴於抽樣次數,每次樣本資料

是否均勻分佈,以及抽樣樣本的大小.儘管這樣,clara演算法還是為我們

提供了一種進行大規模資料聚類的方法.

clara演算法的具體描述如下：

1.對大規模資料進行多次取樣得到取樣樣本

2.對每次取樣的樣本進行k-mediod聚類,得到多組聚類中心

3.求出每組聚類中心到其他所有點距離和.

4.找出這幾組距離和的最小值.距離和最小的那組就是最優的聚類中心.

5.然後將大規模資料按照距離聚類到這組最優聚類中心

matlab模擬程式碼如下：

clc;
clear;

load Data3.mat;

k=3; %給定的類別數目

time=5;%time為抽樣的次數
number=30;%number為抽樣本個數
for T=1:time
    ClomStaticSample=zeros(1,number);
    ClomStaticSample=randsample(ClomStatic,number);   %ClomStaticSample就是樣本資料
                                                      %接下來對樣本資料使用kmediod演算法進行聚類
                                                      
    %產生三個隨機整數，隨機聚類中心
    p=randperm(number);
    Temp=p(1:k);
    Center=zeros(1,k);
    for j=1:k
        Center(j)=ClomStaticSample(Temp(j));
    end
    [ClomStaticSample]=sort(ClomStaticSample);
    
    TempDistance=zeros(number,3);           %暫存差值
    
     while 1
        Circulm=1;                          %迴圈控制

        p1=1;
        p2=1;
        p3=1;

        if(Circulm~=1)
            clear Group1 Group2 Group3;   
        end
        for i=1:number
            for j=1:3
                TempDistance(i,j)=abs(ClomStaticSample(i)-Center(j));
            end
            [RowMin RowIndex]=min(TempDistance(i,:));
            if(RowIndex(1)==1)
                Group1(p1)=ClomStaticSample(i);
                p1=p1+1;
            elseif(RowIndex(1)==2)
                Group2(p2)=ClomStaticSample(i);
                p2=p2+1;
            elseif(RowIndex(1)==3)
                Group3(p3)=ClomStaticSample(i);
                p3=p3+1;
            end
        end

            len1=length(Group1);
            len2=length(Group2);
            len3=length(Group3);
            

                  %分別計算每個類中除開類中心的點到其他所有點的距離和E,E最小時為該類新的聚類中心.
                  E=zeros(1,len1-1);
                  q1=1;
                  for j=1:len1
                      for i=1:number
                        if(Group1(j)~=Center(1)&&i~=j)
                            E(q1)=floor(abs(Group1(j)-ClomStaticSample(i)));
                            q1=q1+1;
                        end
                      end
                  end
                  NewCenter(1)=min(E);

                 E=zeros(1,len2-1);
                  q2=1;
                  for j=1:len2
                      for i=1:number
                        if(Group2(j)~=Center(2)&&i~=j)
                            E(q2)=floor(abs(Group2(j)-ClomStaticSample(i)));
                            q2=q2+1;
                        end
                      end
                  end
                  NewCenter(2)=min(E);

                  E=zeros(1,len3-1);
                  q3=1;
                  for j=1:len3
                      for i=1:number
                        if(Group3(j)~=Center(3)&&i~=j)
                            E(q3)=floor(abs(Group3(j)-ClomStaticSample(i)));
                            q3=q3+1;
                        end
                      end
                  end
                  NewCenter(3)=min(E);

            %判斷新的類和舊類的聚類中心是否不同,不同則繼續聚類,否則聚類結束
            JudgeEqual=zeros(1,k);
            for i=1:k
                JudgeEqual=(NewCenter==Center);
            end

            S=0;
            for i=1:k
                if(JudgeEqual(i)==1)
                    S=S+1;
                end
            end

            if(S==3)
                break;
            end

            Circulm=Circulm+1;
     end
     CenterSum5=zeros(time,k);           %儲存每次抽樣後kmediod聚類中心的結果值.
     CenterSum5(i,1)=Center(1);
     CenterSum5(i,2)=Center(2);
     CenterSum5(i,3)=Center(3);
end


%計算每次聚類中心點到其他所有點的距離和的最小值即為最優聚類中心
Sum=zeros(1,time);
for i=1:time
    for j=1:k
        for r=1:number-1
            if( CenterSum5(i,j)~=ClomStaticSample(r))
            Sum(i)=Sum(i)+CenterSum5(i,j)-ClomStaticSample(r);
            end
        end
    end
end

[SumOrder CenterEnd]=sort(Sum);%最優聚類中心即為Center(CenterEnd);


%對大資料進行最終的聚類（按照選擇出來的最優聚類中心）
        q1=1;
        q2=1;
        q3=1;
        for i=1:length(ClomStatic)
            for j=1:3
                EndTempDistance(i,j)=abs(ClomStatic(i)-CenterSum5(CenterEnd,j));
            end
            [RowMin RowIndex]=min(EndTempDistance(i,:));
            if(RowIndex(1)==1)
                EndGroup1(q1)=ClomStatic(i);
                q1=q1+1;
            elseif(RowIndex(1)==2)
                EndGroup2(q2)=ClomStatic(i);
                q2=q2+1;
            elseif(RowIndex(1)==3)
                EndGroup3(q3)=ClomStatic(i);
                q3=q3+1;
            end
        end

轉載請註明文章作者：小劉

資料探勘之clara演算法原理及例項(程式碼中有bug)

繼上兩篇文章介紹聚類中基於劃分思想的k-means演算法和k-mediod演算法本文將繼續介紹另外一種基於劃分思想的k-mediod演算法-----clara演算法 clara演算法可以說是對k-mediod演算法的一種改進,就如同k-mediod演算法對 k-m

資料探勘之FP_Tree演算法實現

轉自http://www.cnblogs.com/zhangchaoyang/articles/2198946.html （格式複製之後有變化，建議直接點連結去部落格園看原文） python程式碼見https://github.com/yantijin/Lean_DataMining F

資料倉庫與資料探勘之Apriori演算法例項

最近剛上了資料探勘這門課，老師講了兩個演算法，即Apriori演算法和FP-growth演算法，然後佈置了上機作業，挖掘一個有8萬行的記錄的retail.dat，需要從中找出強規則，即同時滿足最小支援度和最小置信度的規則。 Apriori演算法在這裡給出一個實現找出所有頻繁模式集的

資料探勘之Apriori演算法

python3程式碼如下： #coding = utf-8 import numpy #from python_util import fileread """ 程式所需部分：建立初始的候選集根據Lk產生Lk+1

資料探勘之分類演算法---knn演算法(Matlab程式碼)

knn演算法(k-Nearest Neighbor algorithm).是一種經典的分類演算法. 注意,不是聚類演算法.所以這種分類演算法必然包括了訓練過程. 然而和一般性的分類演算法不同,knn演算法是一種懶惰演算法 .它並非像其他的分類演算法先通過訓練建立分類模型.,而是一種被動的分類

資料探勘之KMeans演算法應用與簡單理解

一、背景煤礦地磅產生了一系列資料：我想從這些資料中，取出最能反映當前車輛重量的資料（有很多資料是車輛上磅過程中產生的資料）。我於是想到了聚類演算法KMeans，該演算法思想比較簡單。二、演算法步驟 1、從樣本中隨機取出k個值，作為初始中心 2、以k箇中心劃分這些資料，分為k

資料探勘之十大經典演算法

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了資料探勘領域的十大經典演算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, k

資料探勘之AdaBoost裝袋提升演算法

python3程式碼實現在https://github.com/yantijin/Lean_DataMining上，時間匆忙，敬請之處錯誤之處，謝謝！以下內容轉自：https://blog.csdn.net/androidlushangderen/article/details/4363511

資料探勘之關聯規則Apriori演算法

一、Aoriori原始演算法：頻繁挖掘模式與關聯規則關聯規則兩個基本的指標(假設有事務A和事務B) 　　1、支援度(suport)：計算公式如下　　　　　　2、置信度(confidence)：　　關聯規則的挖掘過程：　　1、設定最小支援度閾值，找出所有的頻繁項集且每個出現的次數要

資料探勘十大演算法之Apriori詳解

在2006年12月召開的 IEEE 資料探勘國際會議上（ICDM， International Conference on Data Mining），與會的各位專家選出了當時的十大資料探勘演算法（ top 10 data mining algorithms ），

資料探勘十大演算法之決策樹詳解（1）

資料探勘之挖掘頻繁模式的基本概念及方法

摘自《DATA MINING:Concepts and Techniques》一書，以及個人理解，主要為自己鞏固和總結，如有紕漏和出錯的地方，還請指出。此書第六章開頭指出頻繁模式（frequent pattern），是指頻繁地出現在資料集中的模式，譬如項集，子序列或子

資料探勘之關聯規則挖掘之Apriori演算法實現

演算法細節見論文：Fast Algorithm for Mining Association Rules 控制檯版本C++程式碼如下： #include <iostream> #include <sstream> #include <fs

資料探勘十大演算法——支援向量機SVM（四）：SMO演算法原理

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導！！！支援向量機原理SVM系列文章共分為5部分：（一）線性支援向量機（二）線性支援向量機的軟間隔最大化模型（三）線性不可分支援向量機與核函式（四）SMO演算法原理（五）線性支援迴歸

HAWQ + MADlib 玩轉資料探勘之（七）——關聯規則方法之Apriori演算法

一、關聯規則簡介關聯規則挖掘的目標是發現數據項集之間的關聯關係，是資料挖據中一個重要的課題。關聯規則最初是針對購物籃分析（Market Basket Analysis）問題提出的。假設超市經理想更多地瞭解顧客的購物習慣，特別是想知道，哪些商品顧客可能會在一次購

資料探勘十大演算法（五）：EM(Expectation Maximum)演算法原理與Python實現

參考：一、一個簡單的概率問題實驗：現在有A和B兩個硬幣，我們從這兩個硬幣中，隨機選取5次，做5組實驗，每組實驗內容是：丟擲所選的硬幣，記錄正反面。實驗資料如下：目標：根據所得到的實驗資料，分別求出硬幣A和B丟擲後正面向上的概率。根據古典概率的原

R語言學習系列(資料探勘之決策樹演算法實現--ID3程式碼篇)

轉載自：http://blog.csdn.net/hawksoft/article/details/7760868 1、輔助類，用於計算過程和結果儲存 [csharp] view plaincopyprint? /// &

資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現

一、條件概率的定義與貝葉斯公式二、樸素貝葉斯分類演算法樸素貝葉斯是一種有監督的分類演算法，可以進行二分類，或者多分類。一個數據集例項如下圖所示：現在有一個新的樣本， X = (年齡：<=30, 收入：中，是否學生：是，信譽：中)，目標是利用樸素貝

基於微軟案例資料探勘之Microsoft 時序演算法

此演算法也是資料探勘演算法中比較重要的一款，因為所有的推算和預測都將利用於未來，而這所有的一切都將有一條時間線貫穿始終，而這將是時序演算法的側重點。應用場景介紹通過前幾篇文章的介紹，我們已經能預測出影響某種行為的因素有哪些，並且根據這些因素綜合挖掘出我們的最優客戶群體（

資料探勘之關聯規則挖掘（Apriori演算法）

一、概述本篇博文主要闡述資料探勘相關的關聯規則挖掘的演算法（Apriori演算法）。主要介紹關聯規則的基本概念、Apriori演算法原理和Apriori演算法例項，文章末尾處附加Apriori演算法源程式。二、關聯規則挖掘的基本概念關聯規則挖掘發現大量資料中項集之間有趣的關聯

資料探勘之clara演算法原理及例項(程式碼中有bug)

相關推薦