KMeans聚類演算法分析以及實現

阿新 • • 發佈：2018-11-27

KMeans

KMeans是一種無監督學習聚類方法, 目的是發現數據中資料物件之間的關係，將資料進行分組，組內的相似性越大，組間的差別越大，則聚類效果越好。

無監督學習,也就是沒有對應的標籤,只有資料記錄.通過KMeans聚類,可以將資料劃分成一個簇,進而發現數據之間的關係.

聚類過程

原理

KMeans演算法是將資料 $x^{1},$

x 2 , . . . , x n

{x^1, x^2 ,..., x^n}

x^{1}, x^{2}, . . ., x^{n}

聚類成k個簇,其中每個

x^i \in R^n

, 演算法具體描述:

隨機選擇k個聚類質心點: $\mu_1, \mu_2, ..., \mu_k$ ;
重複下面過程直到收斂{
對於每一個數據i,計算其屬於的簇:
$c^{(i)} := argmin_j||x^{(i)}-\mu_j||^2$ ;
對於每個簇j,重新計算簇質心:
$\mu_j=\frac{\sum_{i=1}^n1{(c^i==j)}x^i}{\sum_{i=1}^n1{(c^{(i)}=j)}}$
}

用語言描述來說,就是:隨機確定k個初始點作為簇中心; 為每個資料分配簇[計算每條資料和簇中心的相似度,分配到最相似的簇上];根據簇中的資料點對每個簇中心進行更新.反覆重複直到收斂為止.

虛擬碼:

建立k個點作為起始質心;
當任意一個點的簇分配結果發生改變時:
    對資料集中的每個資料點:
        對每個質心: 
            計算質心和當前資料點的相似度 
        將資料點分配到最近的質心所代表的簇上 
    對於每個簇,計算簇中所有點的均值,並將均值作為新的簇中心[質心]

存在問題及其處理方法

必須事先給出k(要生成的簇的數目),而且對初值敏感，對於不同的初始值，可能會導致不同結果。
不適合於發現非凸面形狀的簇或者大小差別很大的簇。
對於“躁聲”和孤立點資料是敏感的，因為簇的中心是通過計算資料的平均值得到的，這些資料的存在會使聚類的中心發生很大的偏移;
容易陷入到區域性最優解.

對於區域性最優解的問題,一方面可以像決策樹一樣,對最後生成的聚類效果進行"剪枝"處理,但有所不同,因為要保證簇數目不變,所有處理進行"剪枝處理"外,還需要"增枝處理",具體可以依據某種指標[SSE sum of square errors]選擇指標最大的簇嘗試劃分, 然後選擇兩個進行合併,保證簇的數目不變.

另一方面,可以對kmeans進行優化處理,存在一種二分kMeans處理.

二分k均值:首先將所有資料看成一個簇,然後將該簇一分為二,之後選擇其中一個簇繼續劃分, 如何選擇簇取決於對其劃分是否可以最大程度的降低SSE的值;然後反覆重複,直到得到K個簇為止.

程式碼實現

github地址: repository

KMeans聚類演算法分析以及實現

KMeans KMeans是一種無監督學習聚類方法, 目的是發現數據中資料物件之間的關係，將資料進行分組，組內的相似性越大，組間的差別越大，則聚類效果越好。無監督學習,也就是沒有對應的標籤,只有資料記錄.通過KMeans聚類,可以將資料劃分成一個簇,進而發現數據之間的關係.

kmeans聚類演算法及matlab實現

一、kmeans聚類演算法介紹：　　 kmeans演算法是一種經典的無監督機器學習演算法，名列資料探勘十大演算法之一。作為一個非常好用的聚類演算法，kmeans的思想和實現都比較簡單。kmeans的主要思想：把資料劃分到各個區域(簇)，使得資料與區域中心的距

從零開始實現Kmeans聚類演算法

本系列文章的所有原始碼都將會開源，需要原始碼的小夥伴可以去我的 Github fork！ 1. Kmeans聚類演算法簡介由於具有出色的速度和良好的可擴充套件性，Kmeans聚類演算法算得上是最著名的聚類方法。Kmeans演算法是一個重複移動類中心

Scala語言實現Kmeans聚類演算法

/** * @author weixu_000 */ import java.util.Random import scala.io.Source import java.io._ object Kmeans { val k = 5 val dim = 41

NLP——Kmeans聚類演算法簡單實現

本例中主要是對二維點進行距離計算，開始得時候選取兩個心，最終聚為兩簇。結束條件的判斷有很多種，這裡採用的是最簡單的：當兩個心不再變化了，則停止聚類。內部距離和可以不需要計算，這裡輸出來做結果評估用。 public class Km_w2 { //初始

大資料：Spark mlib(一) KMeans聚類演算法原始碼分析

1. 聚類1.1 什麼是聚類？所謂聚類問題，就是給定一個元素集合D，其中每個元素具有n個可觀察屬性，使用演算法將集合D劃分成k個子集，要求每個子集內部的元素之間相異度儘可能低，而不同子集的元素相異度儘可能高，其中每個子集叫做一個簇。1.2 KMeans 聚類演算法K-Mean

Kmeans聚類演算法在python下的實現--附測試資料

Kmeans演算法 1：隨機初始化一個聚類中心 2：根據距離將資料點劃分到不同的類中 3：計算代價函式 4：重新計算各類資料的中心作為聚類中心 5：重複2-4步直到代價函式不發生變化測試資料： XY -1.260.46 -1.150.49 -1.190.36 -1.330

python實現簡單的kmeans聚類演算法

問題描述：一堆二維資料，用kmeans演算法對其進行聚類，下面例子以分k=3為例。原資料： 1.5,3.1 2.2,2.9 3,4 2,1 15,25 43,13 32,42 0,0 8,9 12,5 9,12 11,8 22,33 24,25 實現程式碼： #codin

Hadoop/MapReduce 及 Spark KMeans聚類演算法實現

package kmeans; import java.io.BufferedReader; import java.io.DataInput; import java.io.DataOutput; import java.io.File; import java.io.

機器學習-KMeans聚類 K值以及初始類簇中心點的選取

src 常用趨勢試圖重復執行很大的一個點 3.4 選擇【轉】http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html 本文主要基於Anand Rajaraman和Jeffrey David

機器學習-*-MeanShift聚類演算法及程式碼實現

MeanShift 該演算法也叫做均值漂移，在目標追蹤中應用廣泛。本身其實是一種基於密度的聚類演算法。主要思路是：計算某一點A與其周圍半徑R內的向量距離的平均值M，計算出該點下一步漂移（移動）的方向（A=M+A）。當該點不再移動時，其與周圍點形成一個類簇，計算這個類簇與歷史類簇的距

層次聚類演算法原理及實現

聚類聚類是對點集進行考察並按照某種距離測度將他們聚成多個“簇”的過程。聚類的目標是使得同一簇內的點之間的距離較短，而不同簇中點之間的距離較大。一、聚類演算法介紹層次法聚類和點分配法聚類。 1.1 點、空間和距離點集是一種適合於聚類的資料集，每個點都是某空間下的物件。一般意義上，空間

k-means(k均值聚類)演算法介紹及實現(c++)

基本介紹： k-means 演算法接受輸入量 k ；然後將n個數據物件劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的物件相似度較高；而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得一個“中心物件”（引力中心）來進行計算的。工作過程：　　k

影象基本變換---KMeans聚類演算法

本文將詳細介紹K-Means均值聚類的演算法及實現。聚類是一個將資料集中在某些方面相似的資料成員進行分類組織的過程。K均值聚類是最著名的劃分聚類演算法，由於簡潔和效率使得他成為所有聚類演算法中最廣泛使用的。給定一個數據點集合和需要的聚類數目k，k由使用者指定，k均值

譜聚類演算法Matlab快速實現

%Ncut譜聚類完整函式定義（儲存為.m檔案）： function C = SpectralClustering(data,k,a) %data是資料點矩陣 K是聚類個數 a代表高斯核函式的引數 %UNTITLED Summary of this functio

基礎演算法（二）：Kmeans聚類演算法的基本原理與應用

Kmeans聚類演算法的基本原理與應用內容說明：主要介紹Kmeans聚類演算法的數學原理，並使用matlab程式設計實現Kmeans的簡單應用，不對之處還望指正。一、Km

kmeans聚類演算法及複雜度

kmeans是最簡單的聚類演算法之一，kmeans一般在資料分析前期使用，選取適當的k，將資料分類後，然後分類研究不同聚類下資料的特點。演算法原理隨機選取k箇中心點; 遍歷所有資料，將每個資料劃分到最近的中心點中；計算每個聚類的平均值，並作為新的中心點；重複

Kmeans聚類演算法及其matlab原始碼

本文介紹了K-means聚類演算法，並註釋了部分matlab實現的原始碼。K-means演算法K-means演算法是一種硬聚類演算法，根據資料到聚類中心的某種距離來作為判別該資料所屬類別。K-means演算法以距離作為相似度測度。假設將物件資料集分為個不同的類，k均值聚類演算

Canopy聚類演算法分析

Canopy聚類演算法是可以並行執行的演算法，資料並行意味著可以多執行緒進行，加快聚類速度，開源ML庫Mahout使用。一、概念與傳統的聚類演算法(比如 K-means )不同，Canopy 聚類最大的特點是不需要事先指定 k 值( 即 clustering 的個

KMeans聚類演算法

1、什麼是聚類所謂聚類就是將一組物件按照特徵劃分不為的小組，使得組內的差異性儘可能的小，組間的差異儘可能的大。例如，粗粒度的分類，按照學校實力，分為985、211高校，普通一本高校，二本高校，三本高校。如果再更加細的分類，一個學校裡面會按照所修的課程差異性分為不同

KMeans聚類演算法分析以及實現

KMeans

原理

存在問題及其處理方法

程式碼實現

相關推薦