聚類演算法中K值的選取

阿新 • • 發佈：2019-01-11

介紹

聚類演算法	引數
K-Means	number of clusters
Affinity propagation	damping, sample preference
Mean-shift	bandwidth
Spectral clustering	number of clusters
Ward hierarchical clustering	number of clusters
Agglomerative clustering	number of clusters, linkage type, distance

可以發現，大部分聚類演算法的輸入引數，都含有聚類類別數目K，K表示我們需要演算法將樣本聚成幾類。

那麼問題來了，在使用聚類演算法時，我們該如何決定聚類類別數目K值的選取呢？

方法

關於聚類K值問題，有很多種求解的方法。

有暴力的均方根解法，也有直觀的圖解法，下面介紹幾種常用的方法。

均方根

假設我們有m個樣本，該方法認為K=m/2−−−−√

Elbow法

首先給出聚類演算法的一些符號表示
* 聚類演算法的m個輸入樣本：x(1),...,x(m)
* x(i)所屬的聚類中心：μc(i)

聚類演算法在聚類過程中，會尋找每個樣本到聚類中心距離最小的點作為聚類中心。所以聚類演算法的優化目標為：

J(c(1),...,c(m),μ1,...,μk)=1m∑1m(∥x(i)−μc(i)∥)

其中

c(i)表示最接近x(i)的聚類中心下標
μk表示聚類中心

優化目標J的值就表示每個樣本到聚類中心的距離之和，所以J在某種程度上表示了誤差，J最小則聚類誤差最小。

當K取值不同，得到的J值也不同。

Elbow法認為，K值應該取拐點上的那個值，如下圖。

這裡寫圖片描述

當然，實際情況中，不一定能看到拐點，也就不一定能使用這種方法。

影象法

把樣本的二維、三維特徵圖畫出來，通過觀察，人為決定K值選取。
樣本特徵維度大於三時，用降維或Visual Intelligence的方法來作圖觀察。

結論

聚類使用中，可以根據上面一些方法確定K值得選取。
但最終決定你聚類K值的，應該是根據你聚類後的後續目的來選取。可以嘗試不同的K，看聚類結果能為你後續目的提供多大幫助。

聚類演算法中K值的選取

介紹聚類演算法引數 K-Means number of clusters Affinity propagation damping, sample preference Mean-shift band

幾種計算機視覺中常用的聚類演算法（K-means, Agglomerative clustering, Mean shift, Spectral clustering）

對於機器學習而言，聚類常常應用於離散情況下的非監督學習演算法之中，如下圖所示。聚類的總體目標是使得最小化目標函式：聚類的方法很多，常用的包括（K-means, Agglomerative clustering,mean shift, Spectral clus

時間序列聚類演算法-《k-Shape: Efficient and Accurate Clustering of Time Series》解讀

摘要本文提出了一個新穎的時間序列聚類演算法k-shape，該演算法的核心是迭代增強過程，可以生成同質且較好分離的聚類。該演算法採用標準的互相關距離衡量方法，基於此距離衡量方法的特性，提出了一個計算簇心的方法，在每一次迭代中都用它來更新時間序列的聚類分配。作者通過大量和具有

用Python開始機器學習（10：聚類演算法之K均值）

我們之前接觸的所有機器學習演算法都有一個共同特點，那就是分類器會接受2個向量：一個是訓練樣本的特徵向量X，一個是樣本實際所屬的型別向量Y。由於訓練資料必須指定其真實分類結果，因此這種機器學習統稱為有監督學習。然而有時候，我們只有訓練樣本的特徵，而對其型別一無所知。這種情況，我

深入淺出聚類演算法之k-means演算法

k-means是一個十分簡單的聚類演算法，它的思路非常簡明清晰，所以經常拿來當做教學。下面就來講述一下這個模型的細節操作。內容模型原理模型收斂過程模型聚類個數模型侷限 1. 模型原理將某一些資料分為不同的類別，在相同的類別中資料之

聚類演算法之k-medoids演算法

上一次我們瞭解了一個最基本的 clustering 辦法 k-means ，這次要說的 k-medoids 演算法，其實從名字上就可以看出來，和 k-means 肯定是非常相似的。事實也確實如此，k-medoids 可以算是 k-means 的一個變種。 k-medoids

高斯混合模型聚類演算法和K-Means聚類演算法

高斯混合模型聚類演算法概念：混合高斯模型就是指對樣本的概率密度分佈進行估計，而估計的模型是幾個高斯模型加權之和（具體是幾個要在模型訓練前建立好）。每個高斯模型就代表了一個類（一個Cluster）。

機器學習（二）——K均值聚類演算法（K-means）

概述： 1.聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相識，各類之間的資料相似度差別儘可能大。聚類分析就是以相似性為基礎，對資料集進行聚類分析，屬於無監督學習。 2.無監督學習和監督學習 k-均值聚類（k-means）與k-近鄰（knn）

聚類演算法之K-means演算法與聚類演算法衡量指標

聚類就是按照某個特定標準(如距離準則)把一個數據集分割成不同的類或簇，使得同一個簇內的資料物件的相似性儘可能大，同時不在同一個簇中的資料物件的差異性也儘可能地大。即聚類後同一類的資料儘可能聚集到一起

鳶尾花三種聚類演算法（K-means,AGNES,DBScan）的python實現

一.分散性聚類(kmeans) 演算法流程: 1.選擇聚類的個數k. 2.任意產生k個聚類，然後確定聚類中心，或者直接生成k箇中心。 3.對每個點確定其聚類中心點。 4.再計算其聚類新中心。 5.重複以上步驟直到滿足收斂要求。（通常就是確定的中心點不再改變。

聚類演算法之K-means演算法

關注微信公眾號【Microstrong】,我寫過四年Android程式碼，瞭解前端、熟悉後臺，現在研究方向是機器學習、深度學習！一起來學習，一起來進步，一起來交流吧！本文同步更新在我的微信公眾號裡，地址：https://mp.weixin.qq.com/s?__b

聚類演算法（K-means + Fuzzy C-means + Hierarchical + Mixture of Gaussians）---第一部分：簡介

前言什麼是聚類？聚類可以被認為是最重要的無監督學習問題; 所以，像這樣的其他問題一樣，它涉及在未標記資料的集合中找到一個結構。聚類的簡單定義可能是“將物件組織成某些成員相似的組的過程”。因此，"cluster"是它們之間“相似”的物件的集合，並且與屬於其他"cluste

K-中心點聚類演算法（K-Medoide）

K-中心點演算法也是一種常用的聚類演算法，K-中心點聚類的基本思想和K-Means的思想相同，實質上是對K-means演算法的優化和改進。在K-means中，異常資料對其的演算法過程會有較大的影響。在K-means演算法執行過程中，可以通過隨機的方式選擇初始質心，也只有初始

關於聚類演算法Kmeans/K-mediods/層次聚類/OPTICS較為詳細的介紹

基於約束的聚類：現實應用中可能需要在各種條件下進行聚類。因為同一個聚類演算法，在不同的應用場景中所帶來的聚類結果也是各異的，因此找到滿足特定約束的具有良好聚類特性的資料分組是十分有挑戰性的。 9）可解釋性和可用性：我們希望得到的聚類結果都能用特定的語義、知識進行解釋，和實際的應用場景相聯絡。

在Ignite中使用k-均值聚類演算法

在本系列前面的文章中，簡單介紹了一下Ignite的k-最近鄰(k-NN)分類演算法，下面會嘗試另一個機器學習演算法，即使用泰坦尼克資料集介紹k-均值聚類演算法。正好，Kaggle提供了CSV格式的資料集，而要分析的是兩個分類：即乘客是否倖存。為了將資料轉換為Ignite支援的格式，前期需要做一些清理和格式化

【R與聚類演算法】：確定K值個數

在無監督學習中，很多朋友都會面臨同一個問題，我們應該將使用者聚成幾類？即如何確定K值問題。下面我們介紹兩種常用的方法。輪廓係數法Nbcluster輪廓係數法首先，我們載入資料，並對資料進行預先處理。請看

matlab中k-means聚類演算法畫點

只是需要用到matlab畫圖，在網上隨便找了找改了改 matlab內部直接就有k-means的 X=[39.55 116.24;41.48 123.25;38.55 121.36;43.54 125.19;45.44 126.36;37.54 112.33;40.06 1

機器學習中K-means聚類演算法原理及C語言實現

本人以前主要focus在傳統音訊的軟體開發，接觸到的演算法主要是音訊訊號處理相關的，如各種編解碼演算法和回聲消除演算法等。最近切到語音識別上，接觸到的演算法就變成了各種機器學習演算法，如GMM等。K-means作為其中比較簡單的一種肯定是要好好掌握的。今天就講講K-means的基本原理和程式碼實現。其中基本原

機器學習——K-means演算法（聚類演算法）

聚類在說K-means聚類演算法之前必須要先理解聚類和分類的區別。分類其實是從特定的資料中挖掘模式，作出判斷的過程。比如Gmail郵箱裡有垃圾郵件分類器，一開始的時候可能什麼都不過濾，在日常使用過程中，我人工對於每一封郵件點選“垃圾”或“不是垃圾”，過一段時間，Gmail就體現出

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記關鍵字：k-均值、kMeans、聚類、非監督學習作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@author: Pet

聚類演算法中K值的選取

介紹

方法

均方根

Elbow法

影象法

結論

相關推薦