機器學習總結——聚類

阿新 • • 發佈：2019-01-06

效能度量

距離計算

原型聚類

k均值

演算法

隨機選k個點作為初始聚類中心
計算每個樣本到k個聚類中心的距離，選距離最近的作為類標記
重新計算聚類中心
重複2、3過程
直至收斂或達到迭代次數

優缺點

優點

對於大型資料集也是簡單高效、時間複雜度、空間複雜度低。

缺點

最重要是資料集大時結果容易區域性最優
需要預先設定K值，對最先的K個點選取很敏感
對噪聲和離群值非常敏感；只用於numerical型別資料
不能解決非凸（non-convex）資料。

學習向量量化 LVQ

高斯混合聚類

選擇簇的數量（如 K-Means 所做的），並隨機初始化每個簇的高斯分佈引數。
給定每個簇的高斯分佈，計算每個資料點屬於一個特定簇的概率。一個點越靠近高斯的中心，它就越可能屬於該簇。

基於這些概率，我們計算一組新的高斯分佈引數使得簇內的資料點的概率最大化。我們使用資料點位置的加權和來計算這些新引數，其中權重是資料點屬於該特定簇的概率。
重複步驟2和3直到收斂。

密度聚類

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)

演算法

從任一物件點p開始；
尋找併合並核心p物件直接密度可達（eps）的物件；
如果p是一個核心點，則找到了一個聚類，如果p是一個邊界點（即從p沒有密度可達的點）則尋找下一個物件點；
重複2、3，直到所有點都被處理

優缺點

優點

對噪聲不敏感
能發現任意形狀的聚類。

缺點

聚類的結果與引數有很大的關係
DBSCAN用固定引數識別聚類，但當聚類的稀疏程度不同時，相同的判定標準可能會破壞聚類的自然結構，即較稀的聚類會被劃分為多個類或密度較大且離得較近的類會被合併成一個聚類。

OPTICS(Ordering Points To Identify Clustering Structure)

DBSCAN的擴充套件, 通過優先對高密度(high density)進行搜尋，然後根據高密度的特點設定引數，改善了DBSCAN的不足。

層次聚類

AGNES(AGglomerative NESting)

採用自底向上的聚合策略來產生層次聚類結構

演算法

將每個物件當成一個初始簇

計算任意兩個簇的距離，並找到滿足度量條件的兩個簇
合併兩個簇，生成新的簇的集合
重複2和3直到終止條件得到滿足

合併簇方法劃分

single-linkage

最近距離由兩個簇的最近的樣本來決定

$dist_{min}(C_i,C_j)=\min_{p\in{C_i},p'\in{C_j}}\{|p-p'|\}$

complete-linkage

最大距離由兩個簇的最遠的樣本來決定
$dist_{max}(C_i,C_j)=\max_{p\in{C_i},p'\in{C_j}}\{|p-p'|\}$

average-linkage

由兩個簇的平均距離決定
$dist_{avg}(C_i,C_j)=\frac{1}{n_in_j}\sum_{p\in{C_i},p'\in{C_j}}\{|p-p'|\}$

DIANA

採用自頂向下的分拆策略來產生層次結構

Birch

BIRCH使用 聚類特徵(CF) 來概括一個簇，使用聚類特徵樹（CF樹）來表示聚類的層次結構。聚類特徵本質上是給定簇的統計彙總：從統計學的觀點來看，它是簇的零階矩、一階矩和二階矩。聚類特徵滿足可加性。
BIRCH聚類演算法原理

優缺點

優點

節約記憶體，所有的樣本都在磁碟上，CF Tree僅僅存了CF節點和對應的指標。
聚類速度快，只需要一遍掃描訓練集就可以建立CF Tree，CF Tree的增刪改都很快。
可以識別噪音點，還可以對資料集進行初步分類的預處理

缺點

由於CF Tree對每個節點的CF個數有限制，導致聚類的結果可能和真實的類別分佈不同.
對高維特徵的資料聚類效果不好。此時可以選擇Mini Batch K-Means
如果資料集的分佈簇不是類似於超球體，或者說不是凸的，則聚類效果不好。

其他聚類

譜聚類

演算法

計算兩兩樣本之間的相似度，用相似度構造鄰接矩陣 $W$
把 $W$ 的矩陣的每一列加起來得到 $N$ 個數，構造一個 $N*N$ 的對角矩陣 $D$ (度矩陣)，計算拉普拉斯矩陣 $L=D-W$
求出 $L$ 的前 $k$ 小的特徵值對應的 $k$ 個特徵向量 $\{\bm{v}\}_{i=1}^{k}$
把 $k$ 個特徵列向量排列在一起組成一個 $N*k$ 的矩陣，其中每一行可以看做原先的樣本降維到 $k$ 維空間的向量
使用Kmeans演算法(Kmeans的 $K$ 與步驟3裡的 $k$ 沒關係)進行聚類，用降維後的向量代替原先的樣本

優缺點

對離群點不敏感
kmeans適合凸資料, 而譜聚類則比較通用

問題

為什麼是 $L$ 前 $k$ 小的特徵向量

$L$ 前 $k$ 小等價於 $W$ 前 $k$ 大，本質上也是保留特徵矩陣 $W$ 的前 $k$ 大，而且 $L$ 前 $k$ 小的特徵向量的組成的矩陣是使目標函式最小的解

機器學習總結——聚類

效能度量距離計算原型聚類 k均值演算法隨機選k個點作為初始聚類中心計算每個樣本到k個聚類中心的距離，選距離最近的作為類標記重新計算聚類中心重複2、3過程直至收斂或達到迭代次數優缺點優點對於大型資料集也是簡單高效、時間複雜度、空間複雜

機器學習---1.聚類演算法綱領總結

近期定了研究生畢設的課題，有種一錘定兩年的趕腳。心裡還是有點方，只好天天催眠自己現在的選擇就是最好的選擇。其中一塊應該會用到聚類演算法，這就需要我對各種種類的適用條件、引數摸清楚了，到時候再選出效果最好的聚類方式。

機器學習-KMeans聚類 K值以及初始類簇中心點的選取

src 常用趨勢試圖重復執行很大的一個點 3.4 選擇【轉】http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html 本文主要基於Anand Rajaraman和Jeffrey David

機器學習演算法--聚類

常見的無監督學習型別：聚類任務密度估計異常檢測聚類演算法試圖將樣本分成k個不想交的子集，每個子集稱為一個簇，對應一些潛在的概念。樣本集x={x1, x2....xm} 每個樣本Xi={xi1,xi2...xin}對應n個特徵劃分為K個不同的類別C={C1

[五]機器學習之聚類

5.1 實驗概要通過K-Mean，譜聚類，DBSCAN三種演算法解決基本的聚類問題，使用sklearn提供的聚類模組和鳶尾花資料集，對聚類效果進行橫向比較。 5.2 實驗輸入描述資料集：鳶尾花資料集，詳情見[機器學習之迴歸]的Logistic迴歸實驗 5.3 實驗步驟匯入資

機器學習6---聚類簡述

一、聚類介紹聚類屬於“無監督學習”的一種，即訓練樣本的標籤資訊在訓練過程中是不被使用的，這也是區別於分類的重要特徵。從數學角度而言，聚類是將樣本集劃分成k個不相交的“簇”，並且使用作為第i個簇的標記（cluster label）。聚類演算法可以單獨作為一個劃分資料的過程，也可

機器學習-*-DBSCAN聚類及程式碼實現

DBSCAN DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪聲的基於密度的聚類方法) 原理首先描述以下幾個概念，假設我們有資料集

機器學習-*-MeanShift聚類演算法及程式碼實現

MeanShift 該演算法也叫做均值漂移，在目標追蹤中應用廣泛。本身其實是一種基於密度的聚類演算法。主要思路是：計算某一點A與其周圍半徑R內的向量距離的平均值M，計算出該點下一步漂移（移動）的方向（A=M+A）。當該點不再移動時，其與周圍點形成一個類簇，計算這個類簇與歷史類簇的距

吳恩達機器學習之聚類演算法的引數選擇以及優化

對於K（k<樣本量的）均值聚類，一般引數的自定義主要有兩個，一個是聚類中心初始位置的選擇，二是K值的選擇優化目標：每個樣本點到該點聚類中心的平方的累加解決聚類中心的初始化問題：隨機挑選樣本點作為聚類中心，這個過程重複50-1000次，選出J值最低的（通常K值為2-10的時候

機器學習之聚類（二）

在機器學習和資料探勘中，我們經常需要知道個體間差異的大小，進而評價個體的相似性和類別。最常見的是資料分析中的相關分析，資料探勘中的分類和聚類演算法，如 K 最近鄰（KNN）和 K 均值（K-Means）等等。根據資料特性的不同，可以採用不同的度量方法

使用pyspark進行機器學習（聚類問題）

BisectingKMeans class pyspark.ml.clustering.BisectingKMeans(self, featuresCol="features", predic

機器學習實戰--聚類

一什麼是聚類？在無監督學習中，訓練樣本的標記資訊是未知的，目標是通過對無標記訓練樣本的學習來揭示資料的內在性質及規律，為進一步的資料分析提供基礎。聚類試圖將資料集中的樣本劃分為活幹個通常是不想交(正交)的子集，每個子集稱為一個簇。通過這樣的劃分每個簇可能對應於一些潛在的類別

機器學習之聚類演算法（層次聚類）

層次聚類也叫連通聚類方法，有兩個基本方法：自頂而下和自底而上。自頂而將所有樣本看做是同一簇，然後進行分裂。自底而上將初所有樣本看做不同的簇，然後進行凝聚。這種聚類的中心思想是：離觀測點較近的點相比離觀測點較遠的點更可能是一類。這種方法首先會生成下面的樹

【機器學習】聚類演算法：層次聚類

本文是“漫談 Clustering 系列”中的第 8 篇，參見本系列的其他文章。系列不小心又拖了好久，其實正兒八經的 blog 也好久沒有寫了，因為比較忙嘛，不過覺得 Hierarchical Clustering 這個話題我能說的東西應該不多，所以還是先寫了吧（我準

斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）

上面的部落格的演算法都是有監督學習的演算法，即對於每個資料我們都有該資料對應的標籤，資料集的形式如下：而今天我們學習的演算法是一種無監督學習的演算法——聚類，該演算法中的每個資料沒有標籤，資料集的形式如下： K-均值聚類 k-均值聚類是一種最常見

機器學習之聚類分析---K-means（一）

初探k-means（Matlab）俗話說：，聚類分析的目的是：在資料中發現數據物件之間的關係，並將資料進行分組，使得組內的相似性儘可能大，組間的差別盡可能大，那麼聚類的效果越好。例如在市場營銷中，聚類分

【機器學習】聚類演算法：層次聚類、K-means聚類

所謂聚類，就是將相似的事物聚集在一起，而將不相似的事物劃分到不同的類別的過程，是資料分析之中十分重要的一種手段。比如古典生物學之中，人們通過物種的形貌特徵將其分門別類，可以說就是一種樸素的人工聚類。如此，我們就可以將世界上紛繁複雜的資訊，簡化為少數方便人們理解的類別，可以說是人類認知這個

Python機器學習——DBSCAN聚類

密度聚類（Density-based Clustering）假設聚類結構能夠通過樣本分佈的緊密程度來確定。DBSCAN是常用的密度聚類演算法，它通過一組鄰域引數（ϵ，MinPts）來描述樣本分佈的緊密程度。給定資料集D={x⃗ 1，x⃗ 2，x⃗ 3，.

機器學習：聚類-閔科夫斯基距離和無序屬性的VDM距離計算

距離計算是很多學習演算法會涉及的內容，當然包括聚類演算法，這裡簡單介紹下有序屬性的閔科夫斯基距離和無序屬性的VDM距離。關於有序屬性，大概可以這樣理解：假設身高的屬性有{矮，中，高}，為了計算方便，我們把它們轉成數字{1，2，3}，1和2較接近（矮和中相差較小），1和3較

【機器學習】聚類

1. 距離計算當對一些沒有 Label 的資料進行分類的時候，需要滿足一些的基本性質：非負性：dist(xi,xj)≥0dist(xi,xj)≥0；同一性：dist(xi,xj)=0dist(xi,xj)=0，當且僅當 xi=xjxi=xj；對

機器學習總結——聚類

效能度量

距離計算

原型聚類

k均值

演算法

優缺點

優點

缺點

學習向量量化 LVQ

高斯混合聚類

密度聚類

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)

演算法

優缺點

優點

缺點

OPTICS(Ordering Points To Identify Clustering Structure)

層次聚類

AGNES(AGglomerative NESting)

演算法

合併簇方法劃分

single-linkage

complete-linkage

average-linkage

DIANA

Birch

優缺點

優點

缺點

其他聚類

譜聚類

演算法

優缺點

問題

為什麼是LLL前kkk小的特徵向量

相關推薦

為什麼是 $L$ 前 $k$ 小的特徵向量