1. 程式人生 > >聚類(下)

聚類(下)

1.原型聚類

原型聚類亦稱“基於原型的聚類”(prototype-based clustering),此類演算法假設聚類結構能通過一組原型刻畫,在現實聚類任務中常用。通常,演算法先對原型進行初始化,然後對原型進行迭代更新求解。

1)K-Means演算法 (距離平方和最小聚類法)

給定樣本集D={x1,x2,…,xm},“k均值”演算法針對聚類所得簇劃分C={C1,C2,…,Ck}最小化均方誤差:

這裡寫圖片描述
直觀來看,上式在一定程度上刻畫了簇內樣本均值向量的緊密程度,E值越小則簇內相似度越高。

這裡寫圖片描述

2)學習向量量化
3)高斯混合聚類

2.密度聚類

以空間中的一點為中心,單位體積內點的個數稱為該點的密度

。密度聚類只要鄰近區域的密度(物件或資料點的數目)超過某個閾值,就能夠繼續聚類。

也就是說,對給定類中的每個資料點,在一個給定的區域內必須至少包含某個數目的點。這樣,密度聚類方法就可以用來過濾“噪聲”異常點資料發現任意形狀的簇

在密度聚類演算法中,有基於高密度連線區域的DBSCAN(Density-based Spatial Clustedng of Application with Noise)演算法、通過物件排序識別聚類結構的OPTICS(Ordering Points To Identify the Clustering Structure)演算法和基於密度分佈函式聚類的DENCLUE

(DENsity.based CLUstEring)演算法。

1)DBSCAN演算法
DBSCAN是一種著名的密度聚類演算法,它基於一組“鄰域”(neighborhood)引數
這裡寫圖片描述)來刻畫樣本分佈的緊密程度。給定資料集D={x1,x2,…,xm},定義下面幾個概念:

這裡寫圖片描述

這裡寫圖片描述

這裡寫圖片描述
這裡寫圖片描述
一個基於密度的簇是基於密度可達性的最大的密度相連物件的集合不包含在任何簇中的物件被認為是“噪聲”

3.層次聚類
層次聚類(hierachical clustering)試圖在不同層次上對資料進行劃分,從而形成樹形聚類結構。

分類:
聚合策略(agglomerative)(自底向上):一開始將每個物件作為單獨的一組,然後根據同類相近,異類相異

的原則,合併物件,直到所有的組合併成一個,或達到一個終止條件為止

拆分策略(divisive)(自頂向下):一開始將所有的物件置於一類,在迭代的每一步中,一個類不斷地分為更小的類直到每個物件在單獨的一個類中,或達到一個終止條件

特點
類的個數不需事先定好
需確定距離矩陣
運算量要大,適用於處理小樣本資料

按類與類之間的距離分為:
這裡寫圖片描述

1)最短距離法(single linkage)

這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述

2)最長距離法(complete linkage)

可能被極大值扭曲,刪除這些值之後再聚類

這裡寫圖片描述
這裡寫圖片描述

3)中間距離法(median method)

這裡寫圖片描述
這裡寫圖片描述

4)重心法(centroid method)

類的重心之間的距離
對異常值不敏感,結果更穩定

這裡寫圖片描述

5)類平均法(between-group linkage)

這裡寫圖片描述

類間距離的統一性

這裡寫圖片描述

聚類引數表
這裡寫圖片描述