機器學習之層次聚類演算法

阿新 • • 發佈：2019-01-11

層次聚類（Hierarchical Clustering）是對給定資料集在不同層次進行劃分，形成樹形的聚類結構，直到滿足某種停止條件為止。資料集的劃分可採用自底向上或自頂向下的劃分策略。

1、凝聚的層次聚類演算法AGNES

AGNES（AGglomerative NESTing）採用自底向上的策略，先將每個樣本作為一個初始聚類簇，然後迴圈將距離最近的兩個簇進行合併，直到達到某個停止條件，如指定的簇數目等。

兩個簇間距離可以由這兩個不同簇中距離最近的資料點的相似度來確定，計算方法有：

（1）最小距離single/word-linkage（SL聚類）

兩個聚簇中最近的兩個樣本之間的距離

最終得到的模型容易形成鏈式結構。

（2）最大距離complete-linkage（CL聚類）

兩個聚簇中最遠的兩個樣本之間的距離

如果存在異常值，那麼構建可能不太穩定。

（3）平均距離average-linkage（AL聚類）

兩個聚簇中樣本間兩兩距離的平均值

（4）中值距離median-linkage

兩個聚簇中樣本間兩兩距離的中值

比

AL更能消除個別偏離樣本對結果的干擾。

2、分裂的層次聚類演算法DIANA

DIANA（DIvisive ANAlysis）採用自頂向下的策略，先將所有的樣本歸為一個簇，然後按照某種規則逐漸分裂為越來越小的簇，直到達到某個停止條件，如指定的簇數目等。分裂方式如下：

（1）在同一個簇c中計算兩兩樣本之間的距離，找出距離最遠的兩個樣本a、b；

（2）將樣本a、b分配到不同的類簇c1、c2中；

（3）計算c中剩餘的其他樣本分別和a、b的距離，若dist(a)<dist(b)，則將樣本分入c1中，否則分入c2中。

AGENS、DIANA演算法的優缺點：

簡單、理解容易；

合併點/分裂點的選擇不太容易；

合併點/分裂點的操作不能進行撤銷；

不太適合大資料集、樣本量很大的情況，伸縮性差、執行效率較低O(t*m²)，t為迭代次數，m為樣本數量。

層次聚類優化演算法

3、平衡迭代削減聚類法BIRCH

BIRCH（Balanced Iterative Reducing and Clustering using Hierarchies）也稱利用層次方法的平衡迭代規約和聚類演算法，適合資料量非常大、簇數量也比較多的情況。此演算法執行效率極高，只需掃描一遍資料集即可聚類，並能有效地處理離群點。BIRCH演算法的主要步驟是：

（1）掃描資料集，動態建立一棵CF-Tree存放在記憶體中；

（2）若記憶體不夠，則增大閾值T，在原樹的基礎上構建一棵比較小的樹；

（3）對CF-Tree葉節點使用全域性性的聚類演算法如K-means等，以消除由於樣本讀入順序導致的不合理的樹結構，改進聚類質量。

BIRCH演算法的核心是用聚類特徵CF表示一個簇的相關資訊，構建滿足分支因子和簇直徑限制的聚類特徵樹CF-Tree，然後對葉子節點進行聚類。

聚類特徵Cluster Feature指的是一個滿足線性關係的三元組（N,LS,SS），其中：

N表示這個CF中包含的樣本數量；

LS表示這個CF中包含的樣本點的各特徵維度的向量和；

SS表示這個CF中包含的樣本點的各特徵維度的平方和（標量）。

聚類特徵樹CF-Tree的每一個節點由若干CF組成，內部節點指向葉節點，所有的葉節點用一個雙向連結串列連結起來。由於CF滿足線性關係，因此CF-Tree父節點中的每個CF三元組的值等於它所指向的子節點的所有CF三元組之和。CF-Tree的構建是動態的，可以隨時根據新增資料對樹模型進行更新。

CF-Tree的幾個關鍵超引數：

B：每個內部節點最大的CF個數；

L：每個葉節點最大的CF個數；

T：葉節點每個CF的最大樣本半徑閾值，即新樣本若被分類到某一個CF中，其到該CF中心的距離最大值。

CF-Tree構建步驟：

（1）初始狀態時CF-Tree是空的，沒有任何樣本。讀入第一個樣本，生成這個節點的第一個CF三元組，此時N=1，令它為CF1。

（2）讀入第二個樣本，若它到CF1的距離小於T，那麼這個樣本也歸入CF1（N=2），更新其三元組資料；如果大於T，則此節點新增一個CF三元組CF2，這個樣本作為CF2中的首個樣本（N=1）。

（3）節點分裂：從根節點開始，自上而下選擇葉節點，令新樣本進入最近的葉節點；考察新樣本與葉節點所有CF的距離，如果都大於T，則生成一個新的CF；但是如果此時葉節點的CF總個數大於L，就需要對該葉節點進行分裂：

找到該葉節點內各個CF之間的距離最大的兩個CF，分別作為兩個新葉節點的CF，再計算其餘CF到這兩個CF之間的距離，將原葉節點的資料劃分到這兩個新葉節點中。

如果葉節點分裂過後導致上一層的內部節點的CF總數超過B，則該內部節點需要進行分裂，分裂方式和葉節點分裂方式相同。

（4）迴圈上述過程，當有樣本無法插入時，需要提升閾值T並重建樹，直到所有樣本均進入CF樹為止。

BIRCH演算法的特點：

（1）速度快、節約記憶體，適合處理大規模資料集，線性效率（I/O花費與資料量呈線性關係）；

（2）可識別噪聲點，建立CF-Tree後將包含資料點少的子簇剔除；

（3）採用多階段聚類技術，單次掃描產生基本的聚類，多次掃描改善聚類質量；

（4）是一種增量的聚類方法，對每個點的決策基於當前已經處理過的點；

（5）由於CF-Tree對每個節點的CF個數有限制，導致聚類的結果可能和真實的分佈不同；

（6）由於CF-Tree各節點閾值相同，只適合體積相差不大的簇之間的聚類，對體積相差較大的簇聚類的效果不是很好。因此可以引入多閾值BIRCH演算法，為每個簇設一個閾值，將CF表示為四元組（N,LS,SS,T）；

（7）只適合分佈呈凸形或者超球形的資料集，因為使用了半徑或直徑的概念來控制聚類的邊界；

（8）對高維特徵的資料聚類效果不好，此時可選擇Mini Batch K-means。

（9）BIRCH演算法過程一旦中斷，必須從頭再來。

4、使用代表點的聚類法CURE

CURE（Clustering Using REpresentatives）該演算法先把每個點作為一個簇，然後合併距離最近的簇直到簇個數達到要求為止。CURE和AGNES演算法的區別是：不是使用所有點或質心+距離來表示一個簇，而是從每個簇中抽取固定數量、分佈較好的點作為簇的代表點，並將這些代表點乘以一個適當的收縮因子，使它們更加靠近類中心點。代表點的收縮特性可以調整模型匹配非高斯分佈的應用場景，而且收縮因子的使用可以減少噪音資料對聚類的影響。

CURE演算法實現過程如下：

（1）從原始資料中隨機抽樣，得到資料集S；

（2）對S進行分割槽，在記憶體中對每個分割槽分別進行區域性聚類；

（3）如果一個類簇增長緩慢或不增長，說明它是噪聲，要去除掉；

（4）新的類簇由固定個數的代表點經過收縮後表示；

（5）對磁碟上整個原始資料根據代表點進行全域性聚類。

由於CURE演算法的時間複雜度較高，可以使用堆、k-d樹、隨機抽樣和分割槽等技術改善效率；CURE的聚類效果受引數的影響較大，如隨機抽樣的比例、聚類個數、收縮因子的設定等。

機器學習之層次聚類演算法

機器學習之層次聚類演算法

機器學習之層次聚類及程式碼示例

Spark機器學習之-實時聚類演算法呼叫

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

Python機器學習——Agglomerative層次聚類

機器學習之DBSCAN聚類

機器學習之kMeans聚類

機器學習 K-means 聚類演算法 C++

【機器學習】層次聚類

機器學習sklearn19.0聚類演算法——Kmeans演算法

機器學習(4)--層次聚類(hierarchical clustering)基本原理及實現簡單圖片分類

【機器學習】常用聚類演算法原型

[機器學習]t-SNE聚類演算法實踐指南

聚類分析之層次聚類演算法

機器學習之劃分聚類及程式碼示例

機器學習之--kmeans聚類簡單算法實例

機器學習中的聚類演算法演變及學習筆記

機器學習實戰-62:層次聚類演算法(Hierarchical Clustering)

機器學習-聚類(層次聚類演算法)

【機器學習】【層次聚類演算法-1】HCA(Hierarchical Clustering Alg)的原理講解 + 示例展示數學求解過程

機器學習之層次聚類演算法

相關推薦