[硬貨]|《機器學習》筆記-聚類（9）

阿新 • • 發佈：2019-01-16

這裡寫圖片描述

作者：劉才權
編輯：黃俊嘉

寫在最前面

如今機器學習和深度學習如此火熱，相信很多像我一樣的普通程式猿或者還在大學校園中的同學，一定也想參與其中。不管是出於好奇，還是自身充電，跟上潮流，我覺得都值得試一試。對於自己，經歷了一段時間的系統學習（參考《機器學習/深度學習入門資料彙總》），現在計劃重新閱讀《機器學習》[周志華]和《深度學習》[Goodfellow et al]這兩本書，並在閱讀的過程中進行記錄和總結。這兩本是機器學習和深度學習的入門經典。筆記中除了會對書中核心及重點內容進行記錄，同時，也會增加自己的理解，包括過程中的疑問，並儘量的和實際的工程應用和現實場景進行結合，使得知識不只是停留在理論層面，而是能夠更好的指導實踐。記錄筆記，一方面，是對自己先前學習過程的總結和補充。另一方面，相信這個系列學習過程的記錄，也能為像我一樣入門機器學習和深度學習同學作為學習參考。

章節目錄

聚類任務
效能度量
距離計算
原型聚類
密度聚類
層次聚類

（一）聚類任務

在無監督學習中（unsupervised learning）中，訓練樣本的標記資訊是未知的，目標是通過對無標記的訓練樣本的學習來揭示資料的內在性質及規律，為進一步的資料分析提供基礎。此類學習任務中研究最多、應用最廣的是“聚類”（clustering）。
聚類試圖將資料集中的樣本劃分為若干通常是不相交的子集，每個子集稱為一個“簇”（cluster）。
聚類既能作為一個單獨的過程，用於找尋資料內的分佈結構，也可作為分類等其他學習任務的前驅過程。

（二）效能度量

聚類效能度量亦稱聚類“有效性指標”（validity index）。與監督學習中的效能度量作用相似。對聚類結果，我們需通過某種效能度量來評估其好壞；另一方面，若明確了最終將要使用的效能度量，則可直接將其作為聚類過程的優化目標，從而更好地得到符合要求的聚類結果。
聚類是將樣本集D劃分為若干不相交的子集，即樣本簇。直觀上看，我們希望“物以類聚”，即同一簇的樣本儘可能彼此相似，不同簇的樣本儘可能不同。換言之，聚類結果的“簇內相似度”（intra-cluster similarity）高且“簇間相似度”（inter-cluster similarity）低。
聚類效能度量大致有兩類：
* “外部指標”（external index）
將聚類結果與某個“參考模型”（reference model）進行比較；
* “內部指標”（internal index）
直接考察聚類結果而不利用任何參考模型；

常用的聚類效能度量外部指標有：
* Jaccard係數（Jaccard Coefficient，簡稱 JC）
* FM指數（Fowlkes and Mallows Index，簡稱FMI）
* Rand指數（Rand Index，簡稱RI）

常用的聚類效能度量內部指標有：
* DB指數（Davies-Bouldin Index，簡稱DBI）
* Dunn指數（Dunn Index，簡稱DI）

（三）距離計算

給定樣本xi=（xi1，xi2；…；xin），與xj=（xj1；xj2；…；xjn），最常用的是”閔可夫斯基距離“（Minkowski distance），
9.18
p=2時，閔可夫斯基距離即歐氏距離（Euclidean distance），
9.19

p=1時，閔可夫斯基距離即曼哈頓距離（Manhattan distance），
9.20

上面的距離計算式都是事先定義好的，但在不少現實任務中，有必要基於資料樣本來確定合適的距離計算式，這可通過”距離度量學習“（distance metric learning）來實現。

（四）原型聚類

原型聚類亦稱”基於原型的聚類“（prototype-based clustering），此類演算法假設聚類結構能通過一組原型刻畫，在現實聚類任務中極為常用。通常情形下，演算法先對原型進行初始化，然後對原型進行迭代更新求解。採用不同的原型表示、不同的求解方式，將產生不同的演算法。

1. k均值演算法

給定樣本集D={x1，x2，…，xm}，”k均值“（k-means）演算法針對聚類所得簇劃分C={C1，C2，…，Ck}最小化平方誤差，
9.24
其中，

x是簇Ci的均值向量。直觀來看，上面式子在一定程度上刻畫了簇內樣本圍繞簇均值向量的緊密程度，E值越小則簇內樣本相似度越高。

2. 學習向量量化

與k均值演算法類似，“學習向量量化”（Learning Vector Quantization，簡稱LVQ）也是試圖找到一組原型向量來刻畫聚類結構，但與一般的聚類演算法不同的是，LVQ假設資料樣本帶有類別標記，學習過程用樣本的這些監督資訊來輔助聚類。

3. 高斯混合聚類

與k均值、LVQ用原型向量來刻畫聚類結構不同，高斯混合（Mixture-of-Gaussian）聚類採用概率模型來表達聚類原型。

（五）密度聚類

密度聚類亦稱“基於密度的聚類”（density-based clustering），此類演算法假設聚類結構能通過樣本分佈的緊密程度確定。通常情況下，密度聚類演算法從樣本密度的角度來考察樣本之間的可連線性，並基於可連線樣本不斷擴充套件聚類簇以獲得最終的聚類結果。
DBSCAN是一種著名的密度聚類演算法。

（六）層次聚類

層次聚類（hierarchical clustering）試圖在不同層次對資料集進行劃分，從而形成樹形的聚類結構。資料集的劃分可採用“自底向上”的聚合策略，也可採用“自頂向下”的分拆策略。
AGNES是一種採用自底向上聚合策略的層次聚類演算法。

[硬貨]|《機器學習》筆記-聚類（9）

寫在最前面