譜聚類原理及Python實現

圖模型

無向帶權圖模型 $G=<V,E>$ ，每一條邊上的權重 $w_{i j}$

w_{i j}

$w_{ij}$ 為兩個頂點的相似度，從而可以定義相似度矩陣

W

$W$ ，此外還可以定義度矩陣

D

$D$ 和鄰接矩陣

A

$A$ ，從而有拉普拉斯矩陣

L = D - A

$L=D-A$ 。所以本文用到的矩陣總共兩個：

L

$L$ 和

W

$W$ 。

圖的分割

一個圖 $G$ 可能有很多個子圖 $G_i$ （總共 $k$ 個），現在的任務是將大圖分成若干小塊，要求分法是最佳的。何為“最佳”呢，遍歷每一個子圖，計算一個切圖懲罰，將他們加起來。式中的 $\hat{G}_i$ 表示子圖 $G_i$ 的補集，代價函式 $C$ 計算的是連線兩個子圖之間的權重之和。

C o s t (G_{1}, \dots, G_{k}) = \sum_{i} C (G_{i}, {\hat{G}}_{i}) C (G_{1}, G_{2}) = \sum_{i \in G_{1}, j \in G_{2}} w_{i j}

$Cost(G_1,\cdots, G_k)=\sum_iC(G_i,\hat{G}_i)\\C(G_1,G_2)=\sum_{i\in G_1,j\in G_2} w_{ij}$

根據這個公式，對於下面這個圖，假設點7和點8之間的權重值很小，那麼很容易有紅線所示的劃分（假設二分），上面的代價函式計算出來的值很小。但顯然綠色線所示才是最佳的分法。

距離度量與鄰接矩陣

鄰接矩陣某種程度上反映了圖中各結點之間的相似性，普通的鄰接矩陣元素非0即1，譜聚類中的鄰接矩陣用KNN來計算。具體來說，遍歷每一個結點 $x_i$ ，根據相似度（或距離）矩陣找出它的 $k$ 個最接近的點，構成 $x_i$ 的鄰域 $N_i$ ，然後按以下規則之一構造鄰接矩陣。

A_{i j} = A_{j i} = {\begin{matrix} 0 & x_{i} \notin N_{j} a n d x_{j} \notin N_{i} \\ \exp - \frac{| | x_{i} - x_{j} | |^{2}}{2 σ^{2}} & x_{i} \in N_{j} o r x_{j} \in N_{i} \end{matrix}

$A_{ij}=A_{ji}=\left \{ \matrix{0 & x_i\notin N_j\ and x_j \notin \ N_i\\ \exp-\frac{||x_i-x_j||^2}{2\sigma^2} & x_i \in N_j \ or \ x_j \in N_i}\right.$

A_{i j} = A_{j i} = {\begin{matrix} 0 & x_{i} \notin N_{j} o r x_{j} \notin N_{i} \\ \exp - \frac{| | x_{i} - x_{j} | |^{2}}{2 σ^{2}} & x_{i} \in N_{j} a n d x_{j} \in N_{i} \end{matrix}

$A_{ij}=A_{ji}=\left \{ \matrix{0 & x_i\notin N_j\ or \ x_j \notin \ N_i\\ \exp-\frac{||x_i-x_j||^2}{2\sigma^2} & x_i \in N_j \ and \ x_j \in N_i}\right.$

切圖聚類

RatioCut 切法

為了解決上面這個區域性最優問題，一個很自然的做法就是改進目標函式，要求每個劃分出來的子圖的結點數儘量大。例如上圖，最佳劃分對應的兩個子圖節點數都是4，而區域性最優劃分有一個子圖節點數為1。

R a t i o C u t (G_{1}, \dots, G_{k}) = \sum_{i} \frac{C (G_{i}, {\hat{G}}_{i})}{| {\hat{G}}_{i} |}

譜聚類（Spectral Clustering）原理及Python實現

譜聚類原理及Python實現

圖模型

圖的分割

距離度量與鄰接矩陣

切圖聚類

RatioCut 切法

譜聚類（Spectral Clustering）原理及Python實現

譜聚類（spectral clustering）原理總結

譜聚類（spectral clustering）

譜聚類（Spectral Clustering）演算法介紹

譜聚類（spectral clustering)及其實現詳解

聚類之均值聚類（k-means）演算法的python實現

層次聚類（Hierarchical Clustering）

聚類系列-層次聚類（Hierarchical Clustering）

譜聚類演算法(Spectral Clustering)

譜聚類演算法(Spectral Clustering)優化與擴充套件

機器學習——非監督學習——層次聚類（Hierarchical clustering）

譜聚類演算法及其程式碼（Spectral Clustering）

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

聚類:（K-means）算法

聚類（K-Means）

聚類：層次聚類、基於劃分的聚類（k-means）、基於密度的聚類、基於模型的聚類

K均值聚類（K-means）和高斯混合聚類（Mixture of Gaussian Models）

機器學習——K-均值聚類（K-means）演算法

Python機器學習演算法實踐——k均值聚類（k-means）

聚類分析演算法Python3.6實踐K均值聚類（K-means）