簡介

文章將介紹譜聚類（spectral clustering）的基本演算法，以及在matlab下的程式碼實現。介紹內容將包括：

從圖分割角度直觀理解譜聚類
譜聚類演算法步驟
資料以及實現程式碼

本文將不會涉及細節化的證明和推導，如有興趣可參考july大神的文章從拉普拉斯矩陣說到譜聚類.

對譜聚類的理解

這一節將從圖分割聚類的角度直觀理解譜聚類。不過，因為本人是從事社交媒體分析的，將從一種社會關係網路的角度來介紹網路圖分割成多個子圖的概念。

圖的分割

首先將社會關係網路看成是一個整體，每一個個體（user）就是這個網路中的各個節點（node），而連線個體的就是各個節點之間的邊（edge）。在不同性質的網路中，邊的定義可能有所不同，這裡可以簡單的理解成個體之間關係的親密度。如圖（1）所示

圖（1）
每個個體與其他個體之間都有關係親密度（也叫做權重，設定範圍是[0,1]），可以看到user1,2,3之間關係緊密，user4,5,6關係緊密，而兩個小部分是靠著user2和user6來聯絡的。以現實生活為例，123是A班級同學，456是B班級同學，2和6正好是認識的，關係一般，所以我們可以直觀的把2和6之間的邊給截斷（cut），從而形成兩個互不相關的子圖，這樣就完成了對這個網路的分割。

圖的泛化意義

很多時候，並不是說一定要實際生活中是一個網路（network）的事物，才能夠用圖（graph）模型來表示。圖模型只是解決問題的一個模型，可能一個物件既可以用圖模型，也可以用非圖模型來解決（拓撲，非拓撲）。舉個例子，在聚類，我們之前（

K-means 聚類演算法及其程式碼實現）討論過如何將資料點看成是座標系下的一個個點，然後迭代找出中心點從而聚類。如果以另外一種視角，我們的座標系中的各個點看成是圖的節點，而點與點之間的相似性看成是邊的權重，我們同樣就構成了一個圖模型。所以圖與非圖是相對來看的，取決於哪個更好解決問題。

譜聚類的意義

譜聚類要做的事情就是完成對圖的分割，它想要找到最好的分割方式，來將圖分割開來。這種對圖的分割，取決於你如何定義這個圖。比如，圖中的點是什麼？圖中的邊又是怎麼確定的？最優分割的標準又是怎麼樣的？等等。對圖本身定義的不同，就會導致不同的分割結果，所以我們為了明確這些東西，在這裡以一個實際的定義為準，事先宣告，圖的定義也可以用其他方式，不過我這裡用的就是現在常用的相似度矩陣圖模型。

我們要解決的問題是：給定資料{x1,x2,x3,...,xN}，將其分成K個類。

而我們將這些資料點都看成是資料的節點，它們之間的相似度定義為邊的權重值，相似度矩陣為W={wij|1≤i≤N,1≤j≤N}，其中相似性是按照

wij=e−||xi−xj||22σ2(1)
高斯相似度來計算的，其中σ是一個超引數(hyperparameter)。當然其他的相似性（如餘弦相似度）也是同樣適用的。可以看出，相似度矩陣W是一個對稱（symmetric）矩陣。為了使某個單節點不會更容易被剔除，我們考慮一個歸一化的對角矩陣D（diagonal），對角線上元素是相似度矩陣一行（列，因為對稱行列一樣）所有元素的和，即
D(i,i)=∑j=1Nxij(2)
這樣計算。

因為沒有給出關於截的概念，所以沒有辦法給出優化函式的形式，具體內容，還請參考從拉普拉斯矩陣說到譜聚類。

譜聚類演算法步驟

這一小節將會給出譜聚類演算法的步驟，整體來說，譜聚類演算法要做的就是先求出相似性矩陣，然後對該矩陣歸一化運算，之後求前K個特徵向量，最後運用K-means演算法分類。
實際上，譜聚類要做的事情其實就是將高維度的資料，以特徵向量的形式簡潔表達，屬於一種降維的過程。本來高維度用k-means不好分的點，在經過線性變換以及降維之後，十分容易求解。下面就給出步驟：

1. 按照式(1)計算相似性矩陣W
2. 將W的對角線值，即W(i,i)=0，是為了排除自身的相似度

相關推薦

譜聚類演算法及其程式碼（Spectral Clustering）

簡介文章將介紹譜聚類（spectral clustering）的基本演算法，以及在matlab下的程式碼實現。介紹內容將包括：從圖分割角度直觀理解譜聚類譜聚類演算法步驟資料以及實現程式碼本文將不會涉及細節化的證明和推導，如有興趣可參考july大

譜聚類演算法入門教程（三）—— 求f^TLf的最小值

在上一篇部落格中，我們知道目標函式變為 argmin⁡f∈R6fTLfarg \min \limits_{f \in \R^6} f^TLfargf∈R6minfTLf，即找到一個fff，使得 fTLff^TLffTLf 取得最小值這篇部落格將通過求導的方

聚類演算法之BIRCH（Java實現）

BIRCH（Balanced Iterative Reducing and Clustering using Hierarchies）天生就是為處理超大規模（至少要讓你的記憶體容不下）的資料集而設計的，它可以在任何給定的記憶體下執行。關於BIRCH的更多特點先不介紹，我先講一下演算法的完整實現細節，對演算

譜聚類（Spectral Clustering）演算法介紹

一. 前言本來想寫關於聚類系列演算法的介紹，但是聚類系列的其它幾個演算法原理比較簡單，網上有大量的教程可以查閱。這裡主要是介紹一下譜聚類演算法，做一個學習筆記，同時也希望對想要了解該演算法的朋友有一個幫助。關於聚類的其他系列演算法，這裡推薦一個寫的很不錯的部落格。譜聚

譜聚類（spectral clustering）

1. 譜聚類概述譜聚類是從圖論中演化出來的演算法，後來在聚類中得到了廣泛的應用。它的主要思想是把所有的資料看做空間中的點，這些點之間可以用邊連線起來。距離較遠的兩個點之間的邊權重值較低，而距離較近的兩個點之間的邊權重值較高，通過對所有資料點組成的圖進行切圖，讓切圖後不同的子圖間邊權重和

譜聚類（Spectral Clustering）原理及Python實現

譜聚類原理及Python實現圖模型無向帶權圖模型 G=<V,E> G =< V ,

譜聚類（spectral clustering）原理總結

　　　　譜聚類（spectral clustering）是廣泛使用的聚類演算法，比起傳統的K-Means演算法，譜聚類對資料分佈的適應性更強，聚類效果也很優秀，同時聚類的計算量也小很多，更加難能可貴的是實現起來也不復雜。在處理實際的聚類問題時，個人認為譜聚類是應該首先考慮的幾種演算法之一。下面我們就對譜聚類的

譜聚類演算法(Spectral Clustering)

譜聚類(Spectral Clustering, SC)是一種基於圖論的聚類方法——將帶權無向圖劃分為兩個或兩個以上的最優子圖，使子圖內部儘量相似，而子圖間距離儘量距離較遠，以達到常見的聚類的目的。其中的最優是指最優目標函式不同，可以是割邊最小分割——如圖1的Smallest cut(如後文的M

譜聚類演算法(Spectral Clustering)優化與擴充套件

譜聚類(Spectral Clustering, SC)在前面的博文中已經詳述，是一種基於圖論的聚類方法，簡單形象且理論基礎充分，在社交網路中廣泛應用。本文將講述進一步擴充套件其應用場景:首先是User-Item協同聚類，即spectral coclustering，之後再詳述譜聚類的進一步優化。

機器學習-*-MeanShift聚類演算法及程式碼實現

MeanShift 該演算法也叫做均值漂移，在目標追蹤中應用廣泛。本身其實是一種基於密度的聚類演算法。主要思路是：計算某一點A與其周圍半徑R內的向量距離的平均值M，計算出該點下一步漂移（移動）的方向（A=M+A）。當該點不再移動時，其與周圍點形成一個類簇，計算這個類簇與歷史類簇的距

【無監督學習】5：譜聚類演算法原理介紹

前言：學習譜聚類，最好有一些圖論、矩陣分解（SVD）方面的知識，這樣會更加有利於譜聚類的學習。當然，譜聚類理解起來並不困難，實際操作也大多是譜聚類+K-means聚類聯合使用的。 –—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-—

譜聚類演算法講解

什麼是譜聚類？聚類的直觀解釋是根據樣本間相似度，將它們分成不同組。譜聚類的思想是將樣本看作頂點，樣本間的相似度看作帶權的邊，從而將聚類問題轉為圖分割問題：找到一種圖分割的方法使得連線不同組的邊的權重儘可能低（這意味著組間相似度要儘可能低），組內的邊的權重儘可能高（這意

譜聚類演算法Matlab快速實現

%Ncut譜聚類完整函式定義（儲存為.m檔案）： function C = SpectralClustering(data,k,a) %data是資料點矩陣 K是聚類個數 a代表高斯核函式的引數 %UNTITLED Summary of this functio

K-means 聚類演算法MATLAB程式碼

%----------------------main function----------------------------- %% Clear Memory & Command Window clc clear close all %% Generate Po

Kmeans聚類演算法及其matlab原始碼

本文介紹了K-means聚類演算法，並註釋了部分matlab實現的原始碼。K-means演算法K-means演算法是一種硬聚類演算法，根據資料到聚類中心的某種距離來作為判別該資料所屬類別。K-means演算法以距離作為相似度測度。假設將物件資料集分為個不同的類，k均值聚類演算

瞭解 kmeans演算法和譜聚類演算法

譜聚類演算法不過真正要直觀地理解譜聚類，其實應該從物理的簡正模振動的角度來理解。你可以認為每兩個點之間都有一個彈簧連著，把兩個點之間的相似度理解為它們的彈簧係數，每個特徵向量就是這個系統的運動

聚類——譜聚類演算法以及Python實現

譜聚類(spectral cluster)可以視為一種改進的Kmeans的聚類演算法。常用來進行影象分割。缺點是需要指定簇的個數，難以構建合適的相似度矩陣。優點是簡單易實現。相比Kmeans而言，處理高維資料更合適。核心思想構建樣本點的相似度矩陣(圖

機器學習筆記（九）聚類演算法及實踐（K-Means,DBSCAN,DPEAK,Spectral_Clustering）

這一週學校的事情比較多所以拖了幾天，這回我們來講一講聚類演算法哈。首先，我們知道，主要的機器學習方法分為監督學習和無監督學習。監督學習主要是指我們已經給出了資料和分類，基於這些我們訓練我們的分類器以

K-means聚類演算法及其MATLAB實現

clear all;close all;clc; % 第一組資料 mu1=[0 0 ]; %均值 S1=[.1 0 ;0 .1]; %協方差 data1=mvnrnd(mu1,S1,100); %產生高斯分佈資料 %第二組資料 mu2=[1.25 1.25 ]; S2=[.1 0 ;0 .1]; da

Mahout機器學習平臺之聚類演算法詳細剖析（含例項分析）

第一部分：學習Mahout必須要知道的資料查詢技能：學會查官方幫助文件：解壓用於安裝檔案（mahout-distribution-0.6.tar.gz），找到如下位置，我將該檔案解壓到win7的G盤mahout資料夾下，路徑如下所示： G:\mahout\mahout