在Spark2.0版本中（不是基於RDD API的MLlib），共有四種聚類方法：
（1）K-means
（2）Latent Dirichlet allocation (LDA)
（3）Bisecting k-means（二分k均值演算法）
（4）Gaussian Mixture Model (GMM)。
基於RDD API的MLLib中，共有六種聚類方法：
（1）K-means
（2）Gaussian mixture
（3）Power iteration clustering (PIC)
（4）Latent Dirichlet allocation (LDA)**
（5）Bisecting k-means
（6）Streaming k-means
多了Power iteration clustering (PIC)和Streaming k-means兩種。
本文將PIC,即冪迭代聚類。其它方法在我Spark機器學習系列裡面都有介紹。

概述

譜聚類（Spectral Clustering）相信大家可能非常熟悉（如果不熟悉的話相關資料也比較多），而冪迭代聚類（Power iteration clustering）則也許會比較陌生。其實這兩者之間有很多相似的地方，但是演算法還是有較大差異的，這些後面會慢慢道來。
冪迭代聚類來自Frank Lin 和William W. Cohen這兩位卡內基梅隆大學大牛，發表於ICML 2010。深入瞭解演算法則需要看看大牛的原文。
這裡給出連結http://www.cs.cmu.edu/~wcohen/postscript/icml2010-pic-final.pdf

如果具備一定的譜聚類和Graphx圖計算的知識，就比較容易理解冪迭代聚類，不過不太懂也沒有關係，Graphx圖計算可以簡單看看我的Spark系列博文，譜聚類後面會簡單介紹一下，另外演算法的數學基礎是冪迭代求特徵值，我後面會詳細介紹。
兩位大牛提出一種簡單且可擴充套件的圖聚類方法，稱之為冪迭代聚類（PIC）。在資料歸一化的逐對相似矩陣上，使用截斷的冪迭代，PIC尋找資料集的一個超低維嵌入（低緯空間投影，embedding ），這種嵌入恰好是很有效的聚類指標，使它在真實資料集上總是好於廣泛使用的譜聚類方法（比如說NCut）。PIC在大資料集上非常快，比基於當前（2010年）最好的特徵向量計算技術實現的NCut還要快1000倍。
We present a simple and scalable graph clustering method called power iteration clustering (PIC). PIC finds a very low-dimensional embedding of a dataset using truncated power iteration on a normalized pair-wise similarity matrix of the data. This embedding turns out to be an effective cluster indicator, consistently outperforming widely used spectral methods such as NCut on real datasets. PIC is very fast on large datasets, running over 1,000 times faster than an NCut implementation based on the state-of-the-art IRAM eigenvector computation technique.

冪迭代法求矩陣的主特徵值

首先還是理清基本的數學演算法，這樣後面分析就容易多了。“冪迭代”法求特徵值，也有直接就叫做“冪法”求特徵值的，也是最基礎的一種特徵值迭代法求解方法。
適合計算大型稀疏矩陣的主特徵值，即按模最大的特徵值，同時也得到了對應的特徵向量（這不就是為大資料集，通常還是稀疏矩陣量身打造的嗎？呵呵）。
它的優點是方法簡單，理論依據是迭代的收斂性（這兩點要看完下面的過程才能深刻的理解）

冪法基本思想是:若我們求某個n階方陣A的特徵值和特徵向量,先任取一個非零初始向量v(0),進行如下的迭代計算,直到收斂（下面都是對｛v(k)，k=0,1,...｝序列而言的）：

v(k+1)=Av(k)k=0,1,...

當k增大時,序列的收斂情況與絕對值最大的特徵值有密切關係,分析這一序列的極限,即可求出按模最大的特徵值和特徵向量。
假定矩陣A有n個線性無關的特徵向量.n個特徵值按模由大到小排列:

│λ1│>=│λ2│>=…>=│λn│(2)
其相應的特徵向量為:
e1,e2,…,en(3)
它們構成n維空間的一組正交基.任取的初始向量v(0))當然可以由它們的線性組合給出：
v(0)=c1e1+c2e2+…+cnen(4)
由此知,構造的向量序列有
v(k)=Av(k−1)=A2v(k−2)=…=Akv(0)=c1λk1e1+c2λk2e2+…+cnλknen(5)
得出公式（5），後面就好分析，公式（5）這一步可以用遞推法去理解，如下：
v(0)=c1e1+c2e2+…+cnenv(1)=Av(0)=A(c1e1+c2e2+…+cnen)=c1(Ae1)+c2(Ae2)+...+cn(Aen)=c1λ1e1+c2λ2e2+...+cnλnen...v(k)=c1

Spark2.0機器學習系列之11：聚類(冪迭代聚類， power iteration clustering， PIC)

概述

冪迭代法求矩陣的主特徵值

Spark2.0機器學習系列之11：聚類(冪迭代聚類， power iteration clustering， PIC)

Spark2.0機器學習系列之7： MLPC（多層神經網絡）

Spark2.0機器學習系列之10：聚類(高斯混合模型 GMM）

Spark2.0機器學習系列之3：決策樹及Spark 2.0-MLlib、Scikit程式碼分析

Spark2.0機器學習系列之2：Logistic迴歸及Binary分類（二分問題）結果評估

Spark2.0機器學習系列之1：基於Pipeline、交叉驗證、ParamMap的模型選擇和超引數調優

Spark機器學習系列之13：支援向量機SVM

機器學習入門之四：機器學習的方法-神經網絡（轉載）

機器學習系列之偏差、方差與交叉驗證

機器學習系列之特徵工程

機器學習系列之交叉驗證、網格搜尋

機器學習系列之GBDT

Python 機器學習系列之線性迴歸篇深度詳細

Java從0開始學習系列之路(6)

機器學習系列之coursera week 10 Large Scale Machine Learning

《機器學習系列教程》：第二章機器學習基礎

[050]Python 機器學習系列之線性迴歸篇深度詳細

Spring原理學習系列之三：Spring AOP原理(從原始碼層面分析)-------上部

機器學習演算法之七：5分鐘上手SVM

機器學習演算法之二：5分鐘上手K-Means

Spark2.0機器學習系列之11： 聚類(冪迭代聚類， power iteration clustering， PIC)

概述

冪迭代法求矩陣的主特徵值

相關推薦

Spark2.0機器學習系列之11：聚類(冪迭代聚類， power iteration clustering， PIC)