sklearn中聚類（部分）

下圖為主要介紹的幾個聚類方法：

1、 k均值（K-means）

▲在指定n個類別後，最小化類別中樣本到類別均值樣本的距離，公式如下：

其中，Ci為劃分，ui為每個劃分的均值向量，k=n。K-均值是相當於一個小、全等、對角協方差矩陣的期望最大化演算法。

▲該方法有以下缺點：

有個前提：叢集是凸和各向同性的。對長條形、流行以及不規則形的叢集響應不好。
慣性不是歸一化的度量：僅僅知道值越低越好。但是在高維空間中，歐幾里得距離會有所變化。因此在使用k均值方法前，可以利用PCA演算法對資料降維，不僅可緩解這一問題，而且還可以加快計算。

▲k均值的演算法如下：（參考周志華老師的《機器學習》：203

）

***********************************************************

輸入：樣本集D={x1，x2，x3，…，xm}

聚類簇數：k

過程：

從D中隨機選擇k個樣本{u1，u2，u3，…，uk}

repeat

令Ci={}（1<=i<=k）

計算每個樣本到{u1，u2，u3，…，uk}的距離，將距離最近的加入對應的集合中

計算對應集合的均值向量

更新隨機選擇的k個樣本

until 當前均值樣本向量均未更新

輸出：劃分

***********************************************************

▲理論上k-均值總會收斂（可能收斂於一個區域性最小值），這依賴於初始化的質心。因此k-均值演算法常常會以不同初始化的質心計算幾次。在sklearn中可設定init=kmeans++解決這一問題。

▲n_jobs引數可以實現並行處理。通常需要計算機有多的處理器，當n_jobs=-1時，表示使用全部的處理器，-2時減少一個，以此類推。處理器使用的越多記憶體消耗越大。

▲下面的例子為：k均值演算法在不同資料集上的表現，其中前三個為輸入資料不符合前提假設，最後一個為每個叢集大小不應的情況。如下圖：

相關程式碼如下：

# -*- coding: utf-8 -*-
"""
Created on Wed Feb 8 14:15:41 2017
@author: ZQ
"""
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
plt.figure(figsize=(12,12))
n_samples = 1500
random_state = 170
X,y = make_blobs(n_samples=n_samples,random_state=random_state)
#第一幅圖，不正確的聚類引數
y_pred = KMeans(n_clusters=2,random_state=random_state).fit_predict(X)
plt.subplot(221)
plt.scatter(X[:,0],X[:,1],c=y_pred)
plt.title("Incorrect Number of Blobs")
#各向異性資料
transformation = [[0.60834549,-0.63667341],[-0.40887718,0.85253229]]
X_aniso = np.dot(X,transformation)
y_pred = KMeans(n_clusters=3,random_state=random_state).fit_predict(X_aniso)
plt.subplot(222)
plt.scatter(X_aniso[:,0],X_aniso[:,1],c=y_pred)
plt.title("Anisotropicly Distributed Blobs")
#不同方差
X_varied,y_varied = make_blobs(n_samples=n_samples,
cluster_std=[1.0,2.5,0.5],
random_state=random_state)
y_pred = KMeans(n_clusters=3,random_state=random_state).fit_predict(X_varied)
plt.subplot(223)
plt.scatter(X_varied[:,0],X_varied[:,1],c=y_pred)
plt.title("Unequal Variance")
#不同大小的聚類,選取標籤為0的500個。。。。
X_filtered = np.vstack((X[y==0][:500],X[y==1][:100],X[y==2][:10]))
y_pred = KMeans(n_clusters=3,random_state=random_state).fit_predict(X_filtered)
plt.subplot(224)
plt.scatter(X_filtered[:,0],X_filtered[:,1],c=y_pred)
plt.title("Unevenly Sized Blobs")
plt.show()

1.1、Mini Batch K-Means

▲MiniBatchKMeans為k均值演算法的變種，可減少收斂時間，但是其結果與標準的k均值演算法較差。每次迭代中選取的資料集為原始資料集的子集。

▲該演算法主要分為兩步：

在原始資料集中選取b個樣本作為小批量，並將其分配到最近的質心（質心的選取不太清楚，有兩種可能，1隨機在樣本集中選取，2在小批量中選取。不清楚）
更新質心

▲雖然說MiniBatchKmeans不如標準的K均值演算法，但是其差異很小，如下例子：相關程式碼可查詢http://scikit-learn.org/stable/auto_examples/cluster/plot_mini_batch_kmeans.html

2、層次聚類（Hierarchical clustering）

▲該聚類演算法試圖在不同層次對資料集進行劃分，從而形成樹形的聚類結構。劃分方法可採用自上而下和自下而上的方法。

▲AgglomerativeClustering採用自下而上的方法。首先將每個樣本作為一個類，然後按照距離度量的方法將其合併到需要的聚類數。根據距離度量方法可分為：Ward方差和最小（距離最小）、complete聚類中最大或最小距離、average平均距離。

▲下面的例子說明了這三個方法的優缺點，該聚類方法具有一定的富集性，選擇其中的average較好。如下圖：http://scikit-learn.org/stable/auto_examples/cluster/plot_digits_linkage.html

3、DBSCAN

▲該演算法通過樣本的緊密程度來確定樣本的分佈，該演算法可適用於叢集在任何形狀的情況下。DBSCAN演算法中一個重要的概念為核心樣本（具有較高的緊密度）。該演算法有兩個引數min_samples和eps，高min_samples或者低eps代表著在形成聚類時，需要較高的緊密度。

▲該演算法簡單的描述：先任意選擇資料集中的一個核心物件為“種子”，在由此出發確定相應的聚類簇，在根據給定的領域引數（min_samples，eps）找出所有核心物件，在以任意一個核心物件出發，找出由其密度可達的樣本生產聚類簇，直到所有核心物件均被訪問為止。（更多參考周志華老師《機器學習》P212）

▲下圖為一個例子：使用DBSCAN演算法，大圈為找到了核心樣本，帶顏色的小點位非核心樣本，黑色的為異常值。

相關程式碼：
# -*- coding: utf-8 -*-
"""
Created on Sun Feb 12 10:49:05 2017
@author: ZQ
"""
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN
from sklearn import metrics
from sklearn.datasets.samples_generator import make_blobs
from sklearn.preprocessing import StandardScaler
#生產資料
centers = [[1,1],[-1,-1],[1,-1]]
X,labels_true = make_blobs(n_samples=750,
centers=centers,
cluster_std=0.4,
random_state=0)
#對資料進行標準化
X = StandardScaler().fit_transform(X)
#計算
db = DBSCAN(eps=0.3,min_samples=10).fit(X)
core_samples_mask = np.zeros_like(db.labels_,dtype=bool)
core_samples_mask[db.core_sample_indices_] = True
labels = db.labels_
n_clusters_ = len(set(labels))-(1if -1in labels else0)
unique_labels = set(labels)
colors = plt.cm.Spectral(np.linspace(0,1,len(unique_labels)))
for k,col in zip(unique_labels,colors):
if k == -1:
col = 'k'
class_member_mask = (labels == k)
xy = X[class_member_mask & core_samples_mask]
plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=col,
markeredgecolor='k', markersize=14)
xy = X[class_member_mask & ~core_samples_mask]
plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=col,
markeredgecolor='k', markersize=6)
plt.title('Estimated number of clusters: %d' % n_clusters_)
plt.show()

補充：用聚類進行影象分割

sklearn中聚類（部分）

sklearn中聚類（部分）

使用Python進行層次聚類（二）——scipy中層次聚類的自定義距離度量問題

硬聚類（HCM）和模糊聚類（FCM）在彩色影象分割中的具體應用

基於聚類（Kmeans）演算法實現客戶價值分析系統(電信運營商)

原型聚類（一）k均值演算法和python實現

原型聚類（二）學習向量量化（LVQ）和python實現

機器學習之聚類（二）

scipy做層級聚類（轉）

劃分方法聚類（三） Canopy+K-MEANS 演算法解析

使用Python進行層次聚類（三）——層次聚類簇間自然分割方法和評價方法

密度聚類（DBSCAN）

呼叫WEKA包進行kmeans聚類（java）

劃分方法聚類（二）K-MEANS演算法的改進

聚類（下）

weka文字聚類（3）--文字轉換成arff

使用Python進行層次聚類（一）——基本使用+主成分分析繪圖觀察結果+繪製熱圖

[硬貨]|《機器學習》筆記-聚類（9）

機器學習——聚類（clustering）：K-means演算法（非監督學習）

聚類（Clustering）

資料中聚類個數的確定（Determining the number of clusters in a data set）

sklearn中聚類（部分）

相關推薦