機器學習sklearn19.0聚類演算法——Kmeans演算法

阿新 • • 發佈：2019-01-08

一、關於聚類及相似度、距離的知識點

二、k-means演算法思想與流程

三、sklearn中對於kmeans演算法的引數

四、程式碼示例以及應用的知識點簡介

（1）make_blobs：聚類資料生成器

sklearn.datasets.make_blobs(n_samples=100, n_features=2,centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)[source]

返回值為：

（2）np.vstack方法作用——堆疊陣列

詳細介紹參照部落格連結：http://blog.csdn.net/csdn15698845876/article/details/73380803

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author:ZhengzhengLiu

#k-means聚類演算法

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.colors
import sklearn.datasets as ds
from sklearn.cluster import KMeans      #引入kmeans

#解決中文顯示問題
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

#產生模擬資料
N = 1500
centers = 4
#make_blobs:聚類資料生成器
data,y = ds.make_blobs(N,n_features=2,centers=centers,random_state=28)

data2,y2 = ds.make_blobs(N,n_features=2,centers=centers,random_state=28)
data3 = np.vstack((data[y==0][:200],data[y==1][:100],data[y==2][:10],data[y==3][:50]))
y3 = np.array([0]*200+[1]*100+[2]*10+[3]*50)

#模型的構建
km = KMeans(n_clusters=centers,random_state=28)
km.fit(data,y)
y_hat = km.predict(data)
print("所有樣本距離聚簇中心點的總距離和:",km.inertia_)
print("距離聚簇中心點的平均距離:",(km.inertia_/N))
print("聚簇中心點:",km.cluster_centers_)

y_hat2 = km.fit_predict(data2)
y_hat3 = km.fit_predict(data3)

def expandBorder(a, b):
    d = (b - a) * 0.1
    return a-d, b+d

#畫圖
cm = mpl.colors.ListedColormap(list("rgbmyc"))
plt.figure(figsize=(15,9),facecolor="w")
plt.subplot(241)
plt.scatter(data[:,0],data[:,1],c=y,s=30,cmap=cm,edgecolors="none")

x1_min,x2_min = np.min(data,axis=0)
x1_max,x2_max = np.max(data,axis=0)
x1_min,x1_max = expandBorder(x1_min,x1_max)
x2_min,x2_max = expandBorder(x2_min,x2_max)
plt.xlim((x1_min,x1_max))
plt.ylim((x2_min,x2_max))
plt.title("原始資料")
plt.grid(True)

plt.subplot(242)
plt.scatter(data[:, 0], data[:, 1], c=y_hat, s=30, cmap=cm, edgecolors='none')
plt.xlim((x1_min, x1_max))
plt.ylim((x2_min, x2_max))
plt.title(u'K-Means演算法聚類結果')
plt.grid(True)

m = np.array(((1, 1), (0.5, 5)))
data_r = data.dot(m)
y_r_hat = km.fit_predict(data_r)
plt.subplot(243)
plt.scatter(data_r[:, 0], data_r[:, 1], c=y, s=30, cmap=cm, edgecolors='none')

x1_min, x2_min = np.min(data_r, axis=0)
x1_max, x2_max = np.max(data_r, axis=0)
x1_min, x1_max = expandBorder(x1_min, x1_max)
x2_min, x2_max = expandBorder(x2_min, x2_max)

plt.xlim((x1_min, x1_max))
plt.ylim((x2_min, x2_max))
plt.title(u'資料旋轉後原始資料圖')
plt.grid(True)

plt.subplot(244)
plt.scatter(data_r[:, 0], data_r[:, 1], c=y_r_hat, s=30, cmap=cm, edgecolors='none')
plt.xlim((x1_min, x1_max))
plt.ylim((x2_min, x2_max))
plt.title(u'資料旋轉後預測圖')
plt.grid(True)

plt.subplot(245)
plt.scatter(data2[:, 0], data2[:, 1], c=y2, s=30, cmap=cm, edgecolors='none')
x1_min, x2_min = np.min(data2, axis=0)
x1_max, x2_max = np.max(data2, axis=0)
x1_min, x1_max = expandBorder(x1_min, x1_max)
x2_min, x2_max = expandBorder(x2_min, x2_max)
plt.xlim((x1_min, x1_max))
plt.ylim((x2_min, x2_max))
plt.title(u'不同方差的原始資料')
plt.grid(True)

plt.subplot(246)
plt.scatter(data2[:, 0], data2[:, 1], c=y_hat2, s=30, cmap=cm, edgecolors='none')
plt.xlim((x1_min, x1_max))
plt.ylim((x2_min, x2_max))
plt.title(u'不同方差簇資料的K-Means演算法聚類結果')
plt.grid(True)

plt.subplot(247)
plt.scatter(data3[:, 0], data3[:, 1], c=y3, s=30, cmap=cm, edgecolors='none')
x1_min, x2_min = np.min(data3, axis=0)
x1_max, x2_max = np.max(data3, axis=0)
x1_min, x1_max = expandBorder(x1_min, x1_max)
x2_min, x2_max = expandBorder(x2_min, x2_max)
plt.xlim((x1_min, x1_max))
plt.ylim((x2_min, x2_max))
plt.title(u'不同簇樣本數量原始資料圖')
plt.grid(True)

plt.subplot(248)
plt.scatter(data3[:, 0], data3[:, 1], c=y_hat3, s=30, cmap=cm, edgecolors='none')
plt.xlim((x1_min, x1_max))
plt.ylim((x2_min, x2_max))
plt.title(u'不同簇樣本數量的K-Means演算法聚類結果')
plt.grid(True)

plt.tight_layout(2, rect=(0, 0, 1, 0.97))
plt.suptitle(u'資料分佈對KMeans聚類的影響', fontsize=18)
plt.savefig("k-means聚類演算法.png")
plt.show()

#執行結果：
所有樣本距離聚簇中心點的總距離和: 2592.9990199
距離聚簇中心點的平均距離: 1.72866601327
聚簇中心點: [[ -7.44342199e+00  -2.00152176e+00]
 [  5.80338598e+00   2.75272962e-03]
 [ -6.36176159e+00   6.94997331e+00]
 [  4.34372837e+00   1.33977807e+00]]

程式碼中用到的知識點：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author:ZhengzhengLiu

#kmean與mini batch kmeans 演算法的比較

import time
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.colors
from sklearn.cluster import KMeans,MiniBatchKMeans
from sklearn.datasets.samples_generator import make_blobs
from sklearn.metrics.pairwise import pairwise_distances_argmin

#解決中文顯示問題
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

#初始化三個中心
centers = [[1,1],[-1,-1],[1,-1]]
clusters = len(centers)     #聚類數目為3
#產生3000組二維資料樣本，三個中心點，標準差是0.7
X,Y = make_blobs(n_samples=300,centers=centers,cluster_std=0.7,random_state=28)

#構建kmeans演算法
k_means =  KMeans(init="k-means++",n_clusters=clusters,random_state=28)
t0 = time.time()
k_means.fit(X)      #模型訓練
km_batch = time.time()-t0       #使用kmeans訓練資料消耗的時間
print("K-Means演算法模型訓練消耗時間:%.4fs"%km_batch)

#構建mini batch kmeans演算法
batch_size = 100        #取樣集的大小
mbk = MiniBatchKMeans(init="k-means++",n_clusters=clusters,batch_size=batch_size,random_state=28)
t0 = time.time()
mbk.fit(X)
mbk_batch = time.time()-t0
print("Mini Batch K-Means演算法模型訓練消耗時間:%.4fs"%mbk_batch)

#預測結果
km_y_hat = k_means.predict(X)
mbk_y_hat = mbk.predict(X)

#獲取聚類中心點並對其排序
k_means_cluster_center = k_means.cluster_centers_
mbk_cluster_center = mbk.cluster_centers_
print("K-Means演算法聚類中心點:\n center=",k_means_cluster_center)
print("Mini Batch K-Means演算法聚類中心點:\n center=",mbk_cluster_center)
order = pairwise_distances_argmin(k_means_cluster_center,mbk_cluster_center)

#畫圖
plt.figure(figsize=(12,6),facecolor="w")
plt.subplots_adjust(left=0.05,right=0.95,bottom=0.05,top=0.9)
cm = mpl.colors.ListedColormap(['#FFC2CC', '#C2FFCC', '#CCC2FF'])
cm2 = mpl.colors.ListedColormap(['#FF0000', '#00FF00', '#0000FF'])

#子圖1——原始資料
plt.subplot(221)
plt.scatter(X[:,0],X[:,1],c=Y,s=6,cmap=cm,edgecolors="none")
plt.title(u"原始資料分佈圖")
plt.xticks(())
plt.yticks(())
plt.grid(True)

#子圖2：K-Means演算法聚類結果圖
plt.subplot(222)
plt.scatter(X[:,0], X[:,1], c=km_y_hat, s=6, cmap=cm,edgecolors='none')
plt.scatter(k_means_cluster_center[:,0], k_means_cluster_center[:,1],c=range(clusters),s=60,cmap=cm2,edgecolors='none')
plt.title(u'K-Means演算法聚類結果圖')
plt.xticks(())
plt.yticks(())
plt.text(-3.8, 3,  'train time: %.2fms' % (km_batch*1000))
plt.grid(True)

#子圖三Mini Batch K-Means演算法聚類結果圖
plt.subplot(223)
plt.scatter(X[:,0], X[:,1], c=mbk_y_hat, s=6, cmap=cm,edgecolors='none')
plt.scatter(mbk_cluster_center[:,0], mbk_cluster_center[:,1],c=range(clusters),s=60,cmap=cm2,edgecolors='none')
plt.title(u'Mini Batch K-Means演算法聚類結果圖')
plt.xticks(())
plt.yticks(())
plt.text(-3.8, 3,  'train time: %.2fms' % (mbk_batch*1000))
plt.grid(True)
plt.savefig("kmean與mini batch kmeans 演算法的比較.png")
plt.show()

#執行結果：
K-Means演算法模型訓練消耗時間:0.2260s
Mini Batch K-Means演算法模型訓練消耗時間:0.0230s
K-Means演算法聚類中心點:
 center= [[ 0.96091862  1.13741775]
 [ 1.1979318  -1.02783007]
 [-0.98673669 -1.09398768]]
Mini Batch K-Means演算法聚類中心點:
 center= [[ 1.34304199 -1.01641075]
 [ 0.83760683  1.01229021]
 [-0.92702179 -1.08205992]]

五、聚類演算法的衡量指標

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author:ZhengzhengLiu

#聚類演算法評估

import time
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.colors
from sklearn.cluster import KMeans,MiniBatchKMeans
from sklearn import metrics
from sklearn.metrics.pairwise import pairwise_distances_argmin
from sklearn.datasets.samples_generator import make_blobs

#解決中文顯示問題
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

#初始化三個中心
centers = [[1,1],[-1,-1],[1,-1]]
clusters = len(centers)     #聚類數目為3
#產生3000組二維資料樣本，三個中心點，標準差是0.7
X,Y = make_blobs(n_samples=300,centers=centers,cluster_std=0.7,random_state=28)

#構建kmeans演算法
k_means =  KMeans(init="k-means++",n_clusters=clusters,random_state=28)
t0 = time.time()
k_means.fit(X)      #模型訓練
km_batch = time.time()-t0       #使用kmeans訓練資料消耗的時間
print("K-Means演算法模型訓練消耗時間:%.4fs"%km_batch)

#構建mini batch kmeans演算法
batch_size = 100        #取樣集的大小
mbk = MiniBatchKMeans(init="k-means++",n_clusters=clusters,batch_size=batch_size,random_state=28)
t0 = time.time()
mbk.fit(X)
mbk_batch = time.time()-t0
print("Mini Batch K-Means演算法模型訓練消耗時間:%.4fs"%mbk_batch)

km_y_hat = k_means.labels_
mbkm_y_hat = mbk.labels_

k_means_cluster_centers = k_means.cluster_centers_
mbk_means_cluster_centers = mbk.cluster_centers_
print ("K-Means演算法聚類中心點:\ncenter=", k_means_cluster_centers)
print ("Mini Batch K-Means演算法聚類中心點:\ncenter=", mbk_means_cluster_centers)
order = pairwise_distances_argmin(k_means_cluster_centers,
                                  mbk_means_cluster_centers)

#效果評估
### 效果評估
score_funcs = [
    metrics.adjusted_rand_score,    #ARI（調整蘭德指數）
    metrics.v_measure_score,        #均一性與完整性的加權平均
    metrics.adjusted_mutual_info_score, #AMI（調整互資訊）
    metrics.mutual_info_score,      #互資訊
]

## 2. 迭代對每個評估函式進行評估操作
for score_func in score_funcs:
    t0 = time.time()
    km_scores = score_func(Y, km_y_hat)
    print("K-Means演算法:%s評估函式計算結果值:%.5f；計算消耗時間:%0.3fs" % (score_func.__name__, km_scores, time.time() - t0))

    t0 = time.time()
    mbkm_scores = score_func(Y, mbkm_y_hat)
    print("Mini Batch K-Means演算法:%s評估函式計算結果值:%.5f；計算消耗時間:%0.3fs\n" % (score_func.__name__, mbkm_scores, time.time() - t0))

#執行結果：
K-Means演算法模型訓練消耗時間:0.6350s
Mini Batch K-Means演算法模型訓練消耗時間:0.0900s
K-Means演算法聚類中心點:
center= [[ 0.96091862  1.13741775]
 [ 1.1979318  -1.02783007]
 [-0.98673669 -1.09398768]]
Mini Batch K-Means演算法聚類中心點:
center= [[ 1.34304199 -1.01641075]
 [ 0.83760683  1.01229021]
 [-0.92702179 -1.08205992]]
K-Means演算法:adjusted_rand_score評估函式計算結果值:0.72566；計算消耗時間:0.071s
Mini Batch K-Means演算法:adjusted_rand_score評估函式計算結果值:0.69544；計算消耗時間:0.001s

K-Means演算法:v_measure_score評估函式計算結果值:0.67529；計算消耗時間:0.004s
Mini Batch K-Means演算法:v_measure_score評估函式計算結果值:0.65055；計算消耗時間:0.004s

K-Means演算法:adjusted_mutual_info_score評估函式計算結果值:0.67263；計算消耗時間:0.006s
Mini Batch K-Means演算法:adjusted_mutual_info_score評估函式計算結果值:0.64731；計算消耗時間:0.005s

K-Means演算法:mutual_info_score評估函式計算結果值:0.74116；計算消耗時間:0.002s
Mini Batch K-Means演算法:mutual_info_score評估函式計算結果值:0.71351；計算消耗時間:0.001s

機器學習sklearn19.0聚類演算法——Kmeans演算法

一、關於聚類及相似度、距離的知識點二、k-means演算法思想與流程三、sklearn中對於kmeans演算法的引數四、程式碼示例以及應用的知識點簡介（1）make_blobs：聚類資料生成器 sklearn.datasets.m

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

一、層次聚類 BIRCH演算法詳細介紹以及sklearn中的應用如下面部落格連結： http://www.cnblogs.com/pinard/p/6179132.html http://www.cnblogs.com/pinard/p/62

機器學習——K-均值聚類（K-means）演算法

本文轉載自：https://www.cnblogs.com/ybjourney/p/4714870.html 一 K-均值聚類（K-means）概述聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相似，各類之間的資料相

機器學習 K-means 聚類演算法 C++

筆記: 尚未解決的問題 : 1. 只支援二維,而不支援三維或更高,需要模板元 2. 尚未實現如何刪除極端點, 即預處理 3. 尚未視覺化編譯環境 Ubuntu gcc 5.4 編譯選項 g++ -std=c++14 #include &l

機器學習sklearn19.0——整合學習——boosting與梯度提升演算法（GBDT）、Adaboost演算法

一、boosting演算法原理二、梯度提升演算法關於提升梯度演算法的詳細介紹，參照部落格：http://www.cnblogs.com/pinard/p/6140514.html 對該演算法的sklearn的類庫介紹和調參，參照網址：http://

機器學習sklearn19.0——線性迴歸演算法（應用案例）

一、sklearn中的線性迴歸的使用二、線性迴歸——家庭用電預測（1）時間與功率之間的關係 #!/usr/bin/env python # -*- coding:utf-8 -*- # Author:ZhengzhengLiu #線性迴歸——家庭用電預

機器學習之層次聚類演算法

層次聚類（Hierarchical Clustering）是對給定資料集在不同層次進行劃分，形成樹形的聚類結構，直到滿足某種停止條件為止。資料集的劃分可採用自底向上或自頂向下的劃分策略。1、凝聚的層次聚類演算法AGNES AGNES（AGglom

Mahout機器學習平臺之聚類演算法詳細剖析（含例項分析）

第一部分：學習Mahout必須要知道的資料查詢技能：學會查官方幫助文件：解壓用於安裝檔案（mahout-distribution-0.6.tar.gz），找到如下位置，我將該檔案解壓到win7的G盤mahout資料夾下，路徑如下所示： G:\mahout\mahout

【機器學習】常用聚類演算法原型

1. 聚類簡介在機器學習中，分為監督學習、無監督學習和半監督學習。前一篇部落格中提到的迴歸和分類都屬於監督學習，本文著重探討無監督學習中的聚類演算法。博主之前看過一些資料，這兩天也翻閱了網上的各大部落格後，也想總結一下，寫一寫聚類相關的知識點，對

[機器學習]t-SNE聚類演算法實踐指南

Saurabh是一名資料科學家和軟體工程師，熟練分析各種資料集和開發智慧應用程式。他目前正在加州大學伯克利分校攻讀資訊和資料科學碩士學位，熱衷於開發基於資料科學的智慧資源管理系統。介紹許多資料科學家經常面對的問題之一：假設有一個包含數百個特徵（變數）的資料集，且對資料所屬的域沒有任何瞭解，需要對該資

機器學習sklearn19.0——Logistic迴歸演算法

一、Logistic迴歸的認知與應用場景 Logistic迴歸為概率型非線性迴歸模型，是研究二分類觀察結果與一些影響因素之間關係的一種多變量分析方法。通常的問題是，研究某些因素條件下某個結果是否發生，比如醫學中根據病人的一些症狀來判斷它是否患有某種病。二

Spark機器學習之-實時聚類演算法呼叫

Spark MLIB中的Kmenas聚類演算法，資料通過SparkStreaming 實時拉取kafka中的資料，並呼叫已經訓練好的聚類模型；根據讀取的資料實時的進行分類package com.demo.cn.streaming import org.apache.kafk

周志華《機器學習》Ch9. 聚類：k-means演算法的python實現

理論 k-means方法是一種常用的聚類方法，其目標是最小化其中是第i個簇的中心。直接優化上式有難度，故k-means演算法採用一種近似方法。簡單來說，k-means演算法由兩個步驟迴圈組成： 1. 計算每個sample到各個簇中心的距離，將該sample的類

機器學習中的聚類演算法演變及學習筆記

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[認真看圖][認真看圖] 【補充說明】聚類演算法可以作為獨立方法將資料聚成不同簇，也可以作為資料探勘任務（例如分類、關聯規則等）的預處理！【補充說明】聚類演算法與分類演算法的主要區別在於訓練時的樣本有無

【機器學習】---密度聚類從初識到應用

max 一個 eight log div 指定聚類空間 mar 一.前述密度聚類是一種能降噪的算法。二.相關概念先看些抽象的概念（官方定義）： 1.：對象O的是與O為中心，為半徑的空間，參數，是用戶指定每個對象的領域半徑值。 2.MinPts（領域密度閥值）：對象

Python機器學習——Agglomerative層次聚類

條件分享圖片 n-2 mov unique ber and 兩個 its 層次聚類（hierarchical clustering）可在不同層次上對數據集進行劃分，形成樹狀的聚類結構。AggregativeClustering是一種常用的層次聚類算法。 ??其原理是：最初

[吳恩達機器學習筆記]13聚類K-means

沒有 rand 幫助聯系 method ima 運用重新 function 13.聚類覺得有用的話,歡迎一起討論相互學習~Follow Me 13.1無監督學習簡介從監督學習到無監督學習在一個典型的監督學習中，我們有一個有標簽的訓練集，我們的目標是找到能夠區分正

機器學習實戰DBSCN聚類

# !/usr/bin/python # -*- coding:utf-8 -*- import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as ds import matplotlib.colors f

機器學習-*-K均值聚類及程式碼實現

KMeans聚類在聚類演算法中，最出名的應該就是k均值聚類(KMeans)了，幾乎所有的資料探勘/機器學習書籍都會介紹它，有些初學者還會將其與KNN等混淆。k均值是一種聚類演算法，屬於無監督學習的一種，而KNN是有監督學習/分類學習的一種。聚類：顧名思義，就是講某些相似的事物聚在

機器學習之DBSCAN聚類

機器學習之DBSCAN聚類 # -*- coding: utf-8 -*- """ Created on Wed Nov 28 18:50:57 2018 @author: muli """ import numpy as np from sklearn.datas

機器學習sklearn19.0聚類演算法——Kmeans演算法

相關推薦