十一、用scikit-learn做聚類分析

阿新 • • 發佈：2019-01-01

線性迴歸和邏輯迴歸都是監督學習方法，聚類分析是非監督學習的一種，可以從一批資料集中探索資訊，比如在社交網路資料中可以識別社群，在一堆菜譜中識別出菜系。本節介紹K-means聚類演算法

K-means

k是一個超引數，表示要聚類成多少類。K-means計算方法是重複移動類的重心，以實現成本函式最小化，成本函式為：

其中μk是第k類的重心位置

試驗

構造一些樣本使用者試驗，如下：

# coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

import matplotlib.pyplot as plt
import 
 numpy as np

# 生成2*10的矩陣，且值均勻分佈的隨機數
cluster1 = np.random.uniform(0.5, 1.5, (2, 10))
cluster2 = np.random.uniform(3.5, 4.5, (2, 10))

# 順序連線兩個矩陣，形成一個新矩陣,所以生成了一個2*20的矩陣，T做轉置後變成20*2的矩陣,剛好是一堆(x,y)的座標點
X = np.hstack((cluster1, cluster2)).T

plt.figure()
plt.axis([0, 5, 0, 5])
plt.grid(True)
plt.plot(X[:,0],X[:,1 
],'k.')
plt.show()

影象如下：

通過k-means做聚類，輸出重心點，增加如下程式碼：

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
plt.plot(kmeans.cluster_centers_[:,0], kmeans.cluster_centers_[:,1], 'ro')

輸出影象：

可以看到找到了兩個重心點

肘部法則

現實情況是多個點並不像上面這麼聚類清晰，很可能是這樣的：

你說不清它應該聚類成2、3、4個點，因此我們需要通過分別計算k=(2,3,4)的聚類結果，並比較他們的成本函式值，隨著k的增大，成本函式值會不斷降低，只有快速降低的那個k值才是最合適的k值，如下：

# coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
from scipy.spatial.distance import cdist

# 生成2*10的矩陣，且值均勻分佈的隨機數
cluster1 = np.random.uniform(0.5, 1.5, (2, 10))
cluster2 = np.random.uniform(1.5, 2.5, (2, 10))
cluster3 = np.random.uniform(1.5, 3.5, (2, 10))
cluster4 = np.random.uniform(3.5, 4.5, (2, 10))

# 順序連線兩個矩陣，形成一個新矩陣,所以生成了一個2*20的矩陣，T做轉置後變成20*2的矩陣,剛好是一堆(x,y)的座標點
X1 = np.hstack((cluster1, cluster2))
X2 = np.hstack((cluster3, cluster4))
X = np.hstack((X1, X2)).T

K = range(1, 10)
meandistortions = []
for k in K:
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(X)
    # 求kmeans的成本函式值
    meandistortions.append(sum(np.min(cdist(X, kmeans.cluster_centers_, 'euclidean'), axis=1)) / X.shape[0])

plt.figure()
plt.grid(True)
plt1 = plt.subplot(2,1,1)
# 畫樣本點
plt1.plot(X[:,0],X[:,1],'k.');
plt2 = plt.subplot(2,1,2)
# 畫成本函式值曲線
plt2.plot(K, meandistortions, 'bx-')
plt.show()

影象如下：

從曲線上可以看到，隨著k的增加，成本函式值在降低，但降低的變化幅度不斷在減小，因此急速降低才是最合適的，這裡面也許3是比較合適的，你也許會有不同看法

通過這種方法來判斷最佳K值的方法叫做肘部法則，你看影象像不像一個人的胳膊肘？

十一、用scikit-learn做聚類分析

線性迴歸和邏輯迴歸都是監督學習方法，聚類分析是非監督學習的一種，可以從一批資料集中探索資訊，比如在社交網路資料中可以識別社群，在一堆菜譜中識別出菜系。本節介紹K-means聚類演算法 K-means k是一個超引數，表示要聚類成多少類。K-means計算方法是重複移

機器學習實戰筆記（一）- 使用SciKit-Learn做回歸分析

err 皮爾遜練習 using flow 相關一個數 ocean 針對一、簡介這次學習的書籍主要是Hands-on Machine Learning with Scikit-Learn and TensorFlow（豆瓣：https://book.douban.co

十、用scikit-learn的網格搜尋快速找到最優模型引數

任何一種機器學習模型都附帶很多引數，不同場景對應不同的最佳引數，手工嘗試各種引數無疑浪費很多時間，scikit-learn幫我們實現了自動化，那就是網格搜尋網格搜尋這裡的網格指的是不同引數不同取值交叉後形成的一個多維網格空間。比如引數a可以取1、2，引數b可以取3、4，引數c可以取5、6，那麼形

【Netty4 簡單專案實踐】十一、用Netty分發mpegts到websocket介面

【前言】推視訊流的時候，rtmp會有3秒的延遲。目前有一種解決方案是用mpegts的格式解決。如果考慮用ffmpeg來推流的話，可以使用http格式和udp格式來推流。現在要做的事情是用Netty來轉發rtmp到websocket介面上，然後用H5來播放。播放的外掛使用j

機器學習精簡教程之七——用scikit-learn做特徵提取

本文轉自：http://www.shareditor.com/blogshow/?blogId=58 現實世界中多數特徵都不是連續變數，比如分類、文字、影象等，為了對非連續變數做特徵表述，需要對這些特徵做數學化表述，因此就用到了特徵提取（特徵數字化）分類變數的特徵提

Scikit-learn：聚類clustering

不同聚類效果比較sklearn不同聚類示例比較A comparison of the clustering algorithms in scikit-learn不同聚類綜述Method nameParametersScalabilityUsecaseGeometry (met

scikit-learn之聚類效能度量

1、調整蘭德係數數學公式 Rand index（蘭德係數）：RI=a+bCnsamples2RI=a+bC2nsamples 1、a：應該在一類，最後聚到一類的數量； 2、b：不應該在一類，最後聚類結果也沒把他們聚在一起的數量； 3、數量是

用MATLAB做聚類分析時非常有用的自定義距離函式和標準化函式

聚類分析中,經常遇到觀測值缺失的情況. 例如統計歷史降水資料時,某個月的資料缺失了,這時用MATLAB做聚類分析時, 就需要自定義距離函式,處理nan的問題. 下面是相關的MATLAB函式,裡面有例子,可自行修改: function [ nandistance ] = n

用MATLAB做聚類分析

近期工作關係用到Matlab做聚類分析。所謂聚類分析，其目的在於將研究的資料樣本劃分為不同類別。Matlab的統計工具箱提供了相應的分析工具。相關概念在網上可以找到不少資料，這裡推薦兩個部落格供大家參考。兩個部落格多傾向於聚類演算法的分析，因為聚類分析可劃歸為計算機人工智慧領域裡面無監督的學習。

十一、java面向物件程式設計（類、物件）

那麼，人類思維的抽象性，即這些抽象概念，如何轉換應用到計算機的軟體開發中呢？或者說軟體設計、程式設計中如何體現出符合人類思維習慣的程式設計模式呢？人類思維的抽象性與面向物件的程式設計方法如何對接呢？這裡接著上面對“車”的分析，前面的“車”為一個抽象出的概念，“車”具有相關的屬性和方法，通過“車”這個名稱、屬性

matlab做聚類分析

MATLAB的統計工具箱中的多元統計分析中提供了聚類分析的兩種方法：1.層次聚類 hierarchical clustering 2.k-means聚類這裡用最簡單的例項說明以下層次聚類原理和應用發法。層次聚類是基於距離的聚類方法，MATLAB中通過pdist、linkage、dendrogram、clu

在R環境下基於鳶尾花資料做聚類分析

title: “cluster with graphs (Iris species)” author:”gongzi liu” data:”2017/06/02” output: html_notebook setwd(“C:/Users/Adm

R語言做聚類分析Kmeans時確定類的個數

方法一： K平均演算法（k-means）在下面的誤差平方和圖中，拐點（bend or elbow）的位置對應的x軸即k-means聚類給出的合適的類的個數。 > n = 100 > g=6 > set.seed(g) > d &l

十一、Linux和Windows互傳文件、用戶配置文件和密碼配置文件、用戶組管理、用戶管理

天才 install gin dd命令建立我們 log 永遠 name 十一、Linux和Windows互傳文件、用戶配置文件和密碼配置文件、用戶組管理、用戶管理一、Linux和Windows互傳文件安裝軟件包：yum install -y lrzsz（xshell，s

Linux學習筆記（十一）用戶組管理、用戶管理

.net nologin follow 另一個 window ftp log product windows文件一、linux和windows互傳文件目前我所學到的linux與windows互傳文件的方法有兩種； yum install -y lrzsz輸入sz

四十一、Apache用戶認證、域名跳轉、Apache訪問日誌

Apache用戶認證域名跳轉 Apache訪問日誌一、Apache用戶認證功能是用戶在訪問網站時，需要輸入用戶名和密碼才能進入網站。一些重要站點或網站後臺通常加用戶認證，目的是保證安全。# vim /usr/local/apache2.4/conf/extra/httpd-vhosts

六十一、集群介紹、keepalived介紹、用keepaliver配置高可用集群

集群介紹 Keepalived介紹用Keepalived配置高可用集群六十一、集群介紹、keepalived介紹、用keepaliver配置高可用集群一、集群介紹根據功能劃分為兩大類：高可用和負載均衡。高可用集群通常為兩臺服務器，一臺工作，另外一臺作為冗余，當提供服務的機器宕機，冗余將接替

用scikit-learn學習K-Means聚類

　　　　在K-Means聚類演算法原理中，我們對K-Means的原理做了總結，本文我們就來討論用scikit-learn來學習K-Means聚類。重點講述如何選擇合適的k值。 1. K-Means類概述　　　　在scikit-learn中，包括兩個K-Means的演算法，一個是傳統的K-Means演算法，對

30分鐘學會用scikit-learn的基本回歸方法（線性、決策樹、SVM、KNN）和整合方法（隨機森林，Adaboost和GBRT）

注：本教程是本人嘗試使用scikit-learn的一些經驗，scikit-learn真的超級容易上手，簡單實用。30分鐘學會用呼叫基本的迴歸方法和整合方法應該是夠了。本文主要參考了scikit-learn的官方網站前言：本教程主要使用了numpy的最最基

用scikit-learn學習LDA主題模型

大小 href 房子鏈接 size 目標文本訓練樣本 papers 　　　　在LDA模型原理篇我們總結了LDA主題模型的原理，這裏我們就從應用的角度來使用scikit-learn來學習LDA主題模型。除了scikit-learn, 還有spark MLlib和gen

十一、用scikit-learn做聚類分析

K-means

試驗

肘部法則

相關推薦