機器學習之kMeans聚類

阿新 • • 發佈：2018-11-29

機器學習之kMeans聚類

# -*- coding: utf-8 -*-
"""
Created on Wed Nov 28 16:23:36 2018

@author: muli
"""

from sklearn.datasets.samples_generator import make_blobs
from sklearn import  cluster
from sklearn.metrics import adjusted_rand_score
import matplotlib.pyplot as plt


def create_data(centers,num=100,std=0.7):
    '''
    生成用於聚類的資料集

    :param centers: 聚類的中心點組成的陣列。如果中心點是二維的，則產生的每個樣本都是二維的。
    :param num: 樣本數
    :param std: 每個簇中樣本的標準差
    :return: 用於聚類的資料集。是一個元組，第一個元素為樣本集，第二個元素為樣本集的真實簇分類標記
    '''
    X, labels_true = make_blobs(n_samples=num, centers=centers, cluster_std=std)
    return  X,labels_true


def test_Kmeans(*data):
    '''
    測試 KMeans 的用法

    :param data: 可變引數。它是一個元組。元組元素依次為：第一個元素為樣本集，第二個元素為樣本集的真實簇分類標記
    :return: None
    '''
    X,labels_true=data
    clst=cluster.KMeans()
    # 訓練模型
    clst.fit(X)
    predicted_labels=clst.predict(X)
    # ARI指數
    print("ARI:%s"% adjusted_rand_score(labels_true,predicted_labels))
    # 所有樣本距離各簇中心點的距離之後
    print("Sum center distance %s"%clst.inertia_)


def test_Kmeans_nclusters(*data):
    '''
    測試 KMeans 的聚類結果隨 n_clusters 引數的影響

    :param data: 可變引數。它是一個元組。元組元素依次為：第一個元素為樣本集，第二個元素為樣本集的真實簇分類標記
    :return: None
    '''
    X,labels_true=data
    # 聚類中心的個數
    nums=range(1,50)
    ARIs=[]
    Distances=[]
    for num in nums:
        clst=cluster.KMeans(n_clusters=num)
        clst.fit(X)
        predicted_labels=clst.predict(X)
        ARIs.append(adjusted_rand_score(labels_true,predicted_labels))
        Distances.append(clst.inertia_)

    ## 繪圖
    fig=plt.figure()
    ax=fig.add_subplot(1,2,1)
    ax.plot(nums,ARIs,marker="+")
    ax.set_xlabel("n_clusters")
    ax.set_ylabel("ARI")
    
    ax=fig.add_subplot(1,2,2)
    ax.plot(nums,Distances,marker='o')
    ax.set_xlabel("n_clusters")
    ax.set_ylabel("inertia_")
    fig.suptitle("KMeans")
    plt.show()


def test_Kmeans_n_init(*data):
    '''
    測試 KMeans 的聚類結果隨 n_init 和 init  引數的影響

    :param data: 可變引數。它是一個元組。元組元素依次為：第一個元素為樣本集，第二個元素為樣本集的真實簇分類標記
    :return: None
    '''
    X,labels_true=data
    # 執行的次數
    nums=range(1,50)
    ## 繪圖
    fig=plt.figure()

    ARIs_k=[]
    Distances_k=[]
    ARIs_r=[]
    Distances_r=[]
    # 考慮 初始中心向量 和 執行次數 的影響
    for num in nums:
            clst=cluster.KMeans(n_init=num,init='k-means++')
            clst.fit(X)
            predicted_labels=clst.predict(X)
            ARIs_k.append(adjusted_rand_score(labels_true,predicted_labels))
            Distances_k.append(clst.inertia_)

            clst=cluster.KMeans(n_init=num,init='random')
            clst.fit(X)
            predicted_labels=clst.predict(X)
            ARIs_r.append(adjusted_rand_score(labels_true,predicted_labels))
            Distances_r.append(clst.inertia_)

    ax=fig.add_subplot(1,2,1)
    # 同一張圖中 作對比
    ax.plot(nums,ARIs_k,marker="+",label="k-means++")
    ax.plot(nums,ARIs_r,marker="+",label="random")
    ax.set_xlabel("n_init")
    ax.set_ylabel("ARI")
    ax.set_ylim(0,1)
    ax.legend(loc='best')
    ax=fig.add_subplot(1,2,2)
    # 同一張圖中 作對比
    ax.plot(nums,Distances_k,marker='o',label="k-means++")
    ax.plot(nums,Distances_r,marker='o',label="random")
    ax.set_xlabel("n_init")
    ax.set_ylabel("inertia_")
    ax.legend(loc='best')

    fig.suptitle("KMeans")
    plt.show()


if __name__=='__main__':
    # 用於產生聚類的中心點
    # 聚類中心是幾維，則特徵向量是幾維的
    centers=[[1,1],[2,2],[1,2],[10,20]] 
    # 產生用於聚類的資料集
    X,labels_true=create_data(centers,1000,0.5) 
    # plot_data(X,labels_true) # 繪製用於聚類的資料集
#    test_Kmeans(X,labels_true) #  呼叫 test_Kmeans 函式
#    test_Kmeans_nclusters(X,labels_true) #  呼叫 test_Kmeans_nclusters 函式
    test_Kmeans_n_init(X,labels_true) #  呼叫 test_Kmeans_n_init 函式

機器學習之kMeans聚類

機器學習之kMeans聚類 # -*- coding: utf-8 -*- """ Created on Wed Nov 28 16:23:36 2018 @author: muli """ from sklearn.datasets.samples_generat

機器學習之--kmeans聚類簡單算法實例

rpo src datasets += atp 中心 ets att erp import numpy as np import sklearn.datasets #加載原數據 import matplotlib.pyplot as plt

機器學習之DBSCAN聚類

機器學習之DBSCAN聚類 # -*- coding: utf-8 -*- """ Created on Wed Nov 28 18:50:57 2018 @author: muli """ import numpy as np from sklearn.datas

【機器學習】Kmeans聚類

寫在篇前 Kmeans演算法是一種經典的聚類演算法，屬於無監督學習的範疇。所謂聚類，即指對於給定的一個樣本集，按照樣本之間的距離大小，將樣本集劃分為K個簇，且讓簇內的點儘量緊密的連在一起，而讓簇間的距離儘量的大。優點：原理簡單速度快對大資料集有比較

機器學習之層次聚類及程式碼示例

一、層次聚類層次聚類是無監督學習方法，可對給定的N個待聚類的樣本進行層次的分類，直到某種條件（類的個數、類間的距離超過某個閾值）滿足為止。 1、層次聚類的劃分對於層次聚類，可具體分為： a. 凝聚的（agglomerative）層次聚類：採用

機器學習之層次聚類演算法

層次聚類（Hierarchical Clustering）是對給定資料集在不同層次進行劃分，形成樹形的聚類結構，直到滿足某種停止條件為止。資料集的劃分可採用自底向上或自頂向下的劃分策略。1、凝聚的層次聚類演算法AGNES AGNES（AGglom

Spark機器學習之-實時聚類演算法呼叫

Spark MLIB中的Kmenas聚類演算法，資料通過SparkStreaming 實時拉取kafka中的資料，並呼叫已經訓練好的聚類模型；根據讀取的資料實時的進行分類package com.demo.cn.streaming import org.apache.kafk

機器學習之劃分聚類及程式碼示例

一、聚類聚類是一種無監督學習，根據樣本的內在相似性/距離，將大量未知標記的樣本集劃分為多個類別，使得同一個類別內的樣本相似度較大（距離較小），而不同類別間的樣本相似度較小（距離較大）。劃分聚類包含K-Means、Bisecting K-Means（二分K

《Python機器學習及實踐》----無監督學習之資料聚類

本片部落格是根據《Python機器學習及實踐》一書中的例項，所有程式碼均在本地編譯通過。資料為從該書指定的百度網盤上下載的，或者是sklearn自帶資料下載到本地使用的。程式碼片段： # coding: utf-8 # 分別匯入numpy、matplot

機器學習sklearn19.0聚類演算法——Kmeans演算法

一、關於聚類及相似度、距離的知識點二、k-means演算法思想與流程三、sklearn中對於kmeans演算法的引數四、程式碼示例以及應用的知識點簡介（1）make_blobs：聚類資料生成器 sklearn.datasets.m

sklearn學習筆記之Kmeans聚類

先講KMeans的建構函式：使用前需要匯入 import sklearn.cluster import KMeansKMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300,

【機器學習】---密度聚類從初識到應用

max 一個 eight log div 指定聚類空間 mar 一.前述密度聚類是一種能降噪的算法。二.相關概念先看些抽象的概念（官方定義）： 1.：對象O的是與O為中心，為半徑的空間，參數，是用戶指定每個對象的領域半徑值。 2.MinPts（領域密度閥值）：對象

Python機器學習——Agglomerative層次聚類

條件分享圖片 n-2 mov unique ber and 兩個 its 層次聚類（hierarchical clustering）可在不同層次上對數據集進行劃分，形成樹狀的聚類結構。AggregativeClustering是一種常用的層次聚類算法。 ??其原理是：最初

[吳恩達機器學習筆記]13聚類K-means

沒有 rand 幫助聯系 method ima 運用重新 function 13.聚類覺得有用的話,歡迎一起討論相互學習~Follow Me 13.1無監督學習簡介從監督學習到無監督學習在一個典型的監督學習中，我們有一個有標簽的訓練集，我們的目標是找到能夠區分正

機器學習實戰DBSCN聚類

# !/usr/bin/python # -*- coding:utf-8 -*- import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as ds import matplotlib.colors f

機器學習-*-K均值聚類及程式碼實現

KMeans聚類在聚類演算法中，最出名的應該就是k均值聚類(KMeans)了，幾乎所有的資料探勘/機器學習書籍都會介紹它，有些初學者還會將其與KNN等混淆。k均值是一種聚類演算法，屬於無監督學習的一種，而KNN是有監督學習/分類學習的一種。聚類：顧名思義，就是講某些相似的事物聚在

機器學習——K-均值聚類（K-means）演算法

本文轉載自：https://www.cnblogs.com/ybjourney/p/4714870.html 一 K-均值聚類（K-means）概述聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相似，各類之間的資料相

機器學習 K-means 聚類演算法 C++

筆記: 尚未解決的問題 : 1. 只支援二維,而不支援三維或更高,需要模板元 2. 尚未實現如何刪除極端點, 即預處理 3. 尚未視覺化編譯環境 Ubuntu gcc 5.4 編譯選項 g++ -std=c++14 #include &l

【機器學習】層次聚類

寫在篇前層次聚類（hierarchical clustering）是一種通用的聚類演算法之一，它通過自下而上合併或自上而下拆分來構建巢狀聚類。這種簇的層次結構表示為樹（或樹狀圖），樹的根匯聚所有樣本，樹的葉子是各個樣本。本篇部落格會簡述層次聚類的原理，重點

Stanford機器學習筆記-9. 聚類(Clustering)

9. Clustering Content 　　9. Clustering 　　　　9.1 Supervised Learning and Unsupervised Learning 　　　　9.2 K-means algorithm 　　　　9.3 Optimization objectiv

機器學習之kMeans聚類

相關推薦