周志華《機器學習》Ch9. 聚類：k-means演算法的python實現

阿新 • • 發佈：2019-02-08

理論

k-means方法是一種常用的聚類方法，其目標是最小化

$\sum\limits_{i=1}^k\sum_{j=1}^{m_i}||x_{ij}-\mu_i||$

其中 $\mu_i$ 是第i個簇的中心。直接優化上式有難度，故k-means演算法採用一種近似方法。

簡單來說，k-means演算法由兩個步驟迴圈組成：

1. 計算每個sample到各個簇中心的距離，將該sample的類標賦為距離最近的簇的類標；

2. 按照sample的類標重新計算各個簇中心

k-means演算法有兩個輸入引數需要使用者指定，一個是簇的個數，另一個是迴圈次數

程式碼

# -*- coding: utf-8 -*-
"""
k-means algorithm
From 'Machine Learning, Zhihua Zhou' Ch9
Model: k-means clustering algorithm
Dataset: P202 watermelon_4.0 (watermelon_4.0.npy)

@author: weiyx15
"""

import numpy as np
import matplotlib.pyplot as plt

class kMeans:
    def load_data(self, filename):
        self.x = np.load(filename)
        self.m = self.x.shape[0]            # sample number
        self.d = self.x.shape[1]            # feature dimension
        
    def __init__(self, kk, repeat):
        self.load_data('watermelon_4.0.npy')
        self.k = kk             # cluster number
        self.rep = repeat       # iteration timess
        self.P = np.zeros((self.k, self.d)) # cluster center vector
        for i in range(self.k):             # initialize vector P
            self.P[i, :] = self.x[int(self.m/self.k*i), :]
        self.L = np.zeros((self.m,),dtype=int)# cluster labels
        
    def getLabel(self, xi): # INPUT a sample, OUTPUT its label
        dmin = np.inf
        jmin = 0
        for j in range(self.k):
            dij = np.linalg.norm(xi - self.P[j, :])
            if dij < dmin:
                dmin = dij
                jmin = j
        return jmin
            
    
    def train(self):
        for r in range(self.rep):
            cnt = np.zeros((self.k,))
            for i in range(self.m):
                self.L[i] = self.getLabel(self.x[i, :])
                cnt[self.L[i]] = cnt[self.L[i]] + 1
            for i in range(self.k):
                S = sum(self.x[self.L==i, :])
                self.P[i, :] = S / cnt[i]
            
    def plot_data(self):
        color = ['r', 'b', 'y']
        plt.figure()
        for i in range(self.k):
            plt.plot(self.P[i,0], self.P[i,1], color[i%self.k]+'*')
        for i in range(self.k):
            plt.plot(self.x[self.L == i, 0], self.x[self.L == i, 1],\
                     color[i%self.k]+'.')
    
if __name__ == '__main__':
    km = kMeans(3, 10)
    km.train()
    km.plot_data()

結果

西瓜資料集4.0用k-means演算法3聚類10次迭代後的結果如下圖所示，其中"*"表示簇中心。

周志華《機器學習》Ch9. 聚類：k-means演算法的python實現

理論 k-means方法是一種常用的聚類方法，其目標是最小化其中是第i個簇的中心。直接優化上式有難度，故k-means演算法採用一種近似方法。簡單來說，k-means演算法由兩個步驟迴圈組成： 1. 計算每個sample到各個簇中心的距離，將該sample的類

機器學習之聚類分析---K-means（一）

初探k-means（Matlab）俗話說：，聚類分析的目的是：在資料中發現數據物件之間的關係，並將資料進行分組，使得組內的相似性儘可能大，組間的差別盡可能大，那麼聚類的效果越好。例如在市場營銷中，聚類分

周志華機器學習總結

Lecture3 線性模型基本形式一般向量形式: 優點: 線性迴歸廣義線性模型對數機率迴歸由對數機率函式確定 $\boldsymbol{\omega}$ 和 $b$

周志華機器學習筆記

第1章 1.4歸納偏好學習演算法自身的歸納偏好與問題是否相配，往往會起到決定作用。對於上面這句話：你的輸入資料被怎麼處理，最終得到什麼結果，我認為偏好指的就是這個處理的過程。線性非線性？那些feature忽略掉？怎麼利用這些資料？更具體一些，你用網路處理，還是傳統方法，資料的分佈和你

周志華機器學習效能度量

2.5 效能度量效能度量（performance measure）是衡量模型泛化能力的評價標準，在對比不同模型的能力時，使用不同的效能度量往往會導致不同的評判結果。本節除2.5.1外，其它主要介紹分類模型的效能度量。 2.5.1 最常見的效能度量在迴歸任務中，即預測連續值的問題，最常

周志華機器學習

盜用weka 緒論 1.2基本術語學習任務大致分為兩類：監督學習：分類、迴歸無監督學習：聚類泛化：訓練得到的模型適用於新樣本的能力機器學習領域最重要的國際學術會議是國際機器學習會議 (ICML)、國

周志華機器學習筆記

http://blog.sina.cn/dpool/blog/s/blog_cfa68e330102ycy9.html?md=gd https://www.cnblogs.com/shiwanghualuo/p/7192678.html 首先的階段由卷積層和池化層組成，卷積的節點組織在特徵對映塊

[機器學習]ID3決策樹詳細計算流程周志華機器學習筆記原創Excel手算方法

1.用到的主要三條熵公式： 1.1 資訊熵詳情見夏農資訊理論概率越平衡事件所含有的資訊量越大 1.2 條件熵代表某一屬性下不同分類的資訊熵之和 1.3 資訊增益等於資訊熵減去條件熵，從數值上，越大的資訊增益在資訊熵一定的情況下，代表條件熵越小，條件熵越

周志華-機器學習-筆記（五）- 強化學習

#### 任務與獎賞 #### 　　“強化學習”(reinforcement learning)可以講述為在任務過程中不斷摸索，然後總結出較好的完成任務策略。　　強化學習任務通常用馬爾可夫決策過程(Markov Decision Process，簡稱M

周志華機器學習筆記（一）

新人一枚，既是機器學習的初學者，也是首次發部落格。謹以此記錄我的學習體會，做一些總結。望與大家共同學習、共同進步。文中若有內容錯誤或有措詞不嚴謹之處，望大家不吝指出。謝謝！機器學習中的基本概念基本術語根據上圖我們可以用一個三維空間來了解以

周志華機器學習讀後總結第10、11章

降維與度量學習什麼是降維學習降維是一種分類演算法，它是一種解決維數災難的重要途徑。例如二維資料經過投影變為一維資料從而更好的表徵資料的特徵，然後再進行識別；這就利用了降維的方法。 K鄰近學習 k近鄰學習是一種監督學習演算法，它給定測試樣本，基於某種距離度量找出與訓練集

周志華機器學習讀後總結第三章

線性模型基本形式線性模型試圖學得一個通過屬性的線性組合來進行預測的函式，即f(x)=w1x1+w2x2+…+wdxd+b,w和b學得之後，模型就得以確定，而w直觀表達了各屬性在預測中的重要性。線性迴歸線性迴歸試圖學得一個線性模型以儘可能準確的預測實值輸出標記。線性迴歸

周志華機器學習讀後總結第12、13章

計算學習理論什麼是計算學習理論計算學習理論是關於機器學習的理論基礎，其目的是分析學習任務的困難本質，為學習演算法提供理論保證，並根據分析結果指導演算法設計。泛化誤差和經驗誤差是計算學習理論的兩個重要概念，現實中我們常用經驗誤差作為泛化誤差的近擬。 PAC學習 PAC學

斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）

上面的部落格的演算法都是有監督學習的演算法，即對於每個資料我們都有該資料對應的標籤，資料集的形式如下：而今天我們學習的演算法是一種無監督學習的演算法——聚類，該演算法中的每個資料沒有標籤，資料集的形式如下： K-均值聚類 k-均值聚類是一種最常見

機器學習（1）：K-MEANS聚類演算法

一、聚類簡介 1.無監督問題：我們手裡沒有標籤了 2.聚類：相似的東西分到一組 3.難點：如何評估，如何調參二、基本概念： 1.K：要得到簇的個數，需要指定K 2.質心：均值，即向量各維取平均 3.距離的度量：常用歐幾里得距離和餘弦相似度（先標準化） 4.優化目標（1）Ci代表

無監督學習——聚類（k-means演算法）

無監督學習是一種對不含標記的資料建立模型的機器學習正規化。無監督學習應用領域： - 資料探勘 - 醫學影像 - 股票市場分析 - 計算機視覺

機器學習實戰筆記一：K-近鄰演算法在約會網站上的應用

K-近鄰演算法概述簡單的說，K-近鄰演算法採用不同特徵值之間的距離方法進行分類 K-近鄰演算法優點：精度高、對異常值不敏感、無資料輸入假定。缺點：計算複雜度高、空間複雜度高。適用範圍：數值型和標稱型。 k-近鄰演算法的一般流程收集資料:可使用任何方法

Python3《機器學習實戰》筆記：K-近鄰演算法

2.1 實施KNN演算法 python3實現KNN演算法，本書採用的是python2，轉化為python3 import numpy as np #運算子模組 import operator def createDataSet(): group = np

聚類之K-means演算法

聚類是一種無監督學習,讓相似的作為一類,不相似的當然不能歸為一類.非常符合我們日常的認知行為.據悉,大多數聚類問題都是NP完全問題,即不存在能夠找到全域性最優解的有效解法.我們常常是將可能的聚類情況定義一個代價函式,問題就轉化為尋找一個代價最小的劃分,變成了

聚類分析層次聚類及k-means演算法

參考文獻： [1]Jure Leskovec，Anand Rajaraman，Jeffrey David Ullman.大資料網際網路大規模資料探勘與分散式處理（第二版） [M]北京：人民郵電出版社，2015.，190-199； [2]蔣盛益，李霞，鄭琪.資料探勘原理與實踐 [M]北京：電子工業出版社，20

周志華《機器學習》Ch9. 聚類：k-means演算法的python實現

理論

程式碼

結果

相關推薦