機器學習--K-means演算法

阿新 • • 發佈：2018-11-08

概述

聚類（K-mean）是一種典型的無監督學習。

採用距離作為相似性的評價指標，即認為兩個物件的距離越近，其相似度就越大。

該演算法認為類簇是由距離靠近的物件組成的，因此把得到緊湊且獨立的簇作為最終目標。

核心思想

通過迭代尋找k個類簇的一種劃分方案，使得用這k個類簇的均值來代表相應各類樣本時所得的總體誤差最小。

k個聚類具有以下特點：各聚類本身儘可能的緊湊，而各聚類之間儘可能的分開。

k-means演算法的基礎是最小誤差平方和準則,

其代價函式是：

式中，μc(i)表示第i個聚類的均值。

各類簇內的樣本越相似，其與該類均值間的誤差平方越小，對所有類所得到的誤差平方求和，即可驗證分為k類時，各聚類是否是最優的。

上式的代價函式無法用解析的方法最小化，只能有迭代的方法。

實踐

第一步，為了測試，使用指令碼生成1000個數據的資料集。

import numpy as np

#x = np.random.uniform(-6,6,2)
#print(str(x[0])+'\t'+str(x[1]))

with open('data.txt', 'w') as f:  # 以寫的方式開啟檔案
    for i in range(250):
        x1 = 2*np.random.randn(2)
        x2 = 2 * np.random.randn(2)
        x3 = 2 * np.random.randn(2)
        x4 = 2 * np.random.randn(2)
        strr1 = str(x1[0]+6)+'\t'+str(x1[1]+6)+'\n'
        strr2 = str(x2[0] + 6) + '\t' + str(x2[1] - 6) + '\n'
        strr3 = str(x3[0] - 6) + '\t' + str(x3[1] + 6) + '\n'
        strr4 = str(x4[0] - 6) + '\t' + str(x4[1] - 6) + '\n'
        strr = strr1+strr2+strr3+strr4
        f.write(strr)

檢視data.txt裡面的資料：

第二步K-means演算法：（解釋都在註釋中）

from numpy import *
import numpy as np
import matplotlib.pyplot as plt
import time
from threading import Thread
#載入資料

plt.ion() #開啟interactive mode

def loadDataSet(fileName):#解析檔案，按tab分割字元，得到一個浮點數字型別的矩陣
    dataMat = []#檔案的最後一個欄位是類別標籤
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = list(map(float,curLine))#將每個元素轉成float型別
        dataMat.append(fltLine)
    dataMat = np.array(dataMat)
    return dataMat

def distEclud(vecA,vecB):
    return sqrt(sum(power(vecA - vecB,2)))#求兩個向量之間的距離

#構建聚簇中心，取k個（此例中為4）隨機質心
def randCent(dataSet,k):
    n = shape(dataSet)[1]
    centroids = mat(zeros((k,n)))#每個質心有n個座標值，總共k個質心
    for j in range(n):
        minJ = min(dataSet[:,j])
        maxJ = max(dataSet[:,j])
        rangeJ = float(maxJ-minJ)
        centroids[:,j] = minJ + rangeJ * random.rand(k,1)
    return centroids

#k-means聚類演算法
def kMeans(dataSet,k,distMeans = distEclud,createCent = randCent):
    m = shape(dataSet)[0]#獲取總資料量
    clusterAssment = mat(zeros((m,2)))#用於存放該樣本屬於哪類及質心距離
    #clusterAssment第一列存放該資料所屬的中心點，第二列是該資料到中心點的距離
    centroids = createCent(dataSet,k)#建立k箇中心點
    clusterChanged = True#用來判斷聚類是否收斂
    while clusterChanged:
        clusterChanged = False
        for i in range(m):#把每個資料點劃分到離它最近的中心點
            minDist = inf;minIndex = -1;#inf為無窮，minIndex為質心的代號
            for j in range(k):#分別計算各個點離k個質心的距離
                distJI = distMeans(centroids[j,:],dataSet[i,:])
                if distJI < minDist:#找到離這個點最近的質心
                    minDist = distJI;minIndex = j
            if clusterAssment[i,0] != minIndex: #只要有一個數據點發生變化，就說明分類還沒收斂，還要繼續
                clusterChanged = True

            clusterAssment[i,:] = minIndex,minDist**2 #並將第i個數據點的分配情況存入字典
        print(centroids)
        for cent in range(k):
            ptsInClust = dataSet[nonzero(clusterAssment[:, 0].A == cent)[0]]  # 取第一列等於cent的點
            centroids[cent, :] = mean(ptsInClust, axis=0)  # 算出這些資料的中心點，及當前更新後的質點

        ii = 0
        for cent in clusterAssment:
            #print(cent[0,0])
            if cent[0,0] == 0:
                x,y = dataSet[ii,0],dataSet[ii,1]
                plt.scatter(x, y, c='y')
            elif cent[0, 0] == 1:
                x, y = dataSet[ii, 0], dataSet[ii, 1]
                plt.scatter(x, y, c='r')

            elif cent[0, 0] == 2:
                x, y = dataSet[ii, 0], dataSet[ii, 1]
                plt.scatter(x, y, c='b')

            elif cent[0, 0] == 3:
                x, y = dataSet[ii, 0], dataSet[ii, 1]
                plt.scatter(x, y, c='g')
            ii = ii + 1

        plt.pause(1)
        plt.close()


    return centroids, clusterAssment

datMat = mat(loadDataSet('data.txt'))
myCentroids,clustAssing = kMeans(datMat,4)
print(myCentroids)
#print(clustAssing)

資料集比較簡單，資料很快就收斂。（資料集越複雜，越大，收斂會越慢）

可以看到最終得到的四個聚類的中心都在（+-6，+-6）附近，符合題設。

參考：https://www.cnblogs.com/ahu-lichang/p/7161613.html

機器學習——K-means演算法（聚類演算法）

聚類在說K-means聚類演算法之前必須要先理解聚類和分類的區別。分類其實是從特定的資料中挖掘模式，作出判斷的過程。比如Gmail郵箱裡有垃圾郵件分類器，一開始的時候可能什麼都不過濾，在日常使用過程中，我人工對於每一封郵件點選“垃圾”或“不是垃圾”，過一段時間，Gmail就體現出

機器學習--K-means演算法

概述聚類（K-mean）是一種典型的無監督學習。採用距離作為相似性的評價指標，即認為兩個物件的距離越近，其相似度就越大。該演算法認為類簇是由距離靠近的物件組成的，因此把得到緊湊且獨立的簇作為最終目標。核心思想通過迭代尋找k個類簇的一種劃分方案，使得用這k個類簇的均值來代

機器學習——K-Means演算法

Unsupervised Learning task learning a distribution from sample(GMM/VAE) clustering(PAC) feature learning 按照演算法目的，無監督演算法大體可分為上述三類，

機器學習--K-means演算法（聚類，無監督學習）

一、基本思想聚類屬於無監督學習，以往的迴歸、樸素貝葉斯、SVM等都是有類別標籤y的，也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y，只有特徵x，比如假設宇宙中的星星可以表示成三維空間中的點集。聚類的目的是找到每個樣本x潛在的類別y，並將同類別y的樣本x

機器學習-K-Means演算法（附原始碼）

定義俗話說“物以類聚”，其實從廣義上說，聚類就是將資料集中在某些方面相似的資料成員放在一起。一個聚類就是一些資料例項的集合，其中處於相同聚類中的資料元素彼此相似，但是處於不同聚類中的元素彼此不同。由於在聚類中那些表示資料類別的分類或分組資訊是沒有的，即這些資料是沒

python 機器學習K-means演算法實現

\編譯器:pycharm 1.匯入K-means相關包這個包匯入有點坑,有許多依賴包需要匯入,推薦下載Anaconda後,在pycharm匯入Anaconda中的python,在下載sklearn包,就可以開心的敲程式碼了~! 2正式開始: from

吳恩達機器學習 - 無監督學習——K-means演算法吳恩達機器學習 - 無監督學習——K-means演算法

原吳恩達機器學習 - 無監督學習——K-means演算法 2018年06月25日 12:02:37 離殤灬孤狼閱讀數：181

機器學習實踐（十七）—sklearn之無監督學習-K-means演算法

一、無監督學習概述什麼是無監督學習之所以稱為無監督，是因為模型學習是從無標籤的資料開始學習的。無監督學習包含演算法聚類 K-means(K均值聚類) 降維

機器學習 K-means 聚類演算法 C++

筆記: 尚未解決的問題 : 1. 只支援二維,而不支援三維或更高,需要模板元 2. 尚未實現如何刪除極端點, 即預處理 3. 尚未視覺化編譯環境 Ubuntu gcc 5.4 編譯選項 g++ -std=c++14 #include &l

機器學習 k-近鄰演算法

1、使用python匯入資料 from numpy import * def createDataSet(): group=array([[1.1,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B'] return gr

機器學習-k-近鄰演算法python實踐【4】

寫在最前面：簡單來說，k-近鄰演算法是用來根據不同的特徵進行分類的一種演算法優點：精度高、對異常值不敏感、無資料輸入假定缺點：計算複雜度高、空間複雜度高適用資料範圍：數值型和標稱型 IDE:Pycharm python版本：3.6 作業系統：macOS Mojave k

機器學習-K近鄰演算法

用例一： from sklearn.neighbors import NearestNeighbors import numpy as np X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]]) nbr

機器學習--k近鄰演算法探索及糖尿病預測

演算法原理：未標記樣本類別由距離其最近的k個鄰居投票決定。計算待標記的樣本和資料集中每個樣本的距離，取距離最近的k個樣本，待標記樣本所屬類別由這k個距離最近的樣本投票產生。優點：KNN原理簡單，容易實現，結果精度高，無需估計引數，無需訓練模型，可用於分類（投票）和迴歸（平

機器學習--k-近鄰演算法（kNN）實現手寫數字識別

這裡的手寫數字以0,1的形式儲存在文字檔案中，大小是32x32.目錄trainingDigits有1934個樣本。0-9每個數字大約有200個樣本，命名規則如下：下劃線前的數字代表是樣本0-9的

機器學習 - K-Means、K-Means++ 以及 ISOData

機器學習 - K-Means、K-Means++ 以及 ISOData K-Means K-Means++ ISOData K-Means 與 KNN 比較 K-Means、K-

機器學習——k鄰近演算法的資料解析

def file2matrix(filename): #????? fr = open(filename) #?????????? arrayOLines = fr.r

無監督學習——K-means演算法

筆記：核心步驟：那我們就實現這兩個函式就行啦： findClosestCentroids.m（把每個點染色）： function idx = fi

非監督學習—K-means演算法聚類學習筆記

非監督學習：無類別標記的一、 K-means 演算法： 1. Clustering 中的經典演算法，資料探勘十大經典演算法之一 2. 引數k 已知引數 k ；然後將事先輸入的n個數據物件劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的物件相似度較高；而不同聚

機器學習十大經典演算法：（2）k-means演算法

1.基本Kmeans演算法[1] [cpp] view plain copy 選擇K個點作為初始質心 repeat

機器學習——K-均值聚類（K-means）演算法

本文轉載自：https://www.cnblogs.com/ybjourney/p/4714870.html 一 K-均值聚類（K-means）概述聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相似，各類之間的資料相

機器學習--K-means演算法

概述

核心思想

實踐

相關推薦