【機器學習】：Kmeans均值聚類演算法原理(附帶Python程式碼實現)

這個演算法中文名為k均值聚類演算法，首先我們在二維的特殊條件下討論其實現的過程，方便大家理解。

第一步.隨機生成質心

由於這是一個無監督學習的演算法，因此我們首先在一個二維的座標軸下隨機給定一堆點，並隨即給定兩個質心，我們這個演算法的目的就是將這一堆點根據它們自身的座標特徵分為兩類，因此選取了兩個質心，什麼時候這一堆點能夠根據這兩個質心分為兩堆就對了。如下圖所示：

第二步.根據距離進行分類

紅色和藍色的點代表了我們隨機選取的質心。既然我們要讓這一堆點的分為兩堆，且讓分好的每一堆點離其質心最近的話，我們首先先求出每一個點離質心的距離。假如說有一個點離紅色的質心比例藍色的質心更近，那麼我們則將這個點歸類為紅色質心這一類，反之則歸於藍色質心這一類，如圖所示：

第三步.求出同一類點的均值，更新質心位置

在這一步當中，我們將同一類點的x\y的值進行平均，求出所有點之和的平均值，這個值（x,y）則是我們新的質心的位置，如圖所示：

我們可以看到，質心的位置已經發生了改變。

第四步.重複第二步，第三步

我們重複第二步和第三部的操作，不斷求出點對質心的最小值之後進行分類，分類之後再更新質心的位置，直到得到迭代次數的上限（這個迭代次數是可以我們自己設定的，比如10000次），或者在做了n次迭代之後，最後兩次迭代質心的位置已經保持不變，如下圖所示：

這個時候我們就將這一堆點按照它們的特徵在沒有監督的條件下，分成了兩類了！！

五.如果面對多個特徵確定的一個點的情況，又該如何實現聚類呢？

首先我們引入一個概念，那就是歐式距離，歐式距離是這樣定義的，很容易理解：

很顯然，歐式距離d(xi,xj)等於我們每一個點的特徵去減去另一個點在該維度下的距離的平方和再開根號，十分容易理解。

我們也可以用另一種方式來理解kmeans演算法，那就是使某一個點的和另一些點的方差做到最小則實現了聚類，如下圖所示：

得解!

六：程式碼實現

我們現在使用Python語言來實現這個kmeans均值演算法，首先我們先匯入一個名叫make_blobs的資料集datasets，然後分別使用兩個變數X,和y進行接收。X表示我們得到的資料,y表示這個資料應該被分類到的是哪一個類別當中，當然在我們實際的資料當中不會告訴我們哪個資料分在了哪一個類別當中，只會有X當中資料。在這裡寫程式碼的時候比較特殊，make_blobs庫要求我們必須接受這兩個引數，不能夠只接受X這個資料引數，程式碼如下

plt.figure(figsize=(15,15))#規定我們繪圖的大小為12*12

X, y=make_blobs(n_samples=1600,random_state=170)#一共取用1600個sample,同時狀態設定為隨機
#不知道這個狀態隨機是什麼意思，只能查有關這個庫的官方文件，同時這個資料集規定了是具備三個資料中心，也就是三個簇
y_pred=KMeans(n_clusters=3,random_state=170).fit_predict(X)

plt.subplot(221)#表示四個方格當中的第一格
plt.scatter(X[:,0],X[:,1],c=y_pred)#表示資料的第0個和第1個維度，同時資料的colour與predict的結果有關
plt.title("The result of the Kmeans")

plt.subplot(222)#表示四個方格當中的第一格
plt.scatter(X[:,0],X[:,1],c=y)
plt.title("The Real result of the Kmeans")

array=np.array([[0.60834549,-0.63667341],[-0.40887178,-0.85253229]])
lashen=np.dot(X,array)
y_pred=KMeans(n_clusters=3,random_state=170).fit_predict(lashen)

plt.subplot(223)#表示四個方格當中的第一格
plt.scatter(lashen[:,0],lashen[:,1],c=y_pred)#表示資料的第0個和第1個維度，同時資料的colour與predict的結果有關
plt.title("The Real result of the tranfored data")

我們在使用scatter函式進行繪圖的時候會根據我們資料結的形狀來編寫相應的程式碼，這裡我們所拿到的X資料集的行數是我們所指定的1600行，因為我們一共拿到了1600個數據，每一個數據僅有兩個特徵，也就是在XY軸當中的座標，因此X是一個二維的ndarray物件（X是numpy當中的ndarray物件），我們可以打印出來看看這個資料的構成，如下圖所示：

同時我們也可以看到y也是ndarray物件，由於我們在採集資料的時候僅僅接受了3個簇，make_blobs預設接受的是三個簇（或稱cluster）的緣故，因此最後y的值只有0，1，2這三種可能。我們通過matplotlib繪圖，繪製出我們分類的結果圖，也就是上述程式碼的執行結果如下：

相關推薦

【機器學習】：Kmeans均值聚類演算法原理(附帶Python程式碼實現)

這個演算法中文名為k均值聚類演算法，首先我們在二維的特殊條件下討論其實現的過程，方便大家理解。第一步.隨機生成質心由於這是一個無監督學習的演算法，因此我們首先在一個二維的座標軸下隨機給定一堆點，並隨即給定兩個質心，我們這個演算法的目的就是將這一堆點根據它們自身的座標特徵分為兩類，因此選取了兩個質心，什麼時

《機器學習實戰》KMeans均值聚類演算法

一、引言聚類是一種無監督學習，對一些沒有標籤的資料進行分類。二、K均值聚類演算法2.1 演算法過程:隨機確定K個初始點為質心（簇個數k由使用者給定），計算資料集中每個點到每個質心的距離本次採用的是歐式距離，然後將資料集中的每個點尋找距其最近的質心，分配到對應的簇中完成後，每個

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記關鍵字：k-均值、kMeans、聚類、非監督學習作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@author: Pet

【無監督學習】1：K-means聚類演算法原理

前言：粗略研究完神經網路基礎——BP、CNN、RNN、LSTM網路後自己算是鬆懈了很多，好長的時間都沒有堅持再更新部落格了。“腐敗”生活了這麼久，還是要找到自己一點樂趣吧，於是想了一想，決定把《機器學習》的演算法研究過得都重新梳理一遍，於是就從無監督學習——聚類

【機器學習】最大均值差異MMD詳解

引言最大均值差異(maximum mean discrepancy, MMD)提出時候是用來測試兩個樣本，是否來自兩個不同分佈p和q，如果均值差異達到最大，就說明取樣的樣本來自完全不同的分佈。原理 MMD的基本原理如下所述：假設有一個滿足P分佈的資料集Xs=[xs1,...,xsn]

【機器學習】決策樹（下)CART演算法分類樹、迴歸樹

CART同樣由特徵選擇、樹的生成、剪枝組成。既可以用於迴歸，又可以用於分類。 CART是在給定輸入隨機變數X條件下輸出隨機變數Y的條件概率分佈的學習方法。 CART假設決策樹是二叉樹，內部節點特徵的取值為“是“和“否“，左分支是取值為“是“的分支，右分支是取值為“否“的分支。這樣的決策樹

【機器學習】決策樹（上）——從原理到演算法實現

前言：決策樹（Decision Tree）是一種基本的分類與迴歸方法，本文主要討論分類決策樹。決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。相比樸素

《機器學習實戰》學習筆記———利用K-均值聚類演算法對未標註資料分組

引言 K-均值演算法試圖將一系列樣本分割成K個不同的類簇（其中K是模型的輸入引數），其形式化的目標函式稱為類簇內的方差和（within cluster sum of squared errors，WCSS）。K-均值聚類的目的是最小化所有類簇中的

【機器學習】如何成為當下合格的演算法工程師

學習方面的問題 Q1：計算機專業本科生，非ACMER。演算法達到什麼程度才算是合格，有什麼量化手段嗎？ Answer：傳統演算法和資料結構功底紮實。比如LintCode上的題目簡單和中等難度毫無壓力做出，Hard難度在給了一定時間和一定提示時可以獨立完成。

【機器學習】一文讀懂分類演算法常用評價指標

評價指標是針對將相同的資料，輸入不同的演算法模型，或者輸入不同引數的同一種演算法模型，而給出這個演算法或者引數好壞的定量指標。在模型評估過程中，往往需要使用多種不同的指標進行評估，在諸多的評價指標中，大部分指標只能片面的反應模型的一部分效能，如果不能合理的運用評估指標，不僅不能發現模型本身的問題，而且會得出

吳恩達機器學習筆記八 K-means聚類演算法

1. 代價函式 K-means演算法是比較容易理解的，它屬於無監督學習方法，所以訓練樣本資料不再含有標籤。我們假設有樣本資料x(1),x(2),⋯,x(m)x(1),x(2),⋯,x(m)，我們選擇設定KK個聚類中心u1,u2,⋯,uKu1,u2,⋯,uK

機器學習系列文章：Apriori關聯規則分析演算法原理分析與程式碼實現

1.關聯規則淺談關聯規則（Association Rules）是反映一個事物與其他事物之間的相互依存性和關聯性，如果兩個或多個事物之間存在一定的關聯關係，那麼，其中一個事物就能通過其他事物預測到。關聯規則是資料探勘的一個重要技術，用於從大量資料中挖掘出有價值的資料

機器學習筆記（九）聚類演算法及實踐（K-Means,DBSCAN,DPEAK,Spectral_Clustering）

這一週學校的事情比較多所以拖了幾天，這回我們來講一講聚類演算法哈。首先，我們知道，主要的機器學習方法分為監督學習和無監督學習。監督學習主要是指我們已經給出了資料和分類，基於這些我們訓練我們的分類器以

機器學習(25)之K-Means聚類演算法詳解

微信公眾號關鍵字全網搜尋最新排名【機器學習演算法】：排名第一【機器學習】：排名第一【Python】：排名第三【演算法】：排名第四前言 K-Means演算法是無監督的聚類演算法，它實現起來比較簡單，聚類效果也不錯，因此應用很廣泛。K-Means演算法有大量的變體，本文就從最傳統的K-Means演算

【時間序列】時間序列分割聚類演算法TICC

Hallac, David, et al. “Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data.” KDD. (2017). 本文是2017年KD

機器學習中K-means聚類演算法原理及C語言實現

本人以前主要focus在傳統音訊的軟體開發，接觸到的演算法主要是音訊訊號處理相關的，如各種編解碼演算法和回聲消除演算法等。最近切到語音識別上，接觸到的演算法就變成了各種機器學習演算法，如GMM等。K-means作為其中比較簡單的一種肯定是要好好掌握的。今天就講講K-means的基本原理和程式碼實現。其中基本原

機器學習筆記（一）樸素貝葉斯的Python程式碼實現

上研究生的時候，一心想讀生物資訊學的方向，由此也選修了生物數學，計算生物學等相關課程。給我印象最深的是給我們計算生物學的主講老師，他北大數學系畢業，後來做起了生物和數學的交叉學科研究。課上講的一些演算法比如貝葉斯，馬爾科夫，EM等把我給深深折磨了一遍。由於那時候

【機器學習】Kmeans聚類

寫在篇前 Kmeans演算法是一種經典的聚類演算法，屬於無監督學習的範疇。所謂聚類，即指對於給定的一個樣本集，按照樣本之間的距離大小，將樣本集劃分為K個簇，且讓簇內的點儘量緊密的連在一起，而讓簇間的距離儘量的大。優點：原理簡單速度快對大資料集有比較

【機器學習】聚類演算法：層次聚類

本文是“漫談 Clustering 系列”中的第 8 篇，參見本系列的其他文章。系列不小心又拖了好久，其實正兒八經的 blog 也好久沒有寫了，因為比較忙嘛，不過覺得 Hierarchical Clustering 這個話題我能說的東西應該不多，所以還是先寫了吧（我準

【機器學習】聚類演算法：層次聚類、K-means聚類

所謂聚類，就是將相似的事物聚集在一起，而將不相似的事物劃分到不同的類別的過程，是資料分析之中十分重要的一種手段。比如古典生物學之中，人們通過物種的形貌特徵將其分門別類，可以說就是一種樸素的人工聚類。如此，我們就可以將世界上紛繁複雜的資訊，簡化為少數方便人們理解的類別，可以說是人類認知這個