第十章 k-均值演算法 10.4 對地圖上的點進行聚類

阿新 • • 發佈：2019-01-18

將地圖上的點進行聚類，安排交通工具抵達這些簇的質心，然後步行到每個簇內地址。

這裡我們直接用給出的檔案進行操作，跳過10.4.1節。

新增程式碼：

def distSLC(vecA, vecB): # 返回地球表面兩點之間的距離
    a = sin(vecA[0,1] * pi / 180) * sin(vecB[0,1] * pi / 180)
    b = cos(vecA[0,1] * pi / 180) * cos(vecB[0,1] * pi / 180) * \
                        cos(pi * (vecB[0,0] - vecA[0,0]) / 180)
    return arccos(a + b) * 6371.0

import matplotlib
import matplotlib.pyplot as plt
def clusterClubs(numClust = 5): # 畫圖，引數為希望得到的簇數目
    datList = []
    for line in open('places.txt').readlines():
        lineArr = line.split('\t')
        datList.append([float(lineArr[4]), float(lineArr[3])])
    datMat = mat(datList)
    myCentroids, clustAssing = biKmeans(datMat, numClust, \
                                        distMeas = distSLC)
    fig = plt.figure()
    rect = [0.1, 0.1, 0.8, 0.8]
    scatterMarkers = ['s', 'o', '^', '8', 'p', \
                      'd', 'v', 'h', '>', '<']
    axprops = dict(xticks = [], yticks = [])
    ax0 = fig.add_axes(rect, label = 'ax0', **axprops)
    imgP = plt.imread('Portland.png') # imread 基於影象建立矩陣
    ax0.imshow(imgP)
    ax1 = fig.add_axes(rect, label = 'ax1', frameon = False)
    for i in range(numClust):
            ptsInCurrCluster = datMat[nonzero(clustAssing[:,0].A == i)[0],:]
            markerStyle = scatterMarkers[i % len(scatterMarkers)] # 使用索引來選擇標記形狀
            ax1.scatter(ptsInCurrCluster[:,0].flatten().A[0],\
                        ptsInCurrCluster[:,1].flatten().A[0],\
                        marker = markerStyle, s = 90)
    ax1.scatter(myCentroids[:,0].flatten().A[0],\
                    myCentroids[:,1].flatten().A[0], marker = '+', s = 300)
    plt.show()

執行程式碼：

import kMeans
from numpy import *

kMeans.clusterClubs(5)

得到結果：

==================================================================================

通過修改簇的數目，得到程式執行的效果。

比如4簇：

3簇：

================================================================================================

10.5 小結

聚類是一種無監督的學習方法。所謂無監督學習是指事先並不知道要尋找的內容，即沒有目標變數。聚類將資料點歸到多個簇中，其中相似資料點處於同一簇，而不相似資料點處於不同簇中。聚類中可以使用多種不同的方法計算相似度。

K-均值聚類演算法以 k 個隨機質心開始。演算法會計算每個點到質心的距離。每個點會被分配到距其最近的簇質心。然後緊接著基於新分配到簇的點更新簇質心。以上過程重複數次，直到質心不再改變。

為了得到更好地聚類效果，可以使用另一種稱為二分 k-均值的聚類演算法。該方法首先將所有點作為一個簇，然後使用 k-均值演算法對其劃分，下一次迭代時，選擇有最大誤差的簇進行劃分。這個過程重複直到 k 個簇建立為止。

第十章 k-均值演算法 10.4 對地圖上的點進行聚類

第十章 k-均值演算法 10.4 對地圖上的點進行聚類

K-means演算法對地圖上點進行聚類（未修訂篇）

grokking algorithms K-nearest neighbors第十章 K-鄰近演算法中文翻譯

C++ primer學習筆記——第十章泛型演算法

《Machine Learning in Action》| 第1章 k-近鄰演算法

《web安全之機器學習入門》第5章K近鄰演算法讀書筆記【下】

《web安全之機器學習入門》第5章K近鄰演算法讀書筆記【上】

【機器學習實戰】第2章 K-近鄰演算法(k-NearestNeighbor，KNN)

程式碼註釋：機器學習實戰第2章 k-近鄰演算法

Python 編程快速上手讓繁瑣工作自動化-第十章實踐項目 10.8 調試硬幣拋擲

第十章 Fisco Bcos 許可權控制下的資料上鍊實操演練

K-means演算法（將表中的點分為n類）

演算法筆記 --第十章提高篇(4) --圖演算法專題

2018.10.16——第十章-10.1概述-10.2初識泛型演算法

第八次作業--聚類--K均值演算法：自主實現與sklearn.cluster.KMeans呼叫

吳恩達機器學習（第十章）---神經網路的反向傳播演算法

第八次作業-----#聚類--K均值演算法：自主實現與sklearn.cluster.KMeans呼叫

《演算法》第四章部分程式 part 10

SLAM從入門到放棄：SLAM十四講第十章習題（1-4）

為什麼我要放棄javaScript資料結構與演算法（第十章）—— 排序和搜尋演算法

第十章 k-均值演算法 10.4 對地圖上的點進行聚類

相關推薦