【機器學習】人像識別（三）——K-Means聚類

阿新 • • 發佈：2019-01-02

簡介

　　K-Means聚類是一種非監督的聚類方式，原理參看資料探勘十大演算法 | k-means。
　　

程式碼

import sys
import random
import numpy as np
from sklearn.decomposition import IncrementalPCA

imgNum = 10 # 幾張圖片
KNum = 2 # 分成幾類
n = 2 # 每張圖片都是n×n
dimension = 2016 # 每張圖片的維數
dst_dimension = 10 # 想降到的維數
bound = 10 # 前後兩次迭代結果之差小於這個時可以停止
maxRecurseTime = 10 
 # 最多迭代次數
centroids = [] # 存放KNum個質心的n維座標向量
last_centroids = [] # 上一次遞迴得到的質心座標們
ori_dots = [] # 存放每個點的n維座標向量
dots  = [] # 降維之後的點的座標
clusters = [] # 存放每個類中有哪些點， clusters[i]中存放的是第i類中的點的下標，第i類的中心是centroids[i]
selected = []

Distance = lambda v: np.linalg.norm(v)

# 初始化點的座標，並進行降維，返回降維後的向量集
def InitDots() 
:
    # 讀入imgNum個點的座標，存放在dots當中
    for i in range(imgNum):
        ori_dots.append([])

    # 讀入向量集並降維
    ReadFiles(ori_dots)
    return PCA(ori_dots)

# 初始化質心資訊
def InitCentroids():
    # 初始化質心資訊
    for i in range(KNum):
        centroids.append([])
        centroids[i] = np.array([float(0)] * dimension) # 初始化為全零 

        clusters.append([])

    # 隨機挑選初始時的‘質心’座標
    for i in range(KNum):
        _ = random.randrange(imgNum)
        while _ in selected:
            _ = random.randrange(imgNum)
        selected.append(_)
    selected.sort()
    print('selected:' , selected)

    for i in range(KNum):
        centroids[i] = dots[selected[i]]
    print('centroids 0:', centroids)

# 讀入imgNum個圖的座標向量
def ReadFiles(dots):  
    path = r'C:\Users\Owner\Documents\Visual Studio 2015\Projects\Python\K-Means\K-Means\\'
    fd = open(path + 'input.txt', 'r')
    _ = fd.read() # 一次讀進所有
    fd.close()
    _ = _.split()
    for i in range(len(_)):
        dots[i % imgNum].append(255 - float(_[i]))
    tmp = [2, 5]
    for i in tmp:
        for j in range(len(dots[i])):
            dots[i][j] *= 0.9

# 降維操作
def PCA(dots):
    X = np.array(dots)
    ipca = IncrementalPCA(n_components = dst_dimension)
    ipca.fit(X)
    Y = ipca.transform(X) 
    print('y = ', Y, '\n')
    for i in range(len(Y)):
        Y[i] = np.array(Y[i]) 
    return Y

# 對於每個cluster，計算質心
def CalcCentroids(KNum, dimension, centroids, dots, clusters):
    # 先把上一次得到的質心存放到last_centroids當中
    last_centroids = centroids
    # centroids = [] 這會導致傳不回去

    for i in range(KNum):
        v = np.array([float(0)] * dst_dimension)
        for _ in clusters[i]:
            v += dots[_]
        l = len(clusters[i])
        centroids[i] = (v / l)

# 聚類，判斷每個點屬於哪個類
def Cluster(imgNum, KNum, dots, clusters):
    # 清空原有資料
    for i in range(KNum):
        clusters[i] = []

    # 計算每個點到每個質心的距離，並將他們放到相應的cluster中
    for i in range(imgNum):
        store = [] # 存放當前的點到每個質心的距離
        for j in range(KNum):
            store.append(Distance(dots[i] - centroids[j]))
        cluster_index = store.index(min(store)) # store中最小的數是min(store)，找這個最小數的下標用store.index()
        clusters[cluster_index].append(i)

dots = InitDots()
InitCentroids()

temp = sys.stdout
log_root = r'C:\Users\Owner\Documents\Visual Studio 2015\Projects\Python\K-Means\K-Means\Log_'+str(dst_dimension)+'\\'
sys.stdout = open(log_root + str(selected) + '.txt','w')

for i in range(bound):
    print('ROUND ' + str(i) + ': ')
    print('centroids: ', centroids)
    Cluster(imgNum, KNum, dots, clusters)
    print('clusters',  clusters, '\n')
    CalcCentroids(KNum, dimension, centroids, dots, clusters)

print('centroids: ', centroids)
print('clusters: ', clusters)

sys.stdout = temp

遇到的問題

計算兩點之間的歐氏距離可以用numpy庫中的函式：
dist = numpy.linalg.norm(vec1 - vec2)
經常發現ROUND 2之後，質心就不再變了。對此，我心中不太踏實，踟躕於聚類速度是否當真如此之快。不過資料集這樣小，結果也正確，姑且將此歸功於K-Means的有效性吧。
在閱讀log文件時，發現編號為2和5的圖總是被歸到一組，然而恢復出灰度圖後，發現這兩張圖並不是一個人，但有一個共同點——色調較暗。因此在讀入資料後，將這兩張圖的灰度值乘了係數0.9，之後聚類結果就基本穩定了。

【機器學習】人像識別（三）——K-Means聚類

簡介　　K-Means聚類是一種非監督的聚類方式，原理參看資料探勘十大演算法 | k-means。　　程式碼 import sys import random import numpy as np from sklearn.decomposit

【機器學習】人像識別（二）——PCA降維

　　降維沒有什麼祕訣。我用了python裡sklearn.decomposition模組的IncrementalPCA。　　程式碼如下： X = np.array(dots) # do

【機器學習】人像分類（四）——灰度矩陣恢復成灰度圖

簡介　　對Matlab不是非常熟悉，經過查詢，瞭解到可以使用　　colormap(flipud(gray)) 　　設定畫出的圖為灰度圖（不然畫出來是彩色的）。　　　　imagesc(Matrix, []) 　　則用來將矩陣Matrix還原成圖

【機器學習】人像分類（一）——過程總結

　　這個問題其實是上學期某門課的大作業的三個題目之一。公佈題目後我就對這個內容很感興趣，然而由於種種原因，和隊友商量之後仍然選擇了看起來最簡單的句子分類，對此我不無遺憾。　　這個寒假裡計劃要乾的事情其實有很多，完成這個專案是其中之一；對CS的熱門方向——如機

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

回顧前面我們介紹了決策樹的特徵選擇，以及根據資訊增益構建決策樹。那麼決策樹的生成又有哪些經典演算法呢？本篇將主要介紹ID3的生成演算法，然後介紹C4.5中的生成演算法。最後簡單介紹CRAT演算法。 ID3演算法前面我們提到，一般而言，資訊增

【機器學習】softmax迴歸（二）

通過上篇softmax迴歸已經知道大概了，但是有個缺點，現在來仔細看看 Softmax迴歸模型引數化的特點 Softmax 迴歸有一個不尋常的特點：它有一個“冗餘”的引數集。為了便於闡述這一特點，假設我們從引數向量中減去了向量，這時，每一個

【機器學習】softmax迴歸（一）

在 softmax迴歸中，我們解決的是多分類問題（相對於 logistic 迴歸解決的二分類問題），類標可以取個不同的值（而不是 2 個）。因此，對於訓練集，我們有。（注意此處的類別下標從 1 開始，而不是 0）。例如，在 M

【深度學習】線性迴歸（三）使用MXNet深度學習框架實現線性迴歸

文章目錄概述程式碼概述這篇文章使用MXNet深度學習框架中的Gluon包實現小批量隨機梯度下降的線性迴歸問題。可以參考我的上一篇文章【深度學習】線性迴歸（二）小批量隨機梯度下降及其python實現。主要包

【機器學習】神經網路（一）——多類分類問題

一、問題引入早在監督學習中我們已經使用Logistic迴歸很好地解決二類分類問題。但現實生活中，更多的是多類分類問題（比如識別10個手寫數字）。本文引入神經網路模型解決多類分類問題。二、神經網路模型介紹神經網路模型是一個非常強大的模型，起源於嘗試讓機

【機器學習】決策樹（上）

前言：決策樹是一種基本的分類與迴歸演算法。可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。學習時，利用訓練資料，根據損失函式最小化原則建立決策樹模型。學習包括3個步驟：特徵選擇、決策樹的生成、決策樹的修建一、決策樹模型更多參照博文

【機器學習】決策樹（上）——從原理到演算法實現

前言：決策樹（Decision Tree）是一種基本的分類與迴歸方法，本文主要討論分類決策樹。決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。相比樸素

【機器學習】決策樹（二）——通過例子理解構建過程

回顧前面我們簡單介紹了決策樹，以及資訊熵和條件熵的概念。提到構建決策樹的過程，那麼我們是如何根據特徵來構建決策樹的呢？決策樹的構建過程決策樹演算法的重點就是決策樹的構造；決策樹的構造就是進行屬性選擇度量確定各個特徵之間的樹結構；構建決策樹的關鍵步驟就是分

【機器學習】數值分析（1）—— 任意方程求根

# 任意方程求根 ## 簡介方程和函式是代數數學中最為重要的內容之一，從初中直到大學，我們都在研究著方程與函式，甚至我們將圖形代數化，從而發展出了代數幾何、解析幾何的內容。而在方程與函式中，我們研究其性質最多的，往往就是方程的根（零點），即使是研究方程的極值點、鞍點等，我們無非也只是研究其微商的零點。

機器學習系列：（六）K-Means聚類

本章，我們介紹了我們的第一個無監督學習方法：聚類。聚類是用來探索無標籤資料的結構的。我們介紹了K-Means聚類演算法，重複將樣本分配的類裡面，不斷的更新類的重心位置。雖然K-Means是無監督學習方法，其效果依然是可以度量的；用畸變程度和輪廓係數可以評估聚類效果。我們用K-Means研究了兩個問題。第一

吳恩達機器學習第七次作業Part1： K-means聚類演算法

這是習題和答案的下載地址，全網最便宜，只要一積分哦~~~ 0.綜述學習K-means聚類演算法，並對一幅影象進行畫素壓縮。 1.Find Closest Centroids 這是指令碼 %% ================= Part 1: Find Clo

【NLP】基於機器學習角度談談CRF（三）

作者：白寧超 2016年8月3日08:39:14 【摘要】：條件隨機場用於序列標註，資料分割等自然語言處理中，表現出很好的效果。在中文分詞、中文人名識別和歧義消解等任務中都有應用。本文源於筆者做語句識別序列標註過程中，對條件隨機場的瞭解，逐步研究基於自然語言處理方面的應用。成文主要源於自然語言處理

【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

內含3種演算法的核心部分. 沒有找到很好的測試資料. 但就理清演算法思路來說問題不大剪枝演算法目前只實現了CART迴歸樹的後剪枝. import numpy as np from collections import Counter from sklearn imp

【機器學習】交叉驗證（cross-validation）

1、什麼是交叉驗證交叉驗證（Cross validation)，交叉驗證用於防止模型過於複雜而引起的過擬合。有時亦稱迴圈估計，是一種統計學上將資料樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析，而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱

【機器學習】決策樹（下)CART演算法分類樹、迴歸樹

CART同樣由特徵選擇、樹的生成、剪枝組成。既可以用於迴歸，又可以用於分類。 CART是在給定輸入隨機變數X條件下輸出隨機變數Y的條件概率分佈的學習方法。 CART假設決策樹是二叉樹，內部節點特徵的取值為“是“和“否“，左分支是取值為“是“的分支，右分支是取值為“否“的分支。這樣的決策樹

機器學習算法整理（三）決策樹

outlook spa com width 選擇 clas .com img 衡量標準決策樹的訓練與測試如何切分特征（選擇節點）衡量標準-熵信息增益決策樹構造實例信息增益：表示特

【機器學習】人像識別（三）——K-Means聚類

簡介

程式碼

遇到的問題

相關推薦