聚類

分類 vs. 聚類
class cluster
有監督無監督
樣本相似性：歐氏距離
歐幾里得
《幾何原理》
不同維度的距離求解：
P(x1) - Q(x2): |x1-x2| = sqrt((x1-x2)²)
P(x1,y1) - Q(x2,y2): sqrt((x1-x2)²

+(y1-y2)²)
P(x1,y1,z1) - Q(x2,y2,z2):sqrt((x1-x2)²+ (y1-y2)²+(z1-z2)²)
用兩個樣本對應特徵值之差的平方和之平方根，即歐氏距離，來表示這兩個樣本的相似性。

K均值演算法

聚類中心：任意一個聚類成員與該聚類中心的距離一定小於該成員與其他聚類中心的距離。
幾何中心：聚類中所有成員對應特徵值的算數平均數表示的虛擬樣本-抽象性。
理想聚類：聚類中心與幾何中心重合。
在總樣本空間中，隨機選擇K個樣本作為初始聚類中心，計算所有樣本距離每個聚類中心的歐氏距離，離哪個中心斤就隸屬於該中心所表示的類別，這樣就完成了一次聚類劃分，針對所得到的每個聚類，計算其樣本集的幾何中心，如果幾何中心與計算中心不重合，以幾何中心作為新的聚類中心重新計算每個樣本與其劃分所依據的聚類中心重合或足夠接近為止。
問題：

聚類數K需要事先知道。
通過效能指標優選最好的K
初始聚類中心的選擇可能會影響最終的聚類劃分結果。
以最大間距原則選擇初始的聚類中心
示例：

import numpy as np
import sklearn.cluster as sc
import matplotlib.pyplot as mp

x = []
with open(r'C:\Users\Cs\Desktop\機器學習\ML\data\multiple3.txt', 'r') as f:
    for line in f.readlines():
        data = [float(substr) 
 for substr
                in line.split(',')]
        x.append(data)
x = np.array(x)
# K均值聚類器，n_clusters聚類數（核心數）
model = sc.KMeans(n_clusters=4)
model.fit(x)
centers = model.cluster_centers_
l, r, h = x[:, 0].min() - 1, x[:, 0].max() + 1, 0.005
b, t, v = x[:, 1].min() - 1, x[:, 1].max() + 1, 0.005
grid_x = np.meshgrid(np.arange(l, r, h),
                     np.arange(b, t, v))
flat_x = np.c_[grid_x[0].ravel(), grid_x[1].ravel()]
flat_y = model.predict(flat_x)
grid_y = flat_y.reshape(grid_x[0].shape)
pred_y = model.predict(x)
mp.figure('K-Means Cluster', facecolor='lightgray')
mp.title('K-Means Cluster', fontsize=20)
mp.xlabel('x', fontsize=14)
mp.ylabel('y', fontsize=14)
mp.tick_params(labelsize=10)
mp.pcolormesh(grid_x[0], grid_x[1], grid_y,
              cmap='gray')
mp.scatter(x[:, 0], x[:, 1], c=pred_y, cmap='brg',
           s=80)
mp.scatter(centers[:, 0], centers[:, 1], marker='+',
           c='gold', s=1000, linewidth=1)
mp.show()

圖片量化

通過聚類的方法，將圖片中的不同顏色（或者灰度的不同亮度）進行聚類，得到單色圖。

import numpy as np
import cv2
import sklearn.cluster as sc
import matplotlib.pyplot as mp

image1 = cv2.imread(r'C:\Users\Cs\Desktop\3.jpg', cv2.IMREAD_GRAYSCALE)
model=sc.KMeans(2)
# 轉換成一維
model.fit(image1.reshape((-1,1)))
y=model.labels_
print("y:",y)

centers=model.cluster_centers_
print("centers:",centers)
# 通過網篩得到圖片矩陣
x=centers[y].reshape(image1.shape)
mp.imshow(x)
mp.show()

均值漂移演算法

首先假定樣本空間中的每個聚類均服從某種已知的概率分佈規則，然後用不同的概率密度函式擬合樣本中的統計直方圖，不斷移動密度函式的中心(均值)的位置，直到獲得最佳擬合效果為止。這些概率密度函式的峰值點就是聚類的中心，再根據每個樣本距離各個中心的距離，選擇最近聚類中心所屬的類別作為該樣本的類別。
1)聚類數不必事先已知，演算法會自動識別出統計直方圖的中心數量。
2)聚類中心不依據於最初假定，聚類劃分的結果相對穩定。
3)樣本空間應該服從某種概率分佈規則，否則演算法的準確性會大打折扣。
聚類中心：
k均值演算法的聚類中心：幾何中心----------------\基於中心
均值漂移演算法的聚類中心：隨機分佈中心------/ 的預測

程式碼：

import numpy as np
import sklearn.cluster as sc
import matplotlib.pyplot as mp
x = []
with open('../../data/multiple3.txt', 'r') as f:
    for line in f.readlines():
        data = [float(substr) for substr
                in line.split(',')]
        x.append(data)
x = np.array(x)
# 量化頻寬，決定每次調整概率密度函式的步進量
bw = sc.estimate_bandwidth(x, n_samples=len(x),
                           quantile=0.1)
# 均值漂移聚類器,bin_seeding:如果為真，初始化點不是所有點，可以加快迭代速度，初始化位置更少
model = sc.MeanShift(bandwidth=bw, bin_seeding=True)
model.fit(x)
centers = model.cluster_centers_
...

凝聚層次演算法

首先假定每個樣本都是一個獨立的聚類，如果統計出來的聚類數大於期望的聚類數，則從每個樣本出發尋找離自己最近的另一個樣本，與之聚集，形成更大的聚類，同時令總聚類數減少，不斷重複以上過程，直到統計出來的聚類數達到期望值為止。
1)聚類數k必須事先已知。
藉助某些評估指標，優選最好的聚類數。
2)沒有聚類中心的概念，因此只能在訓練集中劃分聚類，但不能對訓練集以外的未知樣本確定其聚類歸屬。
3)在確定被凝聚的樣本時，除了以距離作為條件以外，還可以根據連續性來確定被聚集的樣本。

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import numpy as np
import sklearn.cluster as sc
import matplotlib.pyplot as mp
x = []
with open('../../data/multiple3.txt', 'r') as f:
    for line in f.readlines():
        data = [float(substr) for substr
                in line.split(',')]
        x.append(data)
x = np.array(x)
# 凝聚層次聚類器
model = sc.AgglomerativeClustering(n_clusters=4)
pred_y = model.fit_predict(x)
mp.figure('Agglomerative Cluster',
          facecolor='lightgray')
mp.title('Agglomerative Cluster', fontsize=20)
mp.xlabel('x', fontsize=14)
mp.ylabel('y', fontsize=14)
mp.tick_params(labelsize=10)
mp.scatter(x[:, 0], x[:, 1], c=pred_y, cmap='brg',
           s=80)
mp.show()

基於距離的凝聚：塊狀凝聚
基於線性（連續性）的凝聚：線狀凝聚

凝聚層次演算法的線性凝聚方式

凝聚成此演算法可以線性凝聚和塊狀凝聚。具體使用如下：

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import numpy as np
import sklearn.cluster as sc
import sklearn.neighbors as nb
import matplotlib.pyplot as mp

n_samples = 500
t = 2.5 * np.pi * (1 + 2 * np.random.rand(n_samples, 1))
x = 0.05 * t * np.cos(t)
y = 0.05 * t * np.sin(t)
n = 0.05 * np.random.rand(n_samples, 2)
x = np.hstack((x, y)) + n
# 無連續性的凝聚層次聚類器
model_nonc = sc.AgglomerativeClustering(linkage='average', n_clusters=3)
pred_y_nonc = model_nonc.fit_predict(x)
# 近鄰篩選器
conn = nb.kneighbors_graph(x, 10, include_self=False)
# 有連續性的凝聚層次聚類器
model_conn = sc.AgglomerativeClustering(linkage='average', n_clusters=3,
                                        connectivity=conn)
pred_y_conn = model_conn.fit_predict(x)
mp.figure('Nonconnectivity',
          facecolor='lightgray')
mp.title('Nonconnectivity', fontsize=20)
mp.xlabel('x', fontsize=14)
mp.ylabel('y', fontsize=14)
mp.tick_params(labelsize=10)
mp.axis('equal')
mp.scatter(x[:, 0], x[:, 1], c=pred_y_nonc, cmap='brg', alpha=0.5, s=60)
mp.figure('Connectivity', facecolor='lightgray')
mp.title('Connectivity', fontsize=20)
mp.xlabel('x', fontsize=14)
mp.ylabel('y', fontsize=14)
mp.tick_params(labelsize=10)
mp.axis('equal')
mp.scatter(x[:, 0], x[:, 1], c=pred_y_conn, cmap='brg', alpha=0.5, s=60)
mp.show()

在這裡插入圖片描述

輪廓係數

好的聚類：內密外疏，同一個聚類內部的樣本要足夠密集，不同聚類之間樣本要足夠疏遠。
電視機
皮夾克
電冰箱
羽絨服
好！
A : 電視機，電冰箱
B : 皮夾克，羽絨服
差！
A : 電視機，羽絨服
B : 電冰箱，皮夾克
通過輪廓係數表示聚類內密外輸的程度，即聚類的性別。
一個樣本的輪廓係數：s=(b-a)/max(a,b)
將整個樣本空間中所有樣本的輪廓係數取算數平均值，作為聚類劃分的效能指標s。
  -1 <----- 0 -----> 1 
最差    聚類重疊     最好
sm.silhouette_score(輸入集, 輸出集, sample_size=樣本數, metric=距離演算法)->平均輪廓係數
    距離演算法：euclidean，歐幾里得距離
    輸出值通過訓練的model.predict(x)得到

import numpy as np
import sklearn.cluster as sc
import sklearn.metrics as sm
import matplotlib.pyplot as mp
x = []
with open(r'C:\Users\Cs\Desktop\機器學習\ML\data\multiple3.txt', 'r') as f:
    for line in f.readlines():
        data = [float(substr) for substr
                in line.split(',')]
        x.append(data)
x = np.array(x)
# K均值聚類器
model = sc.KMeans(n_clusters=4)
model.fit(x)
centers = model.cluster_centers_
l, r, h = x[:, 0].min() - 1, x[:, 0].max() + 1, 0.005
b, t, v = x[:, 1].min() - 1, x[:, 1].max() + 1, 0.005
grid_x = np.meshgrid(np.arange(l, r, h),
                     np.arange(b, t, v))
flat_x = np.c_[grid_x[0].ravel(), grid_x[1].ravel()]
flat_y = model.predict(flat_x)
grid_y = flat_y.reshape(grid_x[0].shape)
pred_y = model.predict(x)
# 列印平均輪廓係數
print(sm.silhouette_score(
    x, pred_y, sample_size=len(x),
    metric='euclidean'))
mp.figure('K-Means Cluster', facecolor='lightgray')
mp.title('K-Means Cluster', fontsize=20)
mp.xlabel('x', fontsize=14)
mp.ylabel('y', fontsize=14)
mp.tick_params(labelsize=10)
mp.pcolormesh(grid_x[0], grid_x[1], grid_y,
              cmap='gray')
mp.scatter(x[:, 0], x[:, 1], c=pred_y, cmap='brg',
           s=80)
mp.scatter(centers[:, 0], centers[:, 1], marker='+',
           c='gold', s=1000, linewidth=1)
mp.show()

DBSCAN(帶噪聲的基於密度的聚類)演算法

DBSCAN(帶噪聲的基於密度的聚類)演算法
核心思想：朋友的朋友也是朋友
從樣本空間中任意選擇一個樣本，以事先給定的半徑做圓，凡被該圓圈中的樣本都視為與該樣本處於相同的聚類，以這些被圈中的樣本為圓心繼續做圓，重複以上過程，不斷擴大被圈中樣本的規模，直到再也沒有新的樣本加入為止，至此即得到一個聚類。於剩餘樣本中，重複以上過程，直到耗盡樣本空間中的所有樣本為止。
1)事先給定的半徑會影響最後的聚類效果，可以藉助輪廓係數選擇較優的方案。
2)根據聚類的形成過程，把樣本細分為以下三類：
外周樣本：被其它樣本聚集到某個聚類中，但無法再引入新樣本的樣本。
孤立樣本：聚類中的樣本數低於所設定的下限，則不稱其為聚類，反之稱其為孤立樣本。
核心樣本：除了外周樣本和孤立樣本以外的樣本。
程式碼：

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import numpy as np
import sklearn.cluster as sc
import sklearn.metrics as sm
import matplotlib.pyplot as mp

x = []
with open(r'C:\Users\Cs\Desktop\機器學習\ML\data\perf.txt', 'r') as f:
    for line in f.readlines():
        data = [float(substr) for substr
                in line.split(',')]
        x.append(data)
x = np.array(x)
# epsilons:
epsilons, scores, models = np.linspace(0.3, 1.2, 10), [], []
for epsilon in epsilons:
    # DBSCAN聚類器
    model = sc.DBSCAN(eps=epsilon, min_samples=5)
    model.fit(x)
    # 獲取當前model的輪廓係數
    score = sm.silhouette_score(x, model.labels_, sample_size=len(x), metric='euclidean')
    scores.append(score)
    models.append(model)
scores = np.array(scores)
best_index = scores.argmax()
# 得到最佳半徑係數
best_epsilon = epsilons[best_index]
print(best_epsilon)
# 得到最佳輪廓係數
best_score = scores[best_index]
print(best_score)
# 得到最佳模型
best_model = models[best_index]
# 得到聚類結果，注意fit_predict方法，這裡居然沒有predict方法
pred_y = best_model.fit_predict(x)

core_mask = np.zeros(len(x), dtype=bool)
# DBSCAN屬性：
#core_sample_indices_: array, shape = [n_core_samples]：核心點標籤。
# components_: array, shape = [n_core_samples, n_features]：通過培訓找到的每個核心樣本的副本。
# labels_: array, shape = [n_samples]：將資料集中每個點的標籤聚類到fit()中。噪聲樣本被標記為-1。
#指數核心樣本的下標
core_mask[best_model.core_sample_indices_] = True
print("core_sample_indices_:",best_model.core_sample_indices_)
print("coremask:",core_mask)
# 噪聲點
offset_mask = best_model.labels_ == -1
#邊緣點
periphery_mask = ~(core_mask | offset_mask)

mp.figure('DBSCAN Cluster', facecolor='lightgray')
mp.title('DBSCAN Cluster', fontsize=20)
mp.xlabel('x', fontsize=14)
mp.ylabel('y', fontsize=14)
mp.tick_params(labelsize=10)
labels = set(pred_y)
cs = mp.get_cmap('brg', len(labels))(
    range(len(labels)))
mp.scatter(x[core_mask][:, 0], x[core_mask][:, 1],
           c=cs[pred_y[core_mask]], s=80,
           label='Core')
mp.scatter(x[periphery_mask][:, 0], x[periphery_mask][:, 1],
           edgecolor=cs[pred_y[periphery_mask]],
           facecolor='none', s=80, label='Periphery')
mp.scatter(x[offset_mask][:, 0], x[offset_mask][:, 1 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    機器學習5-無監督學習與聚類
       
  
  
 
 
  目錄
  
   聚類
   
    K均值演算法
    圖片量化
    均值漂移演算法
    凝聚層次演算法
    
     凝聚層次演算法的線性凝聚方式
     輪廓係數
    
    DBSCAN(帶噪聲的基於密度的聚類)演算法
    KNN演算法
    

  
 

    

    
    【吳恩達機器學習】學習筆記——1.5無監督學習
      分類   哪些   rep   epm   朋友   工作   style   class   客戶   1 無監督學習：在不知道數據點的含義的情況下，從一個數據集中找出數據點的結構關系。
2 聚類算法：相同屬性的數據點會集中分布，聚集在一起，聚類算法將數據集分成不同的聚類。也就是說，機器不知道這些數據點具體 

  
 

    

    
    機器學習、監督學習、無監督學習、分類、迴歸、聚類的概念
      
                機器學習的兩種主要定義：

定義1 ：

Arthur Samuel (1959):Field of study that gives computers the ability to learn without being explicitly programmed.

一 

  
 

    

    
    王小草【機器學習】筆記--無監督演算法之聚類
      
							
							
							標籤（空格分隔）： 王小草機器學習筆記



1. 聚類的概述

存在大量未標註的資料集，即只有特徵，沒有標籤的資料。 
根據這些特徵資料計算樣本點之間的相似性。 
根據相似性將資料劃分到多個類別中。 
使得，同一個類別內的資料相似度大，類別之間的資料相似度小。 

  
 

    

    
    機器學習筆記——無監督學習（unsupervised learning）
       
 
 聚類 
 之前我們講到的都是監督學習，下面讓我們來看對於無監督學習我們應該如何進行分類呢？無監督學習對應的就是給定的樣本點我們不給輸出值來進行分類 
  
 K-means 
 K-means是一種十分常用的演算法，它的過程就是對於給定的K個初始點，首先根據各個樣本點到其的距離進行分類，之後將這K個 

  
 

    

    
    機器學習中的有監督學習，無監督學習，半監督學習
      3、監督式學習有兩種形態的模型。最一般的，監督式學習產生一個全域模型，會將輸入物件對應到預期輸出。而另一種，則是將這種對應實作在一個區域模型。（如案例推論及最近鄰居法）。為了解決一個給定的監督式學習的問題（手寫辨識），必須考慮以下步驟：
1）決定訓練資料的範例的形態。在做其它事前，工程師應決定要使用哪種資料為 

  
 

    

    
    概念：監督學習、無監督學習與半監督學習
      
							
							
							（此為機器學習隨筆之一） 
機器學習中的演算法，主要有兩種：監督學習；半監督學習。

1 、名詞

監督學習 ： supervised learning 
無監督學習 ： unsupervised learning 
半監督學習 ： semi-supervise 

  
 

    

    
    機器學習兩種方法——監督學習和無監督學習（通俗理解）
      
                
前言
機器學習分為：監督學習，無監督學習，半監督學習（也可以用hinton所說的強化學習）等。
在這裡，主要理解一下監督學習和無監督學習。
監督學習（supervised learning）
從給定的訓練資料集中學習出一個函式（模型引數），當新的資料到來時，可以根據這個函式 

  
 

    

    
    機器學習中的有監督學習，無監督學習，半監督學習的區別
      
                

在機器學習(Machine learning)領域，主要有三類不同的學習方法：

監督學習(Supervised learning)、

非監督學習(Unsupervised learning)、

半監督學習(Semi-supervised learning)，
監督學 

  
 

    

    
    吳恩達機器學習 學習筆記 之 一 監督學習和無監督學習
      
                
一、 
1-1 welcome
1-2 什麼是機器學習——Machine Learning
機器學習尚無明確定義，現有的定義有：
（1）Field of study that gives computers the ability to learn about being  

  
 

    

    
    機器學習基礎（五十七）—— 監督學習、無監督學習
      
								
								            
							
							
							僅使用 inputs x(t) 用於學習：


automatically extract meaningful features for your data
leverage the availabi 

  
 

    

    
    機器學習之監督學習和無監督學習
      
								
								            
						
                
監督學習：你知道要分成哪幾類（有標籤的訓練資料）通過訓練樣本 得到最優模型 有新資料來臨時 根據最優模型得到資料所屬型別
監督學習分為兩大類：
迴歸：定量輸出，輸入變數與輸出變數均為連續變數的預測問題 

  
 

    

    
    機器學習筆記（1）監督學習和無監督學習
      結果   關系   不同   情況   屬於   預測   數據   自己   復雜   監督學習
監督學習是指我們給予算法一個數據集，這個數據集可以是以往相同類型問題的結果，或者絕對正確的經驗答案的集合，也就是統計中常說的樣本，並且這些數據都是有其固有的“正確答案”，然後算法根據這個集合做出對當前相同類型的 

  
 

    

    
    機器學習(1)監督學習和無監督學習
      
                
監督學習：根據已有的資料集，我們知道輸入和輸出結果之間的關係。根據這種已知的關係，訓練得到一個最優的模型。監督學習主要分為分類問題和迴歸問題。
 分類問題：輸出結果是有限個結果，比如結果集為T={A，B，C}。
迴歸問題：更像是一個連續的函式y=f(x),根據你的輸入x，得 

  
 

    

    
    監督學習、無監督學習與強化學習
      它與監督學習的不同之處，在於我們事先沒有任何訓練樣本，而需要直接對資料進行建模。這聽起來似乎有點不可思議，但是在我們自身認識世界的過程中很多處都用到了無監督學習。比如我們去參觀一個畫展，我們完全對藝術一無所知，但是欣賞完多幅作品之後，我們也能把它們分成不同的派別（比如哪些更朦朧一點，哪些更寫實一些，即使我們不 

  
 

    

    
    機器學習（二）：有監督學習、無監督學習和半監督學習
      
							
							
							



一、基本概念

1 特徵（feature） 
資料的特徵。

舉例：書的內容

2 標籤（label） 
資料的標籤。

舉例：書屬於的類別，例如“計算機”“圖形學”“英文書”“教材”等。

3 學習（learning） 
將很多資料丟給計算機分析，以此 

  
 

    

    
    ml入門系列三監督學習和無監督學習
      tex   tin   swa   core   logging   eba   webapi   handle   5%   %E6%9C%89%E5%85%B3handler%E7%94%A8%E6%B3%95%E6%B1%82%E5%8A%A9%E5%95%8A
aspnetcoremvc?????÷ 

  
 

    

    
    監督學習，無監督學習和半監督學習
      思想   learn   尋找   很多   ear   目標   dsm   工作   變量   概念：監督學習、無監督學習與半監督學習


監督學習 ： supervised learning 無監督學習 ： unsupervised learning 半監督學習 ： semi-supervised le 

  
 

    

    
    有監督學習和無監督學習
      得到   機器學習   事先   分辨   是什麽   輸入數據   評價   一個   style   機器學習的常用方法，主要分為有監督學習(supervised learning)和無監督學習(unsupervised learning)。
 
　　監督學習，就是人們常說的分類，通過已有的訓練樣本（即已 

  
 

    

    
    有監督學習、無監督學習、半監督學習
      class   tail   detail   局部特征   連續   tails   cannot   得到   ica   1.有監督學習：教計算機如何做事情。
　　對於機器學習來說，有監督學習就是訓練數據既有特征又有標簽，通過訓練，讓機器可以自己找到特征和標簽之間的聯系，在面對只有特征沒有標簽的數據時，