機器學習之層次聚類及程式碼示例

阿新 • • 發佈：2018-12-31

一、層次聚類

層次聚類是無監督學習方法，可對給定的N個待聚類的樣本進行層次的分類，直到某種條件（類的個數、類間的距離超過某個閾值）滿足為止。

1、層次聚類的劃分

對於層次聚類，可具體分為：

a. 凝聚的（agglomerative）層次聚類：

採用自底向上的策略：先將每個樣本作為一個簇（類），然後不斷地計算各個類之間的相似度/距離、併合並最相近的兩個類成一個大類，直到某個終止條件滿足為止。（可與哈夫曼編碼演算法作類比）

b. 分裂的（divisive）層次聚類：

採用自頂向下的策略，先將所有樣本置於一個簇（類）中，然後根據一些原則逐漸細分為越來越小的類，直到某個終止條件滿足為止。（可與決策樹演算法作類比）

2、類間的距離

在整個聚類的過程中，往往需要計算兩個類的距離來進行凝聚/分隔的操作或者停止迭代的操作。判斷兩個類之間的距離/相似度可有以下三種方法：

a. SingleLinkage/Nearest-Neighbor：

取兩個類中距離最近的兩個樣本的距離作為這兩個類的距離。即最近兩個樣本之間的距離越小，這兩個類的距離就越小。這種計算方法可能導致聚類的結果比較鬆散，且這種鬆散的效應會越來越大。比如當兩個類總體上離得比較遠，但卻有對個別的點比較接近的情況。

b. CompleteLinkage：

取兩個集合中距離最遠的兩個點的距離作為這兩個類的距離，是SingleLinkage的反面極端情況。這種計算方法可能導致兩個類因為個別的點而無法合併成一個類。

c. Average-linkage：

取兩個類中的點兩兩的距離全部加在一起求平均值。這種方法得到的結果可能會受到個別點兩兩的距離的影響（偏大/偏小）。

d. Median-linkage / UCLUS：

median-linkage是average-linkage的一個變種，取兩個類中的點兩兩的距離全部加在一起取中值作為兩個類的距離。取中值與取均值相比，更加能夠減少個人偏移樣本對結果的干擾。

e. Centroids：

先分別計算出兩個類的聚類中心，再取兩個聚類中心的距離作為兩個類的距離。

f. Ward’s method

假設先將兩個類進行合併，得到合併後那個新cluster的均值點；再計算兩個類中的每個點x到均值點的距離，再平方後加起來的結果即兩個類的距離。

公式表示為這裡寫圖片描述，其中為合併後那個新cluster的中心點（均值點）

二、程式碼示例：

from sklearn.datasets.samples_generator import make_moons

X,y_true = make_moons(n_samples=1000,noise=0.05)

import matplotlib.pyplot as plt

plt.scatter(X[:,0],X[:,1],c=y_true)
plt.show()

這裡寫圖片描述

from sklearn.cluster import AgglomerativeClustering
import time

t0 = time.time()
ward  = AgglomerativeClustering(n_clusters=2,affinity='euclidean',linkage='ward',compute_full_tree='false').fit(X)
t = time.time() - t0

plt.scatter(X[:, 0], X[:, 1], c=ward.labels_)
plt.title('time : %f'%t)
plt.show()

這裡寫圖片描述

from sklearn.cluster import KMeans

t0 = time.time()
kmeans = KMeans(init = 'k-means++',n_clusters=2, random_state=8).fit(X)
t = time.time() - t0

plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_)
plt.title('time : %f'%t)
plt.show()

這裡寫圖片描述

不難看出：基於距離的聚類演算法（劃分聚類、層次聚類），一般很難發現非凸形狀的集合或者大小差別很大的集合。

機器學習之層次聚類及程式碼示例

一、層次聚類層次聚類是無監督學習方法，可對給定的N個待聚類的樣本進行層次的分類，直到某種條件（類的個數、類間的距離超過某個閾值）滿足為止。 1、層次聚類的劃分對於層次聚類，可具體分為： a. 凝聚的（agglomerative）層次聚類：採用

機器學習之劃分聚類及程式碼示例

一、聚類聚類是一種無監督學習，根據樣本的內在相似性/距離，將大量未知標記的樣本集劃分為多個類別，使得同一個類別內的樣本相似度較大（距離較小），而不同類別間的樣本相似度較小（距離較大）。劃分聚類包含K-Means、Bisecting K-Means（二分K

機器學習-*-K均值聚類及程式碼實現

KMeans聚類在聚類演算法中，最出名的應該就是k均值聚類(KMeans)了，幾乎所有的資料探勘/機器學習書籍都會介紹它，有些初學者還會將其與KNN等混淆。k均值是一種聚類演算法，屬於無監督學習的一種，而KNN是有監督學習/分類學習的一種。聚類：顧名思義，就是講某些相似的事物聚在

機器學習之層次聚類演算法

層次聚類（Hierarchical Clustering）是對給定資料集在不同層次進行劃分，形成樹形的聚類結構，直到滿足某種停止條件為止。資料集的劃分可採用自底向上或自頂向下的劃分策略。1、凝聚的層次聚類演算法AGNES AGNES（AGglom

機器學習(4)--層次聚類(hierarchical clustering)基本原理及實現簡單圖片分類

關於層次聚類(hierarchical clustering)的基本步驟： 1、假設每個樣本為一類，計算每個類的距離，也就是相似度 2、把最近的兩個合為一新類，這樣類別數量就少了一個 3、重新新類與各個舊類(去了那兩個合併的類)之間的相似度； 4、迴圈重複2和3直到所有樣本

Python機器學習——Agglomerative層次聚類

條件分享圖片 n-2 mov unique ber and 兩個 its 層次聚類（hierarchical clustering）可在不同層次上對數據集進行劃分，形成樹狀的聚類結構。AggregativeClustering是一種常用的層次聚類算法。 ??其原理是：最初

機器學習之DBSCAN聚類

機器學習之DBSCAN聚類 # -*- coding: utf-8 -*- """ Created on Wed Nov 28 18:50:57 2018 @author: muli """ import numpy as np from sklearn.datas

機器學習之kMeans聚類

機器學習之kMeans聚類 # -*- coding: utf-8 -*- """ Created on Wed Nov 28 16:23:36 2018 @author: muli """ from sklearn.datasets.samples_generat

【機器學習】層次聚類

寫在篇前層次聚類（hierarchical clustering）是一種通用的聚類演算法之一，它通過自下而上合併或自上而下拆分來構建巢狀聚類。這種簇的層次結構表示為樹（或樹狀圖），樹的根匯聚所有樣本，樹的葉子是各個樣本。本篇部落格會簡述層次聚類的原理，重點

機器學習-K均值聚類(python3程式碼實現)

K均值聚類哈爾濱工程大學-537 演算法原理： K均值是發現給定資料集的kk個簇的演算法。簇個數kk是使用者給定的，每一個簇通過其質心(centroid)，即簇中所有點的中心來描述。 K均值演算法的工作流程是：首先隨機確定kk個初始點作為質心。然後

Spark機器學習之-實時聚類演算法呼叫

Spark MLIB中的Kmenas聚類演算法，資料通過SparkStreaming 實時拉取kafka中的資料，並呼叫已經訓練好的聚類模型；根據讀取的資料實時的進行分類package com.demo.cn.streaming import org.apache.kafk

機器學習之--kmeans聚類簡單算法實例

rpo src datasets += atp 中心 ets att erp import numpy as np import sklearn.datasets #加載原數據 import matplotlib.pyplot as plt

機器學習-*-DBSCAN聚類及程式碼實現

DBSCAN DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪聲的基於密度的聚類方法) 原理首先描述以下幾個概念，假設我們有資料集

《Python機器學習及實踐》----無監督學習之資料聚類

本片部落格是根據《Python機器學習及實踐》一書中的例項，所有程式碼均在本地編譯通過。資料為從該書指定的百度網盤上下載的，或者是sklearn自帶資料下載到本地使用的。程式碼片段： # coding: utf-8 # 分別匯入numpy、matplot

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

一、層次聚類 BIRCH演算法詳細介紹以及sklearn中的應用如下面部落格連結： http://www.cnblogs.com/pinard/p/6179132.html http://www.cnblogs.com/pinard/p/62

機器學習中的聚類演算法演變及學習筆記

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[認真看圖][認真看圖] 【補充說明】聚類演算法可以作為獨立方法將資料聚成不同簇，也可以作為資料探勘任務（例如分類、關聯規則等）的預處理！【補充說明】聚類演算法與分類演算法的主要區別在於訓練時的樣本有無

【機器學習】---密度聚類從初識到應用

max 一個 eight log div 指定聚類空間 mar 一.前述密度聚類是一種能降噪的算法。二.相關概念先看些抽象的概念（官方定義）： 1.：對象O的是與O為中心，為半徑的空間，參數，是用戶指定每個對象的領域半徑值。 2.MinPts（領域密度閥值）：對象

[吳恩達機器學習筆記]13聚類K-means

沒有 rand 幫助聯系 method ima 運用重新 function 13.聚類覺得有用的話,歡迎一起討論相互學習~Follow Me 13.1無監督學習簡介從監督學習到無監督學習在一個典型的監督學習中，我們有一個有標簽的訓練集，我們的目標是找到能夠區分正

機器學習實戰DBSCN聚類

# !/usr/bin/python # -*- coding:utf-8 -*- import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as ds import matplotlib.colors f

聚類分析（三）層次聚類及matlab程式

一、層次聚類介紹 1.1 簡介層次聚類，主要是對給定的待聚類的資料集進行層次化分解。主要分為兩大類： 1.從下到上的凝聚聚類 2.從上到下的分裂聚類其他演算法大部分是對樣本之間距離度量或者類間凝聚/分裂依據進行改進。 1.2從下到上的凝聚演算法從下到上的凝聚演算法能夠讓人們較為直觀的觀

機器學習之層次聚類及程式碼示例

一、層次聚類

1、層次聚類的劃分

2、類間的距離

二、程式碼示例：

相關推薦