1. 程式人生 > >八 聚類分析:基本概念和演算法1

八 聚類分析:基本概念和演算法1

8.1 概述

8.1.1 什麼是聚類分析

聚類分析是根據在資料中發現的描述物件及其關係,將資料物件分組。
聚類分析目標是組內的物件互相之間是相似的,而不同組中的物件是不同的。
聚類與分類:聚類分析可以理解為非監督分類

8.1.2 不同的聚類型別

層次的與劃分的:簇的集合是巢狀還是非巢狀
互斥的、重疊的與模糊的:模糊聚類中每一個物件相對於每個簇都有一個隸屬權值
完全的與部分的:是否將每一個物件都必須歸為某一簇

8.1.3 不同的簇型別

明顯分離的
基於原型的:球形(k均值)
基於圖的
基於密度:簇就是物件的稠密區,被低密度的區域環繞(凝聚的層次聚類,DBSCAN)
共同性質的

8.2 k均值

K均值用質心定義原型,質心是一組值的均值
K中心點使用中心點定義原型,中心點是一組點中最具代表性的點

8.2.1 基本K均值演算法

在這裡插入圖片描述
1.指派點到最近的質心
鄰近度來量化所考慮資料的最近概念
2.質心和目標函式
聚類目標通常用一個目標函式表示,該函式依賴於點之間,或點到簇的質心的鄰近性
歐幾里得空間中的資料:
誤差平方和SSE作為度量聚類質量的目標函式
在這裡插入圖片描述
文件資料
在這裡插入圖片描述
一般情況:
在這裡插入圖片描述
3.選擇初始質心
隨機選取初始質心——>>選取樣本

8.2.2 K均值:附加的問題

1.處理空簇:替補質心
2.離群點
3.用後處理降低SSE:簇的分裂和合並
4.增量地更新質心

8.2.3 二分K均值

在這裡插入圖片描述

8.2.4 K均值和不同的簇型別

K均值適應於球形簇,無法處理非球形簇、不同尺寸和不同密度的簇。
自然簇;自然簇的子簇

8.2.5 優點與缺點

8.2.6 K均值作為優化問題

最小化SSE的目標函式:梯度下降法
1.作為最小化SSE的演算法推導K均值
在這裡插入圖片描述
在這裡插入圖片描述
求偏導,令偏導=0:
在這裡插入圖片描述
正如前面指出,簇的最小化SSE的最佳質心是簇中各點的均值
2.為SAE(絕對誤差和)推導K均值
在這裡插入圖片描述
求偏導,令偏導=0:
在這裡插入圖片描述
在這裡插入圖片描述