八 聚類分析:基本概念和演算法1
阿新 • • 發佈:2019-02-14
8.1 概述
8.1.1 什麼是聚類分析
聚類分析是根據在資料中發現的描述物件及其關係,將資料物件分組。
聚類分析目標是組內的物件互相之間是相似的,而不同組中的物件是不同的。
聚類與分類:聚類分析可以理解為非監督分類
8.1.2 不同的聚類型別
層次的與劃分的:簇的集合是巢狀還是非巢狀
互斥的、重疊的與模糊的:模糊聚類中每一個物件相對於每個簇都有一個隸屬權值
完全的與部分的:是否將每一個物件都必須歸為某一簇
8.1.3 不同的簇型別
明顯分離的
基於原型的:球形(k均值)
基於圖的
基於密度:簇就是物件的稠密區,被低密度的區域環繞(凝聚的層次聚類,DBSCAN)
共同性質的
8.2 k均值
K均值用質心定義原型,質心是一組值的均值
K中心點使用中心點定義原型,中心點是一組點中最具代表性的點
8.2.1 基本K均值演算法
1.指派點到最近的質心
鄰近度來量化所考慮資料的最近概念
2.質心和目標函式
聚類目標通常用一個目標函式表示,該函式依賴於點之間,或點到簇的質心的鄰近性
歐幾里得空間中的資料:
誤差平方和SSE作為度量聚類質量的目標函式
文件資料
一般情況:
3.選擇初始質心
隨機選取初始質心——>>選取樣本
8.2.2 K均值:附加的問題
1.處理空簇:替補質心
2.離群點
3.用後處理降低SSE:簇的分裂和合並
4.增量地更新質心
8.2.3 二分K均值
8.2.4 K均值和不同的簇型別
K均值適應於球形簇,無法處理非球形簇、不同尺寸和不同密度的簇。
自然簇;自然簇的子簇
8.2.5 優點與缺點
8.2.6 K均值作為優化問題
最小化SSE的目標函式:梯度下降法
1.作為最小化SSE的演算法推導K均值
求偏導,令偏導=0:
正如前面指出,簇的最小化SSE的最佳質心是簇中各點的均值
2.為SAE(絕對誤差和)推導K均值
求偏導,令偏導=0: