1. 程式人生 > >第九章 聚類 Clustering

第九章 聚類 Clustering

第九章 聚類

(Unsupervised Learning)無監督學習:
    訓練樣本的標記資訊是未知的,通過對無標記資料的訓練來找出資料內部所存在的規律以及性質.為進一步的資料分析打下基礎

1.知識點

聚類過程中會自動的形成簇結構,但是演算法對簇(cluster)沒有概念,這是在運算過程中自己出現的聚類現象,這個簇的名字需要自己來進行定義

聚類可作為一個單獨的過程來完成,用於去尋找資料的內部性質及分佈結構,當然也可以作為分類等其他學習任務的前驅過程.

當對資料的類不是很明確的時候,可以將資料先進行聚類,根據聚類結果將每個簇定義為一個類,再基於這些類進行訓練分類模型

效能度量(performance measure)

效能度量也叫聚類的”有效性指標(validity index)”
物以類聚:
    簇內相似度高,簇間相似度低.

%E9%80%89%E5%8C%BA_001.png

%E9%80%89%E5%8C%BA_002.png

距離計算(distance measure)

%E9%80%89%E5%8C%BA_003.png

閔科夫斯基距離,這是一種最常用的距離
可以變形成歐式距離和曼哈頓距離(典型的街區距離公式)  這都是經典的距離公式.

一個小插曲:公式在推導過程中經常會強調不失一般性,這個"不失一般性"是什麼意思?

原型聚類:第一步原型的初始化,第二步對根據不同的公式進行迭代優化更新求解.

K-means演算法,根據最小平方差公式(最小二乘法)來進行迭代優化

遞迴&迭代

簡單來說:遞迴就是函式不斷的呼叫自己,
     迭代就是函式A不斷呼叫函式B的過程

知識點有點複雜,相對知識較多,還沒有完整的理論體系,先不著急學習.