資料學習(5)·K-means 聚類和PCA演算法
阿新 • • 發佈:2019-01-14
作者的課堂筆記[email protected]
Preview
- K-means 聚類
- 主成分分析(Principal Component Analysis)
無監督學習
和有監督學習類似,但是資料沒有標籤。給定輸入資料,發現簡化的特徵,同時和輸入的特徵擁有同樣的資訊量。
一般來說,好的表示一般是低維度的,或者是稀疏表示的,也就是說大部分是0,又或者是獨立的表示。
1 K-means 聚類問題
輸入資料
,K-means聚類將輸入資料分成k類,
來最小化每個類別內的平方和(WCSS).
等價問題:
- 最小化每個類內的方差 .
- 最小化點之間的成對平方偏差在同一叢集中:
- 最大化類與類之間的距離(BCSS).
1.1 K-means聚類演算法
- 優化K-means聚類是一個NP-hard問題,在歐式空間中。
- 通常通過啟發式,迭代演算法。
Lloyd’s 演算法
1.2 K-means聚類討論
- K-means學習k維的稀疏表示,比如x使用one-hot編碼,
.
演算法收斂於區域性最優解,所以初始值的選擇很重要! - 怎樣初始化 ?均勻隨機抽樣(K-means++),或者基於距離的取樣。
- 怎麼選擇K?交叉驗證或者G-means。
2 PCA(Principal Component Analysis)
消除特徵之間的相關性,同時減少噪音。
給出
.
- 發現一個線性的正交變換W: 針對輸入資料。
- W 是將最大方差的方向和新座標軸的方向對齊。
正則化x,以便讓 -
2.1 PCA表示學習
PCA 目標:
- 發現主要的組成 他們相互正交,也就是不相關。
- 的大部分變化將由 的 個主成分來解釋。
PCA 的主要操作:
- 發現 的投影, 覆蓋最大的方差。
- 對 同樣上述操作,找出互相正交的 個方向。
2.2 尋找主成分
投影的方差: