資料學習(5)·K-means 聚類和PCA演算法

阿新 • • 發佈：2019-01-14

作者的課堂筆記[email protected]

Preview

K-means 聚類
主成分分析（Principal Component Analysis）

無監督學習

和有監督學習類似，但是資料沒有標籤。給定輸入資料，發現簡化的特徵，同時和輸入的特徵擁有同樣的資訊量。
一般來說，好的表示一般是低維度的，或者是稀疏表示的，也就是說大部分是0，又或者是獨立的表示。

1 K-means 聚類問題

輸入資料 ${x$

( 1 ) . . . . . x

( m ) } , x ( i

) ∈ R d \{x^{(1)}.....x^{(m)}\},x^{(i)}\in R^d

{x^{(1)} . . . . . x^{(m)}}, x^{(i)} \in R^{d}

,K-means聚類將輸入資料分成k類,

k≤n

來最小化每個類別內的平方和(WCSS).

argmin_C\sum_{j=1}^k\sum_{x\in C_j}||x-\mu_j||^2

等價問題：

最小化每個類內的方差 $\sum_{j=1}^k|C_j|Var(C_j)$ .
最小化點之間的成對平方偏差在同一叢集中： $\sum_{i=1}^k\frac{1}{2|C_i|}\sum_{x,x`\in C_i}||x-x`||^2$
最大化類與類之間的距離（BCSS）.

1.1 K-means聚類演算法

優化K-means聚類是一個NP-hard問題，在歐式空間中。
通常通過啟發式，迭代演算法。
Lloyd’s 演算法

1.2 K-means聚類討論

K-means學習k維的稀疏表示，比如x使用one-hot編碼， $z\in R^k$ .
$z_j^{(i)}=1 \quad if \quad c^{(i)}=j，otherwise \quad0$
演算法收斂於區域性最優解，所以初始值的選擇很重要！
怎樣初始化 $\mu$ ？均勻隨機抽樣（K-means++）,或者基於距離的取樣。
怎麼選擇K？交叉驗證或者G-means。

2 PCA(Principal Component Analysis)

消除特徵之間的相關性，同時減少噪音。
給出 $\{x^{(1)},...,x^{(m)}\},x^{(i)}\in R^n$ .

發現一個線性的正交變換W： $R^n-R^k$ 針對輸入資料。
W 是將最大方差的方向和新座標軸的方向對齊。
正則化x,以便讓 $mean(x)=0,Stdev(x_j)=1$
$x^{(i)}:=x^{(i)}-Mean(x)$
$x^{(i)}_j:=x^{(i)}_j/Stdev(x_j)$

2.1 PCA表示學習

PCA 目標：

發現主要的組成 $u_1,.....,u_n$ 他們相互正交，也就是不相關。
$x$ 的大部分變化將由 $k<<n$ 的 $k$ 個主成分來解釋。

PCA 的主要操作：

發現 $x$ 的投影， $u_1^Tx$ 覆蓋最大的方差。
對 $j=1,2,....,n$ 同樣上述操作，找出互相正交的 $u_1,.....,u_j$ 個方向。

2.2 尋找主成分

投影的方差：
$\frac{1}{m} \sum_{i = 1}^{m} (x^{(i)^{T}} u)^{2} = \frac{1}{m} \sum_{i = 1}^{m} u^{T} x^{(i)} x^{(i)^{T}} u = u^{T} (\frac{1}{m} \sum_{i = 1}^{m} x$

資料學習(5)·K-means 聚類和PCA演算法

作者的課堂筆記[email protected] Preview K-means 聚類主成分分析（Principal Component Analysis）無監督學習和有監督學習類似，但是資料沒有標籤。給定輸入資料，

機器學習公開課筆記(8)：k-means聚類和PCA降維

K-Means演算法非監督式學習對一組無標籤的資料試圖發現其內在的結構，主要用途包括：市場劃分（Market Segmentation）社交網路分析（Social Network Analysis）管理計算機叢集（Organize Computer Clusters）天文學資料分析（A

吳恩達老師機器學習筆記K-means聚類演算法（二）

運用K-means聚類演算法進行影象壓縮趁熱打鐵，修改之前的演算法來做第二個練習—影象壓縮原始圖片如下：程式碼如下： X =imread('bird.png'); % 讀取圖片 X =im2double(X); % unit8轉成double型別 [m,n,z]=size

吳恩達老師機器學習筆記K-means聚類演算法（一）

今天接著學習聚類演算法以後堅決要八點之前起床學習！不要浪費每一個早晨。 K-means聚類演算法聚類過程如下：原理基本就是先從樣本中隨機選擇聚類中心，計算樣本到聚類中心的距離，選擇樣本最近的中心作為該樣本的類別。最後某一類樣本的座標平均值作為新聚類中心的座標，如此往復。原

機器學習--無監督學習之K-means聚類方法

一、引言從上次SVM之後幾節課講的是學習理論，這塊理論性比較深，我得好好消化一下。所以先總結一下第一個無監督的機器學習演算法，K-means聚類方法。所謂無監督學習，就是資料樣本沒有標籤，要讓學習演算法自己去發現數據之間內在的一些結構和規律。就好比做題沒有標準答案，所以

【機器學習】K-means聚類演算法初探

資料聚類是對於靜態資料分析的一門技術，在許多領域內都被廣泛地應用，包括機器學習、資料探勘、模式識別、影象分析、資訊檢索以及生物資訊等。聚類是把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集，這樣讓在同一個子集中的成員物件都有相似的一些屬性，常見的包括在座標系中

python機器學習：K-means聚類演算法

為了更好構建關於機器學習的整體架構，多快好省的學好機器學習，計劃提綱挈領的總結一遍，從演算法的執行流程、虛擬碼流程構建、python程式碼實現、呼叫sklearn機器學習庫相關函式實現功能等方面論述，以便以後自己複習和備查，下面先從k-means演算法開始。一

R語言實戰k-means聚類和關聯規則演算法

1、R語言關於k-means聚類資料集格式如下所示： ,河東路與嶴東路&河東路與聚賢橋路,河東路與嶴東路&新悅路與嶴東路,河東路與嶴東路&火炬路與聚賢橋路,河東路與嶴東路&

scikit-learn學習之K-means聚類演算法與 Mini Batch K-Means演算法

======================================================================本系列部落格主要參考 Scikit-Learn 官方網站上的每一個演算法進行，並進行部分翻譯，如有錯誤，請大家指正轉載請註明出

scikit-learn學習之K-means聚類演算法與 Mini Batch K-Means演算法 [轉自別的作者，還有其他sklearn翻譯]

http://blog.csdn.net/gamer_gyt/article/details/51244850 ====================================================================== 本系列部落格主要

Andrew Ng機器學習課程筆記（十二）之無監督學習之K-means聚類演算法

Preface Unsupervised Learning（無監督學習） K-means聚類演算法 Unsupervised Learning 我們以前介紹的所有演算法都是基於有類別標籤的資料集，當我們對於沒有標籤的資料進行分類時，以前的方

K-means聚類與PCA【Coursera 斯坦福機器學習】

本文基於Coursera 斯坦福吳恩達機器學習課程謝絕任何不標記出處的轉載如有問題請聯絡作者所有非手畫影象（除公式）均來自課程侵刪————————————————————————————————————————————————1. 無監督學習簡介 unsupervised l

機器學習之K-means聚類演算法

k均值演算法的計算過程非常直觀： 1、從D中隨機取k個元素，作為k個簇的各自的中心。 2、分別計算剩下的元素到k個簇中心的相異度，將這些元素分別劃歸到相異度最低的簇。 3、根據聚類結果，重新計算k個簇各自的中心，計算方法是取簇

非監督學習之k-means聚類演算法——Andrew Ng機器學習筆記（九）

寫在前面的話在聚類問題中，我們給定一個訓練集，演算法根據某種策略將訓練集分成若干類。在監督式學習中，訓練集中每一個數據都有一個標籤，但是在分類問題中沒有，所以類似的我們可以將聚類演算法稱之為非監督式學習演算法。這兩種演算法最大的區別還在於：監督式學習有正確答

Scikit-Learn學習筆記——k-means聚類：影象識別、色彩壓縮

k-means聚類 k-means是一種無監督學習模型——聚類演算法的一種演算法。k-means演算法可以在不帶標籤的多維資料集中尋找確定數量的簇。最優的聚類結果需要符合一下兩個假設 “簇中心點“是屬於該簇的所有資料點座標的算術平

機器學習中K-means聚類演算法原理及C語言實現

本人以前主要focus在傳統音訊的軟體開發，接觸到的演算法主要是音訊訊號處理相關的，如各種編解碼演算法和回聲消除演算法等。最近切到語音識別上，接觸到的演算法就變成了各種機器學習演算法，如GMM等。K-means作為其中比較簡單的一種肯定是要好好掌握的。今天就講講K-means的基本原理和程式碼實現。其中基本原

聚類之K均值聚類和EM演算法

這篇部落格整理K均值聚類的內容，包括： 1、K均值聚類的原理； 2、初始類中心的選擇和類別數K的確定； 3、K均值聚類和EM演算法、高斯混合模型的關係。一、K均值聚類的原理 K均值聚類（K-means）是一種基於中心的聚類演算法，通過迭代，將樣本分到K個類中，使得每個樣本與其所屬類

數學模型：3.非監督學習--聚類分析和K-means聚類

rand tar 聚類分析復制 clust tle 降維算法 generator pro 1. 聚類分析聚類分析（cluster analysis）是一組將研究對象分為相對同質的群組（clusters）的統計分析技術 ---->> 將觀測對象的群體按照

【轉】使用scipy進行層次聚類和k-means聚類

歐氏距離 generate https then con method 感覺 long average scipy cluster庫簡介 scipy.cluster是scipy下的一個做聚類的package, 共包含了兩類聚類方法: 1. 矢量量化(scipy.cluste

CS229 Machine Learning學習筆記:Note 7(K-means聚類、高斯混合模型、EM算法)

learn 不同的 inf ear 公式 course splay alt spa K-means聚類 ng在coursera的機器學習課上已經講過K-means聚類，這裏不再贅述高斯混合模型問題描述聚類問題：給定訓練集\(\{x^{(1)},\cdots,x^{(m

資料學習(5)·K-means 聚類和PCA演算法

Preview

無監督學習

1 K-means 聚類問題

1.1 K-means聚類演算法

1.2 K-means聚類討論

2 PCA(Principal Component Analysis)

2.1 PCA表示學習

2.2 尋找主成分

相關推薦