1. 程式人生 > >機器學習筆記(十三):降維

機器學習筆記(十三):降維

目錄

1)Motivation 1:Data Compression

2)Motivation 2: Data Visualization

3)Principal Component Analysis problem formulation

4)Principal Component Analysis algorithm

5)Advice for applying PCA


1)Motivation 1:Data Compression

無監督學習第二個演算法:降維,降維有兩個目的:1是資料壓縮,2是視覺化,資料壓縮就是減少特徵。工業中我們常常會碰到上萬的特徵,這是我們就需要壓縮資料,找出其中重要的特徵。下面是3維壓縮為2維的例子:

2)Motivation 2: Data Visualization

能將資料視覺化的話對我們處理問題很有幫助,下面是關於幾個國家GDP視覺化的例子:

3)Principal Component Analysis problem formulation

主成分分析是常見的降維方法。

需要注意的是:主成分分析不是線性迴歸。

主成分分析是最小化投射誤差,線性迴歸是最小化預測誤差。下圖左面是線性迴歸,右邊是主成分分析。

 

4)Principal Component Analysis algorithm

下面介紹PCA演算法:

1)均值歸一化:\frac{x^{(i)}-u_j}{s_j}

2)計算協方差矩陣:\sum=\frac{1}{m}\sum_{i=1}^{n}(x^{(i)})(x^{(i)})^T

3)計算協方差矩陣的特徵向量;

5)Advice for applying PCA

使用從訓練集得來特徵向量;

PCA不宜用來防止過擬合;

PCA不是必要的機器學習過程;