機器學習筆記(十三):降維
阿新 • • 發佈:2018-12-12
目錄
1)Motivation 1:Data Compression
2)Motivation 2: Data Visualization
3)Principal Component Analysis problem formulation
4)Principal Component Analysis algorithm
1)Motivation 1:Data Compression
無監督學習第二個演算法:降維,降維有兩個目的:1是資料壓縮,2是視覺化,資料壓縮就是減少特徵。工業中我們常常會碰到上萬的特徵,這是我們就需要壓縮資料,找出其中重要的特徵。下面是3維壓縮為2維的例子:
2)Motivation 2: Data Visualization
能將資料視覺化的話對我們處理問題很有幫助,下面是關於幾個國家GDP視覺化的例子:
3)Principal Component Analysis problem formulation
主成分分析是常見的降維方法。
需要注意的是:主成分分析不是線性迴歸。
主成分分析是最小化投射誤差,線性迴歸是最小化預測誤差。下圖左面是線性迴歸,右邊是主成分分析。
4)Principal Component Analysis algorithm
下面介紹PCA演算法:
1)均值歸一化:
2)計算協方差矩陣:
3)計算協方差矩陣的特徵向量;
5)Advice for applying PCA
使用從訓練集得來特徵向量;
PCA不宜用來防止過擬合;
PCA不是必要的機器學習過程;