第四章 PCA降維
1. PCA降維
PCA:主成分分析(Principe conponents Analysis)
2. 維度的概念
一般認為時間的一維,而空間的維度,眾說紛紜。霍金認為空間是10維的。
3. 為什麼要進行降維?
維度災難:當維度超過一定值的時候,分類器效果呈現明顯下降。
PCA旨在找到資料中的主成分,並利用這些主成分表徵原始資料,從而達到降維的目的。舉一個簡單的例子,在三維空間中有一系列資料點,這些點分佈在一個過原點的平面上。如果我們用自然座標系x,y,z三個軸來表示資料,就需要使用三個維度。而實際上,這些點只出現在一個二維平面上,如果我們通過座標系旋轉變換使得資料所在平面與x,y平面重合,那麼我們就可以通過x,y兩個維度表達原始資料,並且沒有任何損失,這樣就完成了資料的降維。而x,y兩個軸所包含的資訊就是我們要找到的主成分。
4. 目標
提取最有價值的資訊(基於方差)
5. 降維後的資料的意義?
降維後物理意義變得模糊,但是不影響我們去後續做分類、預測等的結果。
6. PCA推導過程
7. 結論
- 我們要找最大的方差也就是協方差矩陣最大的特徵值;
- 最佳投影方向就是最大特徵值對應的特徵向量
- 次佳投影方向位於最佳投影方向的正交空間中,是第二大特徵值對應的特徵向量
求解步驟:
- 對樣本資料進行中心化處理
- 求協方差矩陣
- 對協方差矩陣進行特徵值分解,將特徵值從到小排列
- 取特徵值前d大對應的特徵向量w1, w2, ..., wd。通過對映關係將n維樣本對映到d維空間。
降維後的資訊佔比定義為:
