機器學習系列1 PCA(主成分分析法)
1.PCA的應用
1.降維
2.去除資料相關性,對資料特徵進行抽取
2.主成分選擇原則
(1)主成分是原來變數的線性組合;
(2)各主成分之間互不相關;
(3)主成分分析的實質就是找到一個正交變換,即有正交陣U,使得一個?維向量
對其做正交變換,滿足Y的各個分量之間是不相關的(即協方差為0),而且?的第一個分量的方差是最大的,第二個次之……
3.主成分分析步驟
1.將原資料中心化
2.對中心化後的資料的協方差矩陣進行特徵值分解
3.對特徵值進行由大到小排序,選擇前幾個比較大的特徵值對應的特徵向量
4.推導過程
假設資料已經中心化
1.正交投影矩陣:一個向量b想向某個已知空間A正交投影,那麼其投影矩陣為 (證明不難可以自己證明一下)
2.SVD分解:
那麼由上,原資料向主成分空間投影
(1)
(2)
PCA就是想找一個單位方向u,其中使得在這個方向上正交投影的長度均值達到最大,換言之就是投影后散佈最大,也就 是資訊保留最多。
問題現在變成求 (3)
即 (4)
對 進行特徵分解,,將特徵值從大到小分好 即
由於SVD的U也是特徵分解得到,所以u可以看作的線性組合
代入(4)式中 變為 (5)
(6)
即當時(4)式成立
當然如果你想使用PCA將原資料降為s維,那麼同樣的推導方式,你將得到
也就是使得
通過以上推導我們就明白了,PCA的演算法步驟
1.將原資料中心化
2.對中心化後的資料的協方差矩陣進行特徵值分解
3.對特徵值進行由大到小排序,選擇前幾個比較大的特徵值對應的特徵向量對X進行投影變換,那麼主成分
r就是你想降維到的維數。