1. 程式人生 > >主成分(PCA)降維

主成分(PCA)降維

主成分降維:
主成分分析法是一種數學變換的方法,它把給定的一組相關變數通過線性變換轉成
另一組不相關的變數,這些新的變數按照方差依次遞減的順序排列。在數學變換
中保持變數的總方差不變,使第一變數具有最大的方差,稱為第一主成分,第二
變數的方差次大,並且和第一變數不相關,稱為第二主成分。依次類推,個變數
就有個主成分。
其中維正交化向量(),之間互不相關且按照方差由大到小排列,
則稱的第個主成分。設的協方差矩陣為,則必為半正定對稱矩陣,求特
徵值(按從大到小排序)及其特徵向量,可以證明,所對應的正交化特徵向量,
即為第個主成分所對應的係數向量,而的方差貢獻率定義為,通常要求
提取的主成分的數量

滿足

基本思想
PCA的基本原理就是將一個矩陣中的樣本資料投影到一個新的空間中去。對於一個矩
陣來說,將其對角化即產生特徵根及特徵向量的過程,也是將其在標準正交基上投影
的過程,而特徵值對應的即為該特徵向量方向上的投影長度,因此該方向上攜帶的原
有資料的資訊越多

目的
希望用較少的變數去解釋原來資料中的大部分變數,將我們手中許多相關性很高的變
量轉化成彼此相互獨立或不相關的變數。通常是選出比原始變數個數少,能解釋大部
分資料中變數的幾個新變數,即所謂主成分,並用以解釋資料的綜合性指標。

分析步驟
將原始資料按行排列組成矩陣
進行資料標準化,使其均值變為零
的協方差矩陣C
將特徵向量按特徵值由大到小排列,取前

個按行組成矩陣
通過計算,得到降維後資料
用下式計算每個特徵根的貢獻率;
根據特徵根及其特徵向量解釋主成分物理意義。

基於主成分分析的指標篩選原理
(1)因子載荷的原理
通過對剩餘多個指標進行主成分分析,得到每個指標的因子載荷。因子載荷的絕
對值小於等於1,而絕對值越是趨向於1,指標對評價結果越重要。
(2)基於主成分分析的指標篩選原理
因子載荷反映指標對評價結果的影響程度,因子載荷絕對值越大表示
指標對評價結果越重要,越應該保留;反之,越應該刪除。1通過對相關性分析
篩選後的指標進行主成分分析,得到每個指標的因子載荷,從而刪除因子載荷小
的指標,保證篩選出重要的指標。