1. 程式人生 > >主成分分析及應用

主成分分析及應用

PCA是一種統計方法,常用於解決資料降維、演算法加速和資料視覺化等問題,背後的數學工具是SVD。

一、主成分分析的內涵

通過正交變換將一組個數較多的、彼此相關的、意義單一的指標變數轉化為個數較少的、彼此不相關的、意義綜合的指標變數。轉換後的這組

變數叫主成分。

二、關於降維

1.必要性

(1)多重共線性——預測變數間相互關聯。多重共線性會導致解空間的不穩定,從而可能導致結果的不連貫。

(2)高維空間本身具有稀疏性。一維正態分佈有68%的值落在正負標準差之間,而在十維空間上只有0.02%。

(3)過多的變數會妨礙查詢規律的建立。

(4)僅在變數層面上分析可能會忽略變數間的潛在聯絡。

2.目的

(1)減少預測變數的個數

(2)確保這些變數相互獨立

(3)提供一個框架來解釋結果

3.方法

(1)PCA(2)因子分析(3)使用者自定義複合

三、基本原理

將彼此相關的變數轉變為彼此不相關的變數;方差較大的幾個新變數就能綜合反映原多個變數所包含的主要資訊;新變數各自帶有獨特含義。

四、預備知識

計算協方差矩陣通常用以下簡化方法:先讓樣本矩陣中心化,即每一維度減去該維度的均值,然後直接用得到的樣本矩陣乘上它的轉置,再除以N-1