1. 程式人生 > >降維算法中的PCA方法

降維算法中的PCA方法

主成分分析 數據分析

1 主成分分析
(Principal Component Analysis,PCA)

2 線性判別分析
(Linear Discriminant Analysis, LDA)
研究背景
基本知識介紹
經典方法介紹
總結討論
問題的提出

地理系統是多要素的復雜系統。在地理學研究中,多變量問題是經常會遇到的。變量太多,無疑會增加分析問題的難度與復雜性,而且在許多實際問題中,多個變量之間是具有一定的相關關系的。

因此,人們會很自然地想到,能否在相關分析的基礎上,用較少的新變量代替原來較多的舊變量,而且使這些較少的新變量盡可能多地保留原來變量所反映的信息?

降維的動機
原始觀察空間中的樣本具有極大的信息冗余
樣本的高維數引發分類器設計的“維數災難”

數據可視化、特征提取、分類與聚類等任務需求
技術分享圖片
技術分享圖片
在進行祝成分分析後後,竟然以97.4%的精度,用三個變量取代了原來的17個變量。
線性降維
通過特征的線性組合來降維
本質上是把數據投影到低維線性子空間
線性方法相對比較簡單且容易計算
代表方法
主成分分析(PCA)
線性判別分析(LDA)
多維尺度變換(MDS)
主成分分析(PCA) [Jolliffe, 1986]
降維目的:尋找能夠保持采樣數據方差的最佳投影子空間
求解方法:對樣本的散度矩陣進行特征值分解, 所求子空間為經過樣本均值, 以最大特征值所對應的特征向量為方向的子空間技術分享圖片
主成分分析(PCA) [Jolliffe, 1986]
PCA對於橢球狀分布的樣本集有很好的效果, 學習所得的主方向就是橢球的主軸方向.
PCA 是一種非監督的算法, 能找到很好地代表所有樣本的方向, 但這個方向對於分類未必是最有利的
技術分享圖片
線性判別分析(LDA) [Fukunaga, 1991]
降維目的:尋找最能把兩類樣本分開的投影直線,使投影後兩類樣本的均值之差與投影樣本的總類散度的比值最大
求解方法:經過推導把原問題轉化為關於樣本集總類內散度矩陣和總類間散度矩陣的廣義特征值問題
技術分享圖片
線性降維方法比較
主成分分析 (PCA) [Jolliffe, 1986]
線性判別分析 (LDA) [Fukunaga, 1991]
技術分享圖片
線性降維方法的不足
技術分享圖片
原始數據無法表示為特征的簡單線性組合
比如:PCA無法表達Helix曲線流形

一、主成分分析的基本原理

假定有n個地理樣本,每個樣本共有p個變量,構成一個n×p 階的地理數據矩陣

技術分享圖片
當p 較大時,在p 維空間中考察問題比較麻煩。為了克服這一困難,就需要進行降維處理,即用較少的幾個綜合指標代替原來較多的變量指標,而且使這些較少的綜合指標既能盡量多地反映原來較多變量指標所反映的信息,同時它們之間又是彼此獨立的。
定義:記x1,x2,…,xP為原變量指標,z1,z2,…,zm(m≤p)為新變量指標
技術分享圖片
系數lij的確定原則:
① zi與zj(i≠j;i,j=1,2,…,m)相互無關;
②z1是x1,x2,…,xP的一切線性組合中方差最大者,z2是與z1不相關的x1,x2,…,xP的所有線性組合中方差最大者;
……
zm是與z1,z2,……,zm-1都不相關的x1,x2,…xP, 的所有線性組合中方差最大者。

則新變量指標z1,z2,…,zm分別稱為原變量指標x1,x2,…,xP的第一,第二,…,第m主成分。
從以上的分析可以看出,主成分分析的實質就是確定原來變量xj(j=1,2 ,…, p)在諸主成分zi(i=1,2,…,m)上的荷載 lij( i=1,2,…,m; j=1,2 ,…,p)。
從數學上容易知道,從數學上可以證明,它們分別是的相關矩陣的m個較大的特征值所對應的特征向量。

 二、計算步驟 

1)構建p*n階的變量矩陣

2)將p*n階的變量矩陣X的每一行(代表一個屬性字段)進行標準化

3)求出協方差矩陣C

4)求出協方差矩陣的特征值及對應的特征向量

5)將特征向量按對應特征值大小從上到下按行排列成矩陣,取前k列組成矩陣P

6)Y=XP即為降維到k維後的數據

降維算法中的PCA方法