1. 程式人生 > >PCA主成分分析 R語言

PCA主成分分析 R語言

number ble 輸入 null Language 差值 rotation test 根據

1. PCA優缺點

  • 利用PCA達到降維目的,避免高維災難。
  • PCA把所有樣本當作一個整體處理,忽略了類別屬性,所以其丟掉的某些屬性可能正好包含了重要的分類信息

2. PCA原理

條件1:給定一個m*n的數據矩陣D, 其協方差矩陣為S. 如果D經過預處理, 使得每個每個屬性的均值均為0, 則有S=DTDS=DTD。

PCA的目標是找到一個滿足如下性質的數據變換:
- 每對不同的新屬性的協方差為0,即屬性間相互獨立;
- 屬性按照每個屬性捕獲的數據方差大小進行排序;
- 第一個屬性捕獲盡可能多的數據方差;
- 滿足正交性的前提下,每個屬性盡可能多的捕獲剩余方差。

條件2:由於協方差矩陣是半正定矩陣,則其具有非負特征值。令

λ1,λ2,...,λnλ1,λ2,...,λn是S的特征值,並且可以排序,保證λ1λ2...λnλ1≥λ2≥...≥λn.令U為S的特征向量矩陣。

因此,有:
- 數據矩陣D=DUD′=DU是變換後的數據集,滿足上述條件;
- 第ii個屬性的方差是λiλi;
- 原屬性的方差和等於新屬性的方差和;
- 新屬性排序即為主成分排序;

通常情況下,我們排序較後的主成分其實為次要成分,基於降維目的,只需選取前m個主成分作為新屬性即可。

3. R中使用PCA

程序

PCA的目標是用一組較少的不相關變量代替大量相關變量,同時盡可能保留初始變量的信息,這些推導所得的變量稱為主成分,它們是觀測變量的線性組合。如第一主成分為:

PC1=a1X1=a2X2+……+akXk 它是k個觀測變量的加權組合,對初始變量集的方差解釋性最大。

#1.載入並清洗處理數據

  read.table()

  ovun.sample()

#2.作主成分分析並顯示分析結果
#princomp()主成分分析 可以從相關陣或者從協方差陣做主成分分析
#cor是邏輯變量當cor=TRUE表示用樣本的相關矩陣R做主成分分析
#當cor=FALSE表示用樣本的協方差陣S做主成分分析
  test.pr<-princomp(dbboth,cor=TRUE)
#summary()提取主成分信息
#loading是邏輯變量當loading=TRUE時表示顯示loading 的內容
#loadings的輸出結果為載荷是主成分對應於原始變量的系數即Q矩陣
  summary(test.pr,loadings=TRUE)
# 分析結果含義
# #----Standard deviation 標準差 其平方為方差=特征值
# #----Proportion of Variance 方差貢獻率
# #----Cumulative Proportion 方差累計貢獻率

技術分享圖片
#4.畫主成分的碎石圖並預測
screeplot(test.pr,type="lines")
p<-predict(test.pr)
p

技術分享圖片

#biplot()畫出數據關於主成分的散點圖和原坐標在主成分下的方向

轉https://blog.csdn.net/lilanfeng1991/article/details/36190841

主成分分析(PCA)是一種數據降維技巧,它能將大量相關變量轉化為一組很少的不相關變量,這些無關變量稱為主成分。

探索性因子分析(EFA)是一系列用來發現一組變量的潛在結構的方法,通過尋找一組更小 的、潛在的或隱藏的結構來解釋已觀測到的、變量間的關系。

1.R中的主成分和因子分析

R的基礎安裝包中提供了PCA和EFA的函數,分別為princomp ()和factanal()

psych包中有用的因子分析函數

函數 描述 
principal() 含多種可選的方差放置方法的主成分分析
fa() 可用主軸、最小殘差、加權最小平方或最大似然法估計的因子分析
fa.parallel() 含平等分析的碎石圖
factor.plot() 繪制因子分析或主成分分析的結果
fa.diagram() 繪制因子分析或主成分分析的載荷矩陣
scree() 因子分析和主成分分析的碎石圖

PCA/EFA 分析流程:

(1)數據預處理;PCA和EFA都是根據觀測變量間的相關性來推導結果。用戶可以輸入原始數據矩陣或相關系數矩陣列到principal()和fa()函數中,若輸出初始結果,相關系數矩陣將會被自動計算,在計算前請確保數據中沒有缺失值;

(2)選擇因子分析模型。判斷是PCA(數據降維)還是EFA(發現潛在結構)更符合你的分析目標。若選擇EFA方法時,還需要選擇一種估計因子模型的方法(如最大似然估計)。

(3)判斷要選擇的主成分/因子數目;

(4)選擇主成分/因子;

(5)旋轉主成分/因子;

(6)解釋結果;

(7)計算主成分或因子得分。

2.主成分分析

PCA的目標是用一組較少的不相關變量代替大量相關變量,同時盡可能保留初始變量的信息,這些推導所得的變量稱為主成分,它們是觀測變量的線性組合。如第一主成分為:

PC1=a1X1=a2X2+……+akXk 它是k個觀測變量的加權組合,對初始變量集的方差解釋性最大。

第二主成分是初始變量的線性組合,對方差的解釋性排第二, 同時與第一主成分正交(不相關)。後面每一個主成分都最大化它對方差的解釋程度,同時與之前所有的主成分都正交,但從實用的角度來看,都希望能用較少的主成分來近似全變量集。

(1)判斷主成分的個數

PCA中需要多少個主成分的準則:

根據先驗經驗和理論知識判斷主成分數;

根據要解釋變量方差的積累值的閾值來判斷需要的主成分數;

通過檢查變量間k*k的相關系數矩陣來判斷保留的主成分數。

最常見的是基於特征值的方法,每個主成分都與相關系數矩陣的特征值 關聯,第一主成分與最大的特征值相關聯,第二主成分與第二大的特征值相關聯,依此類推。

Kaiser-Harris準則建議保留特征值大於1的主成分,特征值小於1的成分所解釋的方差比包含在單個變量中的方差更少。

Cattell碎石檢驗則繪制了特征值與主成分數的圖形,這類圖形可以展示圖形彎曲狀況,在圖形變化最大處之上的主成分都保留。

最後,還可以進行模擬,依據與初始矩陣相同大小的隨機數矩陣來判斷要提取的特征值。若基於真實數據的某個特征值大於一組隨機數據矩陣相應的平均特征值,那麽該主成分可以保留。該方法稱作平行分析。

利用fa.parallel()函數,可同時對三種特征值判別準則進行評價。

  1. library(psych)
  2. fa.parallel(USJudgeRatings[,-1],fa="PC",n.iter=100,show.legend=FALSE,main="Screen plot with parallel analysis")

技術分享圖片

碎石頭、特征值大於1準則和100次模擬的平行分析(虛線)都表明保留一個主成分即可保留數據集的大部分信息,下一步是使用principal()函數挑選出相應的主成分。

(2)提取主成分

principal()函數可根據原始數據矩陣或相關系數矩陣做主成分分析

格式為:principal(的,nfactors=,rotate=,scores=)

其中:r是相關系數矩陣或原始數據矩陣;

nfactors設定主成分數(默認為1);

rotate指定旋轉的方式[默認最大方差旋轉(varimax)]

scores設定是否需要計算主成分得分(默認不需要)。

  1. 美國法官評分的主成分分析
  2. library(psych)
  3. pc<-principal(USJudgeRatings[,-1],nfactors=1)
  4. pc

技術分享圖片
此處,輸入的是沒有ONT變量的原始,並指定獲取一個未旋轉的主成分。由於PCA只對相關系數矩陣進行分析,在獲取主成分前,原始數據將會被自動轉換為相關系數矩陣。

PC1欄包含了成分載荷,指觀測變量與主成分的相關系數。如果提取不止一個主成分,則還將會有PC2、PC3等欄。成分載荷(component loadings)可用來解釋主成分的含義。此處可看到,第一主成分(PC1)與每個變量都高度相關,也就是說,它是一個可用來進行一般性評價的維度。

h2柆指成分公因子方差-----主成分對每個變量的方差解釋度。

u2欄指成分唯一性-------方差無法 被主成分解釋的比例(1-h2)。

SS loadings行包含了主成分相關聯的特征值,指的是與特定主成分相關聯的標準化後的方差值。

Proportin Var行表示的是每個主成分對整個數據集的解釋程度。

結果不止一個主成分的情況

  1. library(psych)
  2. fa.parallel(Harman23.cor$cov,n.obs=302,fa="pc",n.iter=100,show.legend=FALSE,main="Scree plot with parallel analysis")


技術分享圖片

載荷陣解釋了成分和因子的含義,第一成分與每個身體測量指標都正相關,看起來似乎是一個一般性的衡量因子;第二主成分與前四個變量負相關,與後四個變量正相關,因此它看起來似乎是一個長度容量因子。但理念上的東西都不容易構建,當提取了多個成分時,對它們進行旋轉可使結果更具有解釋性。

(3)主成分旋轉

旋轉是一系列將成分載荷陣變得更容易解釋的數學方法,它們盡可能地對成分去噪。

旋轉方法有兩種:使選擇的成分保持不相關(正效旋轉),和讓它們變得相關(斜交旋轉)。

旋轉方法也會依據去噪定義的不同而不同。

最流行的下次旋轉是方差極大旋轉,它試圖對載荷陣的列進行去噪,使得每個成分只是由一組有限的變量來解釋(即載荷陣每列只有少數幾個很大的載荷,其他都是很小的載荷)。

  1. install.packages("GPArotation")
  2. library(GPArotation)
  3. rc<-principal(Harman23.cor$cov,nfactors=2,rotate="varimax")
  4. rc

技術分享圖片

列名從PC變成了RC,以表示成分被旋轉

觀察可以發現第一主成分主要由前四個變量來解釋,第二主成分主要由變量5到變量8來解釋。

註意兩個主成分仍不相關,對變量的解釋性不變,這是因為變量的群組沒有發生變化。另外,兩個主成分放置後的累積方差解釋性沒有變化,變的只是各個主成分對方差的解釋(成分1從58%變為44%,成分2從22%變為37%)。各成分的方差解釋度趨同,準確來說,此時應該稱它們為成分而不是主成分。

(4)獲取主成分得分

利用principal()函數,很容易獲得每個調查對象在該主成分上的得分。

<strong>從原始數據中獲取成分得分</strong>
  1. library(psych)
  2. pc<-principal(USJudgeRatings[,-1],nfactors=1,score=TRUE)
  3. head(pc$scores)

技術分享圖片

當scores=TRUE時,主成分得分存儲在principal()函數返回對象的scores元素中。

cor(USJudgeRatings$CONT,PC$scores)

<strong>獲取主成分得分的系數</strong>
  1. library(psych)
  2. rc<-principal(Harman23.cor$cov,nfactor=2,rotate="varimax")
  3. round(unclass(rc$weights),2)

技術分享圖片

得到主成分得分:

PC1=0.28*height+0.30*arm.span+0.30*forearm+0.29*lower.leg-0.06*weight-0.08*bitro.diameter-0.10*chest.girth-0.04*chest.width

PC2=-0.05*height-0.08*arm.span-0.09*forearm-0.06*lower.leg+0.33*weight+0.32*bitro.diameter+0.34*chest.girth+0.27*chest.width

3.探索性因子分析

EFA的目標是通過發掘隱藏在數據下的一組較少的、更為基本的無法觀測的變量,來解釋一組可觀測變量的相關性。這些虛擬的、無法觀測的變量稱作因子。(每個因子被認為可解釋多個觀測變量間共有的方差,也叫作公共因子) 模型的形式為: Xi=a1F1+a2F2+……apFp+Ui Xi是第i個可觀測變量(i=1,2,……k) Fj是公共因子(j=1,2,……p) 並且p<k

  1. options(digits=2)
  2. covariances<-ability.cov$cov
  3. correlations<-cov2cor(covariances)
  4. correlations

技術分享圖片

ability.cov提供了變量的協方差矩陣

cov2cor()函數將其轉化為相關系數矩陣

(1)判斷需提取的公共因子數

  1. library(psych)
  2. convariances<-ability.cov$cov
  3. correlations<-cov2cor(covariances)
  4. fa.parallel(correlations,n.obs=112,fa="both",n.iter=100,main="Scree plots with parallel analysis")

技術分享圖片

若使用PCA方法,可能會選擇一個成分或兩個成分。當搖擺不定時,高估因子數通常比低估因子數的結果好,因為高估因子數一般較少曲解“真實”情況。

(2)提取公共因子

可使用fa()函數來提取因子 fa()函數的格式為: fa(r,nfactors=,n.obs=,rotate=,scores=,fm) r是相關系數矩陣或原始數據矩陣; nfactors設定提取的因子數(默認為1); n.obs是觀測數(輸入相關系數矩陣時需要填寫); rotate設定放置的方法(默認互變異數最小法); scores設定是否計算因子得分(默認不計算); fm設定因子化方法(默認極小殘差法)。 與PCA不同,提取公共因子的方法很多,包括最大似然法(ml)、主軸叠代法(pa)、加權最小二乘法(wls)、廣義加權最小二乘法(gls)和最小殘差法(minres)。
<strong>未旋轉的主軸叠代因子法</strong>
  1. fa<-fa(correlations,nfactors=2,rotate="none",fm="pa")
  2. fa
技術分享圖片

(3)因子旋轉

<strong>用正交旋轉提取因子</strong>
  1. fa.varimax<-fa(correlations,nfactors=2,rotate="varimax",fm="pa")
  2. fa.varimax
<strong>正交放置將人為地強制兩個因子不相關</strong>
<strong>正交旋轉,因子分析的重點在於因子結構矩陣(變量與因子的相關系數)</strong>

技術分享圖片 用斜交旋轉提取因子
  1. fa.promax<-fa(correlations,nfactors=2,rotate="promax",fm="pa")
  2. fa.promax
<strong>對於斜交旋轉,因子分析會考慮三個矩陣:因子結構矩陣、因子模式矩陣和因子關聯矩陣</strong>
<strong>因子模式矩陣即標準化的回歸系數矩陣,它列出了因子的預測變量的權重;</strong>
<strong>因子關聯矩陣即因子相關系數矩陣;</strong>
<strong>因子結構矩陣(或稱因子載荷陣),可使用公式F=P*Phi來計算得到,其中F是載荷陣,P為因子模式矩陣,Phi為因子關聯矩陣。</strong>
技術分享圖片
  1. fsm<-function(oblique){
  2. if(class(oblique)[2]=="fa"&is.null(oblique$Phi)){
  3. warning("Object doesn‘t look like oblique EFA")
  4. }else{
  5. P<-unclass(oblique$loading)
  6. F<-P%*%oblique$Phi
  7. colnames(F)<-c("PA1","PA2")
  8. return (F)
  9. }
  10. }
  11. fsm(fa.promax)
技術分享圖片 可以看到變量與因子間的相關系數。將它們與正交旋轉所得因子載荷陣相比,發現該載荷陣列的噪音較大,這是因為之前允許潛在因子相關。雖然斜交方法更為復雜,但模型將更加符合真實數據。 使用factor.plot()或fa.diagram()函數,可繪制正交或斜交結果的圖形
factor.plot(fa.promax,labels=rownames(fa.promax$loadings))
技術分享圖片
fa.diagram(fa.promax,simple=TRUE)
技術分享圖片

(4)因子得分

EFA並不十分關註因子得分,在fa()函數中添加score=TRUE選項,便可輕松地得到因子得分。另外還可以得到得分系數(標準化的回歸權重),它在返回對象的weights元素中。
fa.promax$weights
技術分享圖片

4.其他 

(1)

對因子分析非常有用的軟件包,FactoMineR包不僅提供了PCA和EFA方法,還包含潛變量模型。 FAiR包使用遺傳算法來估計因子分析模型,增強了模型參數估計能力,能夠處理不等式的約束條件; GPArotation包提供了許多因子旋轉方法 nFactors包,提供了用來判斷因子數目方法。

(2)其他潛變量模型

先驗知識的模型:先從一些先驗知識開始,比如變量背後有幾個因子、變量在因子上的載荷是怎樣的、因子間的相關性如何,然後通過收集數據檢驗這些先驗知識。這種方法稱作驗證性因子分析(CFA)。   做CFA的軟件包:sem、openMx和lavaan等。 ltm包可以用來擬合測驗和問卷中各項目的潛變量模型。 潛類別模型(潛在的因子被認為是類別型而非連續型)可通過FlexMix、lcmm、randomLCA和poLC包進行擬合。lcda包可做潛類別判別分析,而lsa可做潛在語義分析----一種自然語言處理中的方法。ca包提供了可做簡單和多重對應分析的函數。 R中還包含了眾多的多維標度法(MDS)計算工具。MDS即可用發現解釋相似性和可測對象間距離的潛在維度。 cmdscale()函數可做經典的MDS MASS包中的isoMDS()函數可做非線性MDS vagan包中則包含了兩種MDS的函數

PCA主成分分析 R語言