1. 程式人生 > >主成分分析,聚類分析,因子分析的基本思想以及他們各自的優缺點

主成分分析,聚類分析,因子分析的基本思想以及他們各自的優缺點

一、基本思想

  • 主成分分析 就是將多項指標轉化為少數幾項綜合指標,用綜合指標來解釋多變數的方差- 協方差結構。綜合指標即為主成分。所得出的少數幾個主成分,要儘可能多地保留原始變數的資訊,且彼此不相關。
  • 因子分析 是研究如何以最少的資訊丟失,將眾多原始變數濃縮成少數幾個因子變數,以及如何使因子變數具有較強的可解釋性的一種多元統計分析方法。
  • 聚類分析 是依據實驗資料本身所具有的定性或定量的特徵,來對大量的資料進行分組歸類以瞭解資料集的內在結構,並且對每一個數據集進行描述的過程。其主要依據是聚到同一個資料集中的樣本應該彼此相似,而屬於不同組的樣本應該足夠不相似。

       三種分析方法既有區別也有聯絡,本文力圖將三者的異同進行比較,並舉例說明三者在實際應用中的聯絡,以期為更好地利用這些高階統計方法為研究所用有所裨益。

二、思想異同 

(一) 共同點

        主成分分析法因子分析法都是用少數的幾個變數(因子) 來綜合反映原始變數(因子) 的主要資訊,變數雖然較原始變數少,但所包含的資訊量卻佔原始資訊的85 %以上,所以即使用少數的幾個新變數,可信度也很高,也可以有效地解釋問題。並且新的變數彼此間互不相關,消除了多重共線性。這兩種分析法得出的新變數,並不是原始變數篩選後剩餘的變數。

       在主成分分析中,最終確定的新變數是原始變數的線性組合,如原始變數為x1 ,x2 ,. . . ,x3 ,經過座標變換,將原有的p個相關變數xi 作線性變換,每個主成分都是由原有p 個變數線性組合得到。在諸多主成分Zi 中,Z1 在方差中佔的比重最大,說明它綜合原有變數的能力最強,越往後主成分在方差中的比重也小,綜合原資訊的能力越弱。

        因子分析是要利用少數幾個公共因子去解釋較多個要觀測變數中存在的複雜關係,它不是對原始變數的重新組合,而是對原始變數進行分解,分解為公共因子與特殊因子兩部分。公共因子是由所有變數共同具有的少數幾個因子;特殊因子是每個原始變數獨自具有的因子。對新產生的主成分變數及因子變數計算其得分,就可以將主成分得分或因子得分代替原始變數進行進一步的分析,因為主成分變數及因子變數比原始變數少了許多,所以起到了降維的作用,為我們處理資料降低了難度。

        聚類分析的基本思想是: 採用多變數的統計值,定量地確定相互之間的親疏關係,考慮物件多因素的聯絡和主導作用,按它們親疏差異程度,歸入不同的分類中一元,使分類更具客觀實際並能反映事物的內在必然聯絡。也就是說,聚類分析是把研究物件視作多維空間中的許多點,併合理地分成若干類,因此它是一種根據變數域之間的相似性而逐步歸群成類的方法,它能客觀地反映這些變數或區域之間的內在組合關係。聚類分析是通過一個大的對稱矩陣來探索相關關係的一種數學分析方法,是多元統計分析方法,分析的結果為群集。對向量聚類後,我們對資料的處理難度也自然降低,所以從某種意義上說,聚類分析也起到了降維的作用。

 (二) 不同之處

        主成分分析是研究如何通過少數幾個主成分來解釋多變數的方差一協方差結構的分析方法,也就是求出少數幾個主成分(變數) ,使它們儘可能多地保留原始變數的資訊,且彼此不相關。它是一種數學變換方法,即把給定的一組變數通過線性變換,轉換為一組不相關的變數(兩兩相關係數為0 ,或樣本向量彼此相互垂直的隨機變數) ,在這種變換中,保持變數的總方差(方差之和) 不變,同時具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。依次類推。若共有p 個變數,實際應用中一般不是找p 個主成分,而是找出m (m < p) 個主成分就夠了,只要這m 個主成分能反映原來所有變數的絕大部分的方差。主成分分析可以作為因子分析的一種方法出現。

        因子分析是尋找潛在的起支配作用的因子模型的方法。因子分析是根據相關性大小把變數分組,使得同組內的變數之間相關性較高,但不同的組的變數相關性較低,每組變數代表一個基本結構,這個基本結構稱為公共因子。對於所研究的問題就可試圖用最少個數的不可測的所謂公共因子的線性函式與特殊因子之和來描述原來觀測的每一分量。通過因子分析得來的新變數是對每個原始變數進行內部剖析。因子分析不是對原始變數的重新組合,而是對原始變數進行分解,分解為公共因子和特殊因子兩部分。具體地說,就是要找出某個問題中可直接測量的具有一定相關性的諸指標,如何受少數幾個在專業中有意義、又不可直接測量到、且相對獨立的因子支配的規律,從而可用各指標的測定來間接確定各因子的狀態。因子分析只能解釋部分變異,主成分分析能解釋所有變異。 

        聚類分析演算法是給定m 維空間R 中的n 個向量,把每個向量歸屬到k 個聚類中的某一個,使得每一個向量與其聚類中心的距離最小。聚類可以理解為: 類內的相關性儘量大,類間相關性儘量小。聚類問題作為一種無指導的學習問題,目的在於通過把原來的物件集合分成相似的組或簇,來獲得某種內在的資料規律。從三類分析的基本思想可以看出,聚類分析中並沒於產生新變數,但是主成分分析和因子分析都產生了新變數。

三、資料標準化的比較

        主成分分析中為了消除量綱和數量級,通常需要將原始資料進行標準化,將其轉化為均值為0方差為1 的無量綱資料。

       因子分析在這方面要求不是太高,因為在因子分析中可以通過主因子法、加權最小二乘法、不加權最小二乘法、重心法等很多解法來求因子變數,並且因子變數是每一個變數的內部影響變數,它的求解與原始變數是否同量綱關係並不太大,當然在採用主成分法求因子變數時,仍需標準化。不過在實際應用的過程中,為了儘量避免量綱或數量級的影響,建議在使用因子分析前還是要進行資料標準化。在構造因子變數時採用的是主成分分析方法,主要將指標值先進行標準化處理得到協方差矩陣,即相關矩陣和對應的特徵值與特徵向量,然後構造綜合評價函式進行評價。

        聚類分析中如果參與聚類的變數的量綱不同會導致錯誤的聚類結果。因此在聚類過程進行之前必須對變數值進行標準化,即消除量綱的影響。不同方法進行標準化,會導致不同的聚類結果要注意變數的分佈。如果是正態分佈應該採用z 分數法。

四、應用中的優缺點比較

 (一) 主成分分析

 1、優點首先它利用降維技術用少數幾個綜合變數來代替原始多個變數,這些綜合變數集中了原始變數的大部分資訊。其次它通過計算綜合主成分函式得分,對客觀經濟現象進行科學評價。再次它在應用上側重於資訊貢獻影響力綜合評價。 2、缺點當主成分的因子負荷的符號有正有負時,綜合評價函式意義就不明確。命名清晰性低。

 (二) 因子分析

 1、優點第一它不是對原有變數的取捨,而是根據原始變數的資訊進行重新組合,找出影響變數的共同因子,化簡資料;第二,它通過旋轉使得因子變數更具有可解釋性,命名清晰性高。 2、缺點在計算因子得分時,採用的是最小二乘法,此法有時可能會失效。

 (三) 聚類分析 

1、優點聚類分析模型的優點就是直觀,結論形式簡明。 2、缺點在樣本量較大時,要獲得聚類結論有一定困難。由於相似係數是根據被試的反映來建立反映被試間內在聯絡的指標,而實踐中有時儘管從被試反映所得出的資料中發現他們之間有緊密的關係,但事物之間卻無任何內在聯絡,此時,如果根據距離或相似係數得出聚類分析的結果,顯然是不適當的,但是,聚類分析模型本身卻無法識別這類錯誤。