主成分分析與因子分析之比較及實證分析
阿新 • • 發佈:2019-01-08
是因子分析過程中的初始因子載荷矩陣中的元素, 是第j個公共因子,是第i個原觀測變數的特殊因子。且此處的與的均值都為0,方差都為1。
3. 主成分的各系數,是唯一確定的、正交的。不可以對係數矩陣進行任何的旋轉,且係數大小並不代表原變數與主成分的相關程度;而因子模型的係數矩陣是不唯一的、可以進行旋轉的,且該矩陣表明了原變數和公共因子的相關程度。
4. 主成分分析,可以通過可觀測的原變數X直接求得主成分Y,並具有可逆性;因子分析中的載荷矩陣是不可逆的,只能通過可觀測的原變數去估計不可觀測的公共因 子,即公共因子得分的估計值等於因子得分系數矩陣與原觀測變數標準化後的矩陣相乘的結果。還有,主成分分析不可以像因子分析那樣進行因子旋轉處理。
5.綜合排名。主成分分析一般依據第一主成分的得分排名,若第一主成分不能完全代替原始變數,則需要繼續選擇第二個主成分、第三個等等,此時綜合得分=∑ (各主成分得分×各主成分所對應的方差貢獻率),主成分得分是將原始變數的標準化值,代入主成分表示式中計算得到;而因子分析的綜合得分=∑(各因子得分 ×各因子所對應的方差貢獻率)÷∑各因子的方差貢獻率,因子得分是將原始變數的標準化值,代入因子得分函式中計算得到。
區別中存聯絡,聯絡中顯區別
由於上文提到主成分可表示為原觀測變數的線性組合,其係數為原始變數相關矩陣的特徵值所對應的特徵向量,且這些特徵向量正交,因此,從X到Y的轉換關係是可逆的,便得到如下的關係:
(3)
下面對其只保留前m個主成分(貢獻大),捨棄剩下貢獻很小的主成分,得:
i=1,2,...p (4)
由此可見,式(4)在形式上已經與因子模型(2)忽略特殊因子後的模型即:
(2)*
相一致,且 (j=1,2,…,m)之間相互獨立。由於模型(2)*是因子分析中未進行因子載荷旋轉時建立的模型,故如果不進行因子載荷旋轉,許多應用者將容易把此時的因子分析理解成主成分分析,這顯然是不正確的。
然而此時的主成分的係數陣即特徵向量與因子載荷矩陣確實存在如下關係:
主成分分析中,主成分的方差等於原始資料相關矩陣的特徵根,其標準差也即特徵根的平方根 ,於是可以將除以其標準差(單位化)後轉化成合適的公因子,即令,,則式(4)變為:
(4)*
可得, (5)
式(5)便是主成分系數矩陣與初始因子載荷陣之間的聯絡。不能簡單地將初始因子載荷矩陣認為是主成分系數矩陣(特徵向量矩陣),否則會造成偏差。
三、實證分析
通過例項來研究SPSS軟體中的因子分析和主成分分析及二者分析結果的比較。運用兩種分析方法對2005年江蘇省13個主要城市的經濟發展綜合水平進行分析。
本文在選取指標時遵循了指標選取的基本原則,即針對性、可操作性、層次性、全面性等原則,選取了以下反映城市經濟發展綜合水平的9項指標: GDP(X1)億元 、人均GDP (X2) 元 、城鎮居民人均可支配收入(X3)元、農村居民純收入(X4) 元、第三產業佔GDP比重(X5)%、金融機構存款餘額(X6)億元、萬人中各專業技術人員數(X7)人、科技三項和文教科衛支出(X8)億元、實際利用 外資(X9) 億美元。
(一) 資料來源及處理
按照上述指標體系,選取了江蘇13個城市的資料,(所有資料均來源於《江蘇統計年鑑(2006)》)。指標都是正指標,無需歸一化,SPSS13.0將自動對原始資料進行標準差標準化處理,消除指標量綱及數量級的影響。
(二) 運用SPSS進行分析
首先,通過SPSS中的Data Reduction-Factor命令進行因子分析,本文采取主成分分析法來抽取公共因子,並依據特徵值大於1來確定因子數目。
相關的分析結果及分析,如下:
3. 主成分的各系數,是唯一確定的、正交的。不可以對係數矩陣進行任何的旋轉,且係數大小並不代表原變數與主成分的相關程度;而因子模型的係數矩陣是不唯一的、可以進行旋轉的,且該矩陣表明了原變數和公共因子的相關程度。
4. 主成分分析,可以通過可觀測的原變數X直接求得主成分Y,並具有可逆性;因子分析中的載荷矩陣是不可逆的,只能通過可觀測的原變數去估計不可觀測的公共因 子,即公共因子得分的估計值等於因子得分系數矩陣與原觀測變數標準化後的矩陣相乘的結果。還有,主成分分析不可以像因子分析那樣進行因子旋轉處理。
5.綜合排名。主成分分析一般依據第一主成分的得分排名,若第一主成分不能完全代替原始變數,則需要繼續選擇第二個主成分、第三個等等,此時綜合得分=∑ (各主成分得分×各主成分所對應的方差貢獻率),主成分得分是將原始變數的標準化值,代入主成分表示式中計算得到;而因子分析的綜合得分=∑(各因子得分 ×各因子所對應的方差貢獻率)÷∑各因子的方差貢獻率,因子得分是將原始變數的標準化值,代入因子得分函式中計算得到。
區別中存聯絡,聯絡中顯區別
由於上文提到主成分可表示為原觀測變數的線性組合,其係數為原始變數相關矩陣的特徵值所對應的特徵向量,且這些特徵向量正交,因此,從X到Y的轉換關係是可逆的,便得到如下的關係:
下面對其只保留前m個主成分(貢獻大),捨棄剩下貢獻很小的主成分,得:
i=1,2,...p (4)
由此可見,式(4)在形式上已經與因子模型(2)忽略特殊因子後的模型即:
(2)*
相一致,且 (j=1,2,…,m)之間相互獨立。由於模型(2)*是因子分析中未進行因子載荷旋轉時建立的模型,故如果不進行因子載荷旋轉,許多應用者將容易把此時的因子分析理解成主成分分析,這顯然是不正確的。
然而此時的主成分的係數陣即特徵向量與因子載荷矩陣確實存在如下關係:
主成分分析中,主成分的方差等於原始資料相關矩陣的特徵根,其標準差也即特徵根的平方根
(4)*
可得, (5)
式(5)便是主成分系數矩陣與初始因子載荷陣之間的聯絡。不能簡單地將初始因子載荷矩陣認為是主成分系數矩陣(特徵向量矩陣),否則會造成偏差。
三、實證分析
通過例項來研究SPSS軟體中的因子分析和主成分分析及二者分析結果的比較。運用兩種分析方法對2005年江蘇省13個主要城市的經濟發展綜合水平進行分析。
本文在選取指標時遵循了指標選取的基本原則,即針對性、可操作性、層次性、全面性等原則,選取了以下反映城市經濟發展綜合水平的9項指標: GDP(X1)億元 、人均GDP (X2) 元 、城鎮居民人均可支配收入(X3)元、農村居民純收入(X4) 元、第三產業佔GDP比重(X5)%、金融機構存款餘額(X6)億元、萬人中各專業技術人員數(X7)人、科技三項和文教科衛支出(X8)億元、實際利用 外資(X9) 億美元。
(一) 資料來源及處理
按照上述指標體系,選取了江蘇13個城市的資料,(所有資料均來源於《江蘇統計年鑑(2006)》)。指標都是正指標,無需歸一化,SPSS13.0將自動對原始資料進行標準差標準化處理,消除指標量綱及數量級的影響。
(二) 運用SPSS進行分析
首先,通過SPSS中的Data Reduction-Factor命令進行因子分析,本文采取主成分分析法來抽取公共因子,並依據特徵值大於1來確定因子數目。
相關的分析結果及分析,如下: