[機器學習]（八）cs229之主成分分析

阿新 • • 發佈：2019-01-12

主成分分析的程式碼和原理都比較簡單，之前也用過很多次，轉載的這篇部落格的目的是通過例項來學習這個演算法，方便之後可以快速上手，有關python的程式碼，可以見《機器學習實戰》這本書。

對於PCA原理的理解，可以參考下面的部落格：

1.最大方差理論：

2.最小平方差理論

參考：http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020216.html

下面的內容轉自：http://blog.csdn.net/u010480899/article/details/52263227

主成分分析（Principal Component Analysis，PCA），是一種統計方法。在處理實際問題中，多個變數之間可能存在一定的相關性，當變數的個數較多且變數之間存在複雜的關係時，增加了問題分析的難度。主成分分析是一種數學降維的方法，該方法主要將原來眾多具有一定相關性的變數，重新組合成為一種新的相互無關的綜合變數。例如，當選擇第一個線性組合即第一個綜合變數為F1，希望F1能夠反映更多的資訊，因此F1在所有線性組合中的方差是最大的，此時F1為第一主成分。如果F1作為第一主成分，不足以代表原來P個變數的資訊，則繼續選擇F2作為第二個線性組合，為了更加有效的反映最初的資訊，F1已經具有的資訊不需要再次反映在F2中，那麼要求此時Cov（F1,F2）=0，則F2可以稱之為第二主成分。以此類推，可以構造出多個主成分。
主成分分析的主要步驟如下：
（1）對原始資料進行標準化處理，若樣本資料矩陣如下：
這裡寫圖片描述

對原始資料進行標準化處理：
這裡寫圖片描述

（2）計算樣本相關係數矩陣（注意這裡假設原始資料標準化後仍用X表示，後面給出的計算該係數矩陣元素值的方法中設計到的Xi和Xj並不是原始資料矩陣X，而是標準化後的矩陣元素，這是這裡依舊用了X表示而已！）
這裡寫圖片描述

（3）計算相關係數矩陣R的特徵值和相應的特徵向量：
這裡寫圖片描述

（4）選擇重要的主成分：
由主成分分析可以得到P個主成分，根據前面的介紹，主成分F1包含的資訊大於F2，且可以以此類推，因此各個主成分的方差也是遞減的，包含的資訊量也是遞減的，所以實際使用該方法的時候不在選取所有的P個主成分，而是根據各個主成分累計貢獻的大小選取前面K個主成分。這裡的貢獻率是指某個主成分的方差佔據全部主成分方差的比重，也就是某個特徵值佔據全部特徵值和的比重，即：
這裡寫圖片描述

某個主成分的貢獻率越大說明該主成分包含的原始資訊量越大，主成分K值的選取，主要依據主成分累計貢獻率來決定，一般來說當累計貢獻率達到85%以上時，可以認為這K個主成分包含了原始資訊絕大多數的資訊。

（5）計算主成分得分，其形式如下：
這裡寫圖片描述

（6）根據主成分得分的資料對問題進行後續的分析和建模。
案例資料：對15家企業通過8個不同指標資料進行評估。
這裡寫圖片描述

Matlab程式碼：

clc
clear all
A=xlsread('D:\資料庫區\大三上\HUAWEI\MATLAB\主成分分析.xls','B3:I17');
%得到的資料矩陣的行數和列數
a=size(A,1);
b=size(A,2 
);
%資料的標準化處理:得到標準化後的矩陣SA
for i=1:b
    SA(:,i)=(A(:,i)-mean(A(:,i)))/std(A(:,i));
end
%計算係數矩陣:CM
CM=corrcoef(SA);
%計算CM的特徵值和特徵向量
[V,D]=eig(CM);
%將特徵值按降序排列到DS中
for j=1:b
    DS(j,1)=D(b+1-j,b+1-j);
end
%計算貢獻率
for i=1:b
    DS(i,2)=DS(i,1)/sum(DS(:,1));%單個貢獻率
    DS(i,3)=sum(DS(1:i,1))/sum(DS(:,1));%累計貢獻率
end
%假定主成分的資訊保留率
T=0.9;
for k=1:b
    if DS(k,3) >= T
        com_num=k;
        break;
    end
end
%提取主成分的特徵向量
for j=1:com_num
    PV(:,j)=V(:,b+1-j);
end
%計算主成分得分
new_score=SA*PV;
for i=1:a
    total_score(i,1)=sum(new_score(i,:));
    total_score(i,2)=i;
end
%強主成分得分與總分放到同一個矩陣中
result_report=[new_score,total_score];
%按總分降序排列
result_report=sortrows(result_report,-4);
%輸出結果
disp('特徵值、貢獻率、累計貢獻率：')
DS
disp('資訊保留率T對應的主成分數與特徵向量：')
com_num
PV
disp('主成分得分及排序（按第4列的總分進行降序排列，前3列為個各成分得分，第5列為企業編號）')
result_report

Matlab執行結果：
這裡寫圖片描述

這裡寫圖片描述

思考：

在cs229中還講到了SVD演算法，現在說明PCA和SVD的關係：

對中心化處理之後的X的協方差矩陣，即XXT進行SVD處理，也就是PCA的處理過程。這點可能會感覺比較奇怪，因為前面我們就是利用SVD的方法來進行PCA處理的，但實際上，正是由於這句話的原因，才可對PCA進行這樣的處理。

XT

XXT XXT

[機器學習]（八）cs229之主成分分析

[機器學習]（八）cs229之主成分分析

機器學習（八）kaggle競賽之泰坦尼克號專案實戰-1

演算法工程師修仙之路：吳恩達機器學習（八）

[python機器學習及實踐(6)]Sklearn實現主成分分析（PCA）

spring深入學習（八）IOC 之解析 bean 標籤：meta、lookup-method、replace-method

機器學習（八）——SVD推薦系統

機器學習（八）——感知器學習演算法（The perceptron learning algorithm）

機器學習（ML）七之模型選擇、欠擬合和過擬合

機器學習（ML）九之GRU、LSTM、深度神經網路、雙向迴圈神經網路

機器學習（ML）十之CNN

機器學習（ML）十三之批量歸一化、RESNET、Densenet

Redis學習（八） Redis丟失訂閱訊息分析與處理和client-output-buffer-limit屬性配置說明

機器學習（三）——Apriori演算法進行關聯分析

使用Python進行層次聚類（一）——基本使用+主成分分析繪圖觀察結果+繪製熱圖

機器學習之numpy和matplotlib學習（八）

機器學習實踐（八）—sklearn之交叉驗證與引數調優

HBase概念學習（八）開發一個類twitter系統之表設計

機器學習（十）優化演算法利器之梯度下降（Gradient Descend）

演算法工程師修仙之路：吳恩達機器學習（九）

演算法工程師修仙之路：吳恩達機器學習（七）

[機器學習]（八）cs229之主成分分析

相關推薦