機器學習系列1 PCA（主成分分析法）

阿新 • • 發佈：2018-12-13

1.PCA的應用

1.降維

2.去除資料相關性，對資料特徵進行抽取

2.主成分選擇原則

(1)主成分是原來變數的線性組合;

(2)各主成分之間互不相關;

(3)主成分分析的實質就是找到一個正交變換,即有正交陣U,使得一個?維向量

$X=\begin{bmatrix} x1,x2,......,xd \end{bmatrix}$

對其做正交變換 $Y^{T}=UX^{T}$ ,滿足Y的各個分量之間是不相關的（即協方差為0）,而且?的第一個分量的方差是最大的,第二個次之……

3.主成分分析步驟

1.將原資料中心化

2.對中心化後的資料的協方差矩陣 $\frac{1}{n}XX^{T}$ 進行特徵值分解 $W\sum W^{T}$

3.對特徵值進行由大到小排序，選擇前幾個比較大的特徵值對應的特徵向量 $W_{r}$

對X進行投影變換,那麼主成分 $Y=W_{r}^{T}X$

4.推導過程

假設資料已經中心化

$X=\begin{bmatrix} x1,x2,......,xn \end{bmatrix} \epsilon R^{m*n}$

1.正交投影矩陣：一個向量b想向某個已知空間A正交投影，那麼其投影矩陣為 $A(A^{T}A)^{-1}A^{T}$ （證明不難可以自己證明一下）

2.SVD分解： $X=U\sum V^{T}$

那麼由上，原資料向主成分空間投影

$PX=X(X^{T}X)^{-1}X^{T}=USV^{T}(VS^{T}U^{T}USV^{T})^{-1}VS^{T}U^{T}=UU^{T}X$ (1)

$P=UU^{T}$ (2)

PCA就是想找一個單位方向u,其中 $u^{t}u=1$ 使得 $x_{i}$ 在這個方向上正交投影的長度均值達到最大，換言之就是投影后散佈最大，也就是資訊保留最多。

問題現在變成求 (3)

$max\frac{1}{n}\sum_{i=1}^{n}\left \| u(u^{T}x_{i})) \right \|_{2}^{2}$

即 (4) $max u^{T}Cu$

對 $C=\frac{1}{n}XX^{T}$ 進行特徵分解， $C=W\Lambda W^{T}$ ,將特徵值從大到小分好即 $\lambda _{1}>\lambda _{2}>......>\lambda _{n-1}>......>\lambda _{m}$

由於SVD的U也是 $XX^{T}$ 特徵分解得到，所以u可以看作 $w_{i}$ 的線性組合

$u=\sum_{i}^{m}a_{i}w_{i}=Wa$

代入（4）式中變為 (5) $max a^{T}\Lambda a$

(6)

$a^{T}\Lambda a=\sum_{i=1}^{m}a_{i}^{2}\lambda _{i}\leqslant \lambda _{1}\sum_{i=1}^{m}a_{i}^{2}=\lambda _{1}a^{T}a=\lambda _{1}$

即當 $a_{1}=1$ 時（4）式成立

當然如果你想使用PCA將原資料降為s維，那麼同樣的推導方式，你將得到 $a_{1}.........a_{s}=1$

也就是使得 $u_{s}=W_{s}$

通過以上推導我們就明白了，PCA的演算法步驟

1.將原資料中心化

2.對中心化後的資料的協方差矩陣 $\frac{1}{n}XX^{T}$ 進行特徵值分解 $W\sum W^{T}$

3.對特徵值進行由大到小排序，選擇前幾個比較大的特徵值對應的特徵向量 $W_{r}$ 對X進行投影變換,那麼主成分 $Y=W_{r}^{T}X$

r就是你想降維到的維數。

機器學習系列1 PCA（主成分分析法）

1.PCA的應用 1.降維 2.去除資料相關性，對資料特徵進行抽取 2.主成分選擇原則 (1)主成分是原來變數的線性組合; (2)各主成分之間互不相關; (3)主成分分析的實質就是找到一個正交變換,即有正交陣U,使得一個?維向量

運用PCA（主成分分析法）進行人臉識別的MATLAB 程式碼實現

PCA（主成分分析演算法）出現的比較早。PCA演算法依賴於一個基本假設：一類影象具有某些相似的特徵（如人臉），在整個影象空間中呈現出聚類性，因而形成一個子空間，即所謂特徵子空間，PCA變換是最佳正交變換，利用變換基的線性組合可以描述、表達和逼近這一類影象，因此可以進行影象識別

機器學習實戰——PCA（主成分分析）

本章關於PCA的程式碼雖少，但涉及到的知識卻很多，由於數學知識比較淺薄，所以在看這章時提前查詢資料複習了很多的概率論和統計學知識和python基礎知識，這裡記錄的很多都是關於PCA的相關知識或理論（例如：特徵向量、協方差矩陣等），由於部分知識涉及較多，講的有點詳細所以文章篇幅

【機器學習】資料降維—主成分分析（PCA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。主成分分析（PCA）特徵抽取通常用於提高計算效率，降低維度災難。主成分分析（Principe component analysis，PCA）：是一種廣泛應用於不同領域的無監督

機器學習：降維演算法-主成分分析PCA演算法兩種角度的推導

若把高維空間的樣本點（可以想象是一個3維的）對映到一個超平面，怎樣的超平面可以認為是“好的”，可以想到這個超平面大概有這樣的性質：最近重構行：樣本點到超平面的距離都足夠近；（樣本點變化儘可能小，丟失的資訊儘可能少）最大可分性：樣本點在這個超平面上的投影儘可能分開.（樣

PCA （主成分分析）詳解（寫給初學者）結合matlab（轉載）

整數變量行為保持 sum osc 入參函數 data 一、簡介 PCA（Principal Components Analysis）即主成分分析，是圖像處理中經常用到的降維方法，大家知道，我們在處理有關數字圖像處理方面的問題時，比如經常用的圖像的查詢

淺談PCA（主成分分析）線性降維演算法用法

sklearn.decomposition.PCA(n_components = None, copy = True, whiten = False) n_components表示需要保留的主成分個數，即需要降低到幾維；若n_components=1，則表

PCA（主成分分析）降維演算法詳解和程式碼

1. 前言 PCA ： principal component analysis ( 主成分分析) 最近發現我的一篇關於PCA演算法總結以及個人理解的部落格的訪問量比較高，剛好目前又重新學習了一下PCA （主成分分析）降維演算法，所以打算把目前掌握的做個全面的

PCA（主成分分析）方法資料降維、重構和人臉識別

本文使用matlab採用PCA完成對資料的降維、重構和人臉識別。我眼中的PCA：資料的維數過高，處理起來耗時又費力，於是就在想我能不能只處理部分維數，並且得到的結果與全部維數的結果一致。噹噹噹，PCA就出爐了。簡單來說，就是一個圖片有2000個特徵維度，而實際上只有其

機器學習回顧篇（14）：主成分分析法（PCA）

1 引言¶ 在展開資料分析工作時，我們經常會面臨兩種困境，一種是原始資料中特徵屬性太少，“巧婦難為無米之炊”，很難挖掘出潛在的規律，對於這種情況，我們只能在收集這一環節上多下功夫；另一種困境剛好相反，那就是特徵

機器學習---降維之PCA主成分分析法

（一）、主成分分析法PCA簡介 PCA 目的：降維——find a low dimension surface on which to project data ~如圖所示，尋找藍色的點到

【轉載】主成分分析法（PCA）

差異投影 3D 方式分享 alt 訓練矩陣 9.png https://www.jisilu.cn/question/252942 進行維數約減（Dimensionality Reduction），目前最常用的算法是主成分分析法 (Principal Componet

機器學習之主成分分析法

終於下定決心，在工作之餘研究下機器學習。此文作為機器學習的開端，希望能一路下去。一開始被機器學習背後的數學嚇到，無奈之下退縮，在機器學習大門前徘徊了許久，終於下定決心，啃下數學這饅頭，看看機器學習之貌。 ---------------------------------- 數學原理

【Mark Schmidt課件】機器學習與資料探勘——主元分析PCA

本課件主要內容包括：上次課程回顧：MAP估計人類 vs. 機器感知隱因子模型向量量化向量量化 vs. PCA 主元分析PCA的應用 PCA目標函式英文原文課件下載地址： h

主成分分析法（PCA）

一、PCA簡介 1. 相關背景上完陳恩紅老師的《機器學習與知識發現》和季海波老師的《矩陣代數》兩門課之後，頗有體會。最近在做主成分分析和奇異值分解方面的專案，所以記錄一下心得體會。 &nbs

深度學習入門教程UFLDL學習實驗筆記三：主成分分析PCA與白化whitening

主成分分析與白化是在做深度學習訓練時最常見的兩種預處理的方法，主成分分析是一種我們用的很多的降維的一種手段，通過PCA降維，我們能夠有效的降低資料的維度，加快運算速度。而白化就是為了使得每個特徵能有同樣的方差，降低相鄰畫素的相關性。主成分分析PCA 第一步：首先我們需要獲取旋轉矩陣U，為了實現這一目的，我

深入機器學習系列1-序章

1996年，美國費城舉行了一次特別的國際象棋比賽，其中一位參賽者是名為“深藍”的國際象棋計算機。在決賽中，IBM公司研發的深藍2：4輸給了世界冠軍卡斯帕羅夫。這是人類與計算機的第一次交

PCA演算法（主成分分析）

寫在前面 Principle Component Analysis 顧名思義，是通過分析向量空間的主成分，將主成分提取出來，不重要的成分略去，從而達到降維壓縮資訊的目的。那什麼才是主成分呢？大家應該知道，一個空間會有自己的一組基向量，空間中的任何一個向量都

降維之主成分分析法（PCA）

image lambda 展示 auto 有一個多點方便系列 9.png 一、主成分分析法的思想我們在研究某些問題時，需要處理帶有很多變量的數據，比如研究房價的影響因素，需要考慮的變量有物價水平、土地價格、利率、就業率、城市化率等。變量和數據很多，但是可能存在噪

機器學習：決策樹（基尼系數）

try matplot 代碼實現 sci bubuko div tro 兩種 () 一、基礎理解　1）公式 k：數據集中樣本類型數量； Pi：第 i 類樣本的數量占總樣本數量的比例　2）實例計算基尼系數 3 種情況計算基尼系數：基尼系數的性質與信息熵

機器學習系列1 PCA（主成分分析法）

1.PCA的應用

2.主成分選擇原則

3.主成分分析步驟

4.推導過程

相關推薦