使用主成分分析（PCA）方法對資料進行降維

阿新 • • 發佈：2019-01-03

我們知道當資料維度太大時，進行分類任務時會花費大量時間，因此需要進行資料降維，其中一種非常流行的降維方法叫主成分分析。

From [百度百科]

Exploratory Data Analysis

鳶尾花資料集：

import numpy as np
from sklearn.datasets import load_iris

iris = load_iris()

type(iris.data) # numpy.ndarray
type(iris.target) # numpy.ndarray

print iris.feature_names
print iris.target_names

X = iris.data
y = iris.target

Out:
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
['setosa' 'versicolor' 'virginica']

4個特徵：花萼長度、花萼寬度、花瓣長度、花瓣寬度
3個分類：山鳶尾、變色鳶尾、維吉尼亞鳶尾

前十個樣本特徵值如下：

[[5.1, 3.5, 1.4, 0.2],
 [4.9, 3. , 1.4, 0.2],
 [4.7, 3.2, 1.3, 0.2],
 [4.6, 3.1, 1.5, 0.2],
 [5. , 3.6, 1.4, 0.2],
 [5.4 
, 3.9, 1.7, 0.4],
 [4.6, 3.4, 1.4, 0.3],
 [5. , 3.4, 1.5, 0.2],
 [4.4, 2.9, 1.4, 0.2],
 [4.9, 3.1, 1.5, 0.1]]

樣本類別分佈：

print dict(zip(*np.unique(y,return_counts=True)))

Out:
{0: 50, 1: 50, 2: 50}

描述性統計：

print stats.describe(X)

Out:
DescribeResult(
nobs=150L, 
minmax=(array([4.3, 2. , 1. , 0.1]), array 
([7.9, 4.4, 6.9, 2.5])), 
mean=array([5.84333333, 3.054     , 3.75866667, 1.19866667]), 
variance=array([0.68569351, 0.18800403, 3.11317942, 0.58241432]), 
skewness=array([ 0.31175306,  0.33070281, -0.27171195, -0.10394367]), 
kurtosis=array([-0.57356795,  0.2414433 , -1.3953593 , -1.33524564]))

PCA降維

第一步，計算協方差矩陣，注意計算前需要對資料進行轉置：

cov = np.cov(X.T)
print np.round(cov, decimals=2) # 列印保留2位小數的結果

Out:
[[ 0.69, -0.04,  1.27,  0.52],
 [-0.04,  0.19, -0.32, -0.12],
 [ 1.27, -0.32,  3.11,  1.3 ],
 [ 0.52, -0.12,  1.3 ,  0.58]]

可以看到協方差矩陣是一個對稱矩陣（看到對稱矩陣，立刻就可以想到可對角化了吧，哈哈），對角線表示方差，其它元素表示兩變數間的協方差。

（PS：當資料是中心化（樣本值減去均值）了的，協方差矩陣還可以通過 $\frac{1}{n - 1} X^{T} X$ 得到，也就是它的轉置乘以自身再除以樣本數量。）

第二步，特徵值分解（也叫對稱矩陣對角化）：

eig_val,eig_vec = np.linalg.eig(cov)

Out:
array([4.22484077, 0.24224357, 0.07852391, 0.02368303])

array([[ 0.36158968, -0.65653988, -0.58099728,  0.31725455],
       [-0.08226889, -0.72971237,  0.59641809, -0.32409435],
       [ 0.85657211,  0.1757674 ,  0.07252408, -0.47971899],
       [ 0.35884393,  0.07470647,  0.54906091,  0.75112056]])

假設我們把特徵維度從4維降為2維，那我們就選擇特徵值絕對值最大的兩個對應的特徵向量：

indices = np.argsort(np.abs(eig_val))[::-1][:2]

Out:
array([0, 1], dtype=int64)

也就是前兩列特徵向量：

transform_matrix = eig_vec[:, indices]

Out:
[[ 0.36158968, -0.65653988],
 [-0.08226889, -0.72971237],
 [ 0.85657211,  0.1757674 ],
 [ 0.35884393,  0.07470647]]

第三步，將原始資料降維，得到新的資料集：

new_X = np.dot(X, transform_matrix)

Out:
[[ 2.82713597, -5.64133105],
 [ 2.79595248, -5.14516688],
 [ 2.62152356, -5.17737812],
 [ 2.7649059 , -5.00359942],
 [ 2.78275012, -5.64864829],
 [ 3.23144574, -6.06250644],
 [ 2.69045242, -5.23261922],
 [ 2.8848611 , -5.48512908],
 [ 2.62338453, -4.7439257 ],
 [ 2.83749841, -5.20803203]
 ...

這裡需要特別注意的是，這裡的特徵已經不再對應原始資料的特徵{花萼長度、花萼寬度、花瓣長度、花瓣寬度}，經過降維後的資料是在新的座標系下描述的資料。

總結

主成分分析降維方法計算過程分為三步：

計算協方差矩陣
對協方差矩陣進行特徵分解（對角化）
選擇特徵值絕對值最大的特徵值對應的特徵向量作為轉換矩陣，將原始資料降維。

使用主成分分析（PCA）方法對資料進行降維

我們知道當資料維度太大時，進行分類任務時會花費大量時間，因此需要進行資料降維，其中一種非常流行的降維方法叫主成分分析。 Exploratory Data Analysis 鳶尾花資料集： import numpy as np from skle

對KLT，主成分分析（PCA）演算法的理解

1 #include "pcaface.h" 2 #include "ui_pcaface.h" 3 #include <QString> 4 #include <iostream> 5 #include <stdio.h> 6 7 usi

主成分分析（PCA）原理詳解（轉載）

增加信息什麽之前 repl 神奇 cto gmail 協方差一、PCA簡介 1. 相關背景上完陳恩紅老師的《機器學習與知識發現》和季海波老師的《矩陣代數》兩門課之後，頗有體會。最近在做主成分分析和奇異值分解方面的項目，所以記錄一下心得體會。

[python機器學習及實踐(6)]Sklearn實現主成分分析（PCA）

相關性 hit 變量 gray tran total 空間 mach show 1.PCA原理主成分分析（Principal Component Analysis，PCA），是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量，轉換後的這組

【原始碼】主成分分析（PCA）與獨立分量分析（ICA）MATLAB工具箱

本MATLAB工具箱包含PCA和ICA實現的多個函式，並且包括多個演示示例。在主成分分析中，多維資料被投影到最大奇異值相對應的奇異向量上，該操作有效地將輸入訊號分解成在資料中最大方差方向上的正交分量。因此，PCA常用於維數降低的應用中，通過執行PCA產生資料的低維表示，同時，該低維表

主成分分析（PCA）詳細講解

介紹主成分分析（Principal Component Analysis，PCA）是一種常用的資料降維演算法，可以將高維度的資料降到低維度，並且保留原始資料中最重要的一些特徵，同時去除噪聲和部分關聯特徵，從而提高資料的處理效率，降低時間成本。資料降維優點：低維資

主成分分析（PCA）原理詳解

1. 問題真實的訓練資料總是存在各種各樣的問題： 1、比如拿到一個汽車的樣本，裡面既有以“千米/每小時”度量的最大速度特徵，也有“英里/小時”的最大速度特徵，顯然這兩個特徵有一個多餘。 2、拿到一個數學系的本科生期末考試成績單，裡面有三列，一列是對數學的

主成分分析（PCA）在壓縮影象方面的應用

一、主成分分析的原理主成分分析能夠通過提取資料的主要成分，減少資料的特徵，達到資料降維的目的。具體的原理可參見之前寫的關於PCA原理的一篇文章：二、使用matlab模擬實現%% 利用PCA對影象壓縮 close all clear all clc %% 輸入 In = i

Machine Learning第八講【非監督學習】--（三）主成分分析（PCA）

一、Principal Component Analysis Problem Formulation（主成分分析構思）首先來看一下PCA的基本原理： PCA會選擇投影誤差最小的一條線，由圖中可以看出，當這條線是我們所求時，投影誤差比較小，而投影誤差比較大時，一定是這條線偏離最優直線。

機器學習實戰學習筆記5——主成分分析（PCA）

1.PCA演算法概述 1.1 PCA演算法介紹主成分分析（Principal Component Analysis）是一種用正交變換的方法將一個可能相關變數的觀察值集合轉換成一個線性無關變數值集合的統計過程，被稱為主成分。主成分的數目小於或等於原始

主成分分析（PCA）-理論基礎

要解釋為什麼協方差矩陣的特徵向量可以將原始特徵對映到 k 維理想特徵，我看到的有三個理論：分別是最大方差理論、最小錯誤理論和座標軸相關度理論。這裡簡單探討前兩種，最後一種在討論PCA 意義時簡單概述。最大方差理論在訊號處理中認為訊號具有較大的方差

主成分分析（PCA）的線性代數推導過程

【摘自Ian Goodfellow 《DEEP LEANRNING》一書。覺得寫得挺清楚，儲存下來學習參考使用。】主成分分析(principal components analysis, PCA)是一個簡單的機器學習演算法，可以通過基礎的線性代數知識推導。假設在n維的R空間中我們有 m

用主成分分析（PCA）演算法做人臉識別

詳細資料可以參考https://www.cnblogs.com/xingshansi/p/6445625.html一、概念主成分分析（PCA）是一種統計方法。通過正交變換將一組可能存在相關性的變數轉化為一組線性不相關的變數，轉換後的這組變數叫主成分。二、思想PCA的思想是將n

主成分分析（pca）演算法原理

影象處理中對很多副圖片提取特徵時，由於特徵的維數過高而影響程式的效率，所以用到pca進行特徵降維。那怎樣才能降低維數呢？它又用到了什麼數學方法呢？ 1.協方差矩陣假設有一個樣本集X，裡面有N個樣本，每個樣本的維度為d。即：將這些樣本組織成樣本矩陣形

主成分分析（pca）演算法的實現步驟及程式碼

%%%%%%%%%%%%開啟一個30行8列資料的txt檔案%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% %第一步：輸入樣本矩陣%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% filename='src.txt'; fid=fopen(filename,'

主成分分析（PCA）與Kernel PCA

本部落格在之前的文章【1】中曾經介紹過PCA在影象壓縮中的應用。其基本思想就是設法提取資料的主成分（或者說是主要資訊），然後摒棄冗餘資訊（或次要資訊），從而達到壓縮的目的。本文將從更深的層次上討論PCA

機器學習（十三）：CS229ML課程筆記（9）——因子分析、主成分分析（PCA）、獨立成分分析（ICA）

1.因子分析：高維樣本點實際上是由低維樣本點經過高斯分佈、線性變換、誤差擾動生成的，因子分析是一種資料簡化技術，是一種資料的降維方法，可以從原始高維資料中，挖掘出仍然能表現眾多原始變數主要資訊的低維資料。是基於一種概率模型，使用EM演算法來估計引數。因子分析，是分析屬性們的公

深入學習主成分分析（PCA）演算法原理及其Python實現

一：引入問題　　首先看一個表格，下表是某些學生的語文，數學，物理，化學成績統計：　　首先，假設這些科目成績不相關，也就是說某一科目考多少分與其他科目沒有關係，那麼如何判斷三個學生的優秀程度呢？首先我們一眼就能看出來，數學，物理，化學這三門課的成績構成了這組資料的主成分（很顯然，數學作為第一主成分，

主成分分析（PCA）原理總結

　　　　主成分分析（Principal components analysis，以下簡稱PCA）是最重要的降維方法之一。在資料壓縮消除冗餘和資料噪音消除等領域都有廣泛的應用。一般我們提到降維最容易想到的演算法就是PCA，下面我們就對PCA的原理做一個總結。 1. PCA的思想　　　　PCA顧名思義，就是找出

主成分分析（PCA）

一、PCA簡介主成分分析（Principal Component Analysis，PCA），是一種統計方法。通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數，轉換後的這組變數叫主成分。二、PCA提出的背景在許多領域的研究與應用中，往往需要對反映事物的多個變

使用主成分分析（PCA）方法對資料進行降維

Exploratory Data Analysis

PCA降維

總結

相關推薦