【機器學習】資料降維—主成分分析（PCA）

阿新 • • 發佈：2019-02-08

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。

主成分分析（PCA）

特徵抽取通常用於提高計算效率，降低維度災難。

主成分分析（Principe component analysis，PCA）：

是一種廣泛應用於不同領域的無監督線性資料轉換技術，作用是降維。

常用領域：

股票交易市場資料的探索性分析和訊號去噪、生物資訊學領域的基因組和基因表達水平資料分析

PCA可以基於特徵之間的關係識別出資料內在模式

PCA的目標：在高維資料中找到最大方差的方向，並將資料對映到一個維度不大於原始資料的新的子空間上。

PCA圖：

新特徵的座標是相互正交為約束條件，子空間上的正交的座標軸（PC）為方差最大方向

。

x1和x2為原始特徵座標軸，pc1和pc2為主成分。

構建一個d x k維的轉換矩陣W，將一個樣本向量x對映到一個新的k維特徵子空間上，此空間維度小於原始的d維特徵空間。

完成從原始的d維資料到新的k維子空間轉換後，第一主成分的方差應該最大，由於各主成分是正交的，後續主成分也可能具備更大方差。

主成分方向對資料值的範圍高度敏感，如果特徵值不同維度應該先對特徵標準化處理，讓各特徵具有相同的重要性。

PCA演算法流程：

1、對原始d維資料集做標準化

2、 構造樣本的協方差矩陣

3、 計算協方差矩陣的特徵值和相應的特徵向量

4、 選擇與前k個最大特徵值對應的特徵向量

，其中k為新特徵空間維度(k<=d)

5、通過前k個特徵向量構建對映矩陣W

6、通過對映矩陣W將d維的輸入資料集X轉換到新的k維特徵子空間

第一步，載入資料集，標準化資料集。

# 載入葡萄酒資料集
import pandas as pd
df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None)
# 將資料分成70%的培訓和30%的測試子集。
from sklearn.cross_validation import train_test_split
X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
X_train, X_test, y_train, y_test = \
        train_test_split(X, y, test_size=0.3, random_state=0)
# 使用單位方差標準化
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train_std = sc.fit_transform(X_train)
X_test_std = sc.fit_transform(X_test)

第二步，構造協方差矩陣，dxd維協方差矩陣是沿對角線對稱，d為資料集的維度，矩陣儲存了不同特徵之間的協方差。

協方差公式：

μj和μk分別為特徵j和k的均值。

標準化後均值為0。

兩個特徵之間的協方差為正，則兩個特徵同時遞減。

協方差為負，則兩個特徵反向移動

協方差矩陣的特徵向量代表主成分，對應的特徵值大小決定特徵向量的重要性。

# 協方差矩陣的特徵分解，計算資料集協方差矩陣的特徵對。
import numpy as np
cov_mat = np.cov(X_train_std.T)
eigen_vals, eigen_vecs = np.linalg.eig(cov_mat)
print('\nEigenvalues \n%s' % eigen_vals)

cov函式得到標準化處理的訓練集協方差矩陣

eig函式進行特徵分解，得到特徵向量及其對應的特徵值。

只選擇包含最多資訊的特徵向量組成子集。

特徵值決定了特徵向量的重要性，需要將特徵值按降序排列，取排序在前k的特徵值對應的特徵向量。

繪製特徵值的方差貢獻率影象，某個特徵值與所有特徵值和的比較

# 使用NumPy的cumsum函式，計算累計方差。
tot = sum(eigen_vals)
var_exp = [(i / tot) for i in sorted(eigen_vals, reverse=True)]
cum_var_exp = np.cumsum(var_exp)
# 通過Plo的step繪製
import matplotlib.pyplot as plt
%matplotlib inline
plt.bar(range(1, 14), var_exp, alpha=0.5, align='center',
        label='individual explained variance')
plt.step(range(1, 14), cum_var_exp, where='mid',
         label='cumulative explained variance')
plt.ylabel('Explained variance ratio')
plt.xlabel('Principal components')
plt.legend(loc='best')
plt.tight_layout()
# plt.savefig('./figures/pca1.png', dpi=300)
plt.show()

第一主成分佔方差總和40%，前兩個主成分佔比近60%

PCA是一種無監督方法，可以忽略類標資訊

隨機森林通過類標資訊計算節點的不純度，方差度量的是特徵值在軸線是的分佈。

# 按特徵值的降序排列特徵對
# 列出(特徵值，特徵向量)元組。
eigen_pairs = [(np.abs(eigen_vals[i]), eigen_vecs[:,i]) for i in range(len(eigen_vals))]

# 從高到低排序(特徵值，特徵向量)元組。
eigen_pairs.sort(reverse=True)
# 本案例只選擇前60%的兩個特徵向量
w = np.hstack((eigen_pairs[0][1][:, np.newaxis],
               eigen_pairs[1][1][:, np.newaxis]))
print('Matrix W:\n', w)

# 通過計算矩陣點積，將整個訓練集轉換到包含兩個主成分的子空間上。
X_train_pca = X_train_std.dot(w)

# 視覺化
colors = ['r', 'b', 'g']
markers = ['s', 'x', 'o']

for l, c, m in zip(np.unique(y_train), colors, markers):
    plt.scatter(X_train_pca[y_train==l, 0], 
                X_train_pca[y_train==l, 1], 
                c=c, label=l, marker=m)

plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.legend(loc='lower left')
plt.tight_layout()
# plt.savefig('./figures/pca2.png', dpi=300)
plt.show()

# 使用Scikit-learn進行主成分分析
from sklearn.decomposition import PCA

pca = PCA()
X_train_pca = pca.fit_transform(X_train_std)
# pca.explained_variance_ratio_
plt.bar(range(1, 14), pca.explained_variance_ratio_, alpha=0.5, align='center')
plt.step(range(1, 14), np.cumsum(pca.explained_variance_ratio_), where='mid')
plt.ylabel('Explained variance ratio')
plt.xlabel('Principal components')
plt.show()

pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train_std)
X_test_pca = pca.transform(X_test_std)
plt.scatter(X_train_pca[:,0], X_train_pca[:,1])
plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.show()

# 使用plot_decision_regions函式進行視覺化決策區域
from matplotlib.colors import ListedColormap

def plot_decision_regions(X, y, classifier, resolution=0.02):

    #設定標記生成器和顏色對映。
    markers = ('s', 'x', 'o', '^', 'v')
    colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
    cmap = ListedColormap(colors[:len(np.unique(y))])

    # plot 決定表面
    x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),
                         np.arange(x2_min, x2_max, resolution))
    Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    Z = Z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, Z, alpha=0.4, cmap=cmap)
    plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())

    # plot 類樣本
    for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x=X[y == cl, 0], y=X[y == cl, 1],
                    alpha=0.8, c=cmap(idx),
                    marker=markers[idx], label=cl)

# 使用前兩個主要元件訓練邏輯迴歸分類器
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr = lr.fit(X_train_pca, y_train)
plot_decision_regions(X_train_pca, y_train, classifier=lr)
plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.legend(loc='lower left')
plt.tight_layout()
# plt.savefig('./figures/pca3.png', dpi=300)
plt.show()

SKlearn實現的PCA和之前實現的PCA是經過y軸旋轉後的。

特徵分析方法：特徵向量可以為正或者為負

有時候需要乘上-1在實現影象的映象。

# 繪製邏輯迴歸在轉換後的測試資料上得到的決策區域
plot_decision_regions(X_test_pca, y_test, classifier=lr)
plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.legend(loc='lower left')
plt.tight_layout()
# plt.savefig('./figures/pca4.png', dpi=300)
plt.show()

# 獲取相應的方差貢獻率
pca = PCA(n_components=None)
X_train_pca = pca.fit_transform(X_train_std)
pca.explained_variance_ratio_

【機器學習】資料降維—主成分分析（PCA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。主成分分析（PCA）特徵抽取通常用於提高計算效率，降低維度災難。主成分分析（Principe component analysis，PCA）：是一種廣泛應用於不同領域的無監督

【機器學習】資料降維—線性判別分析（LDA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。線性判別分析（Linear Discriminant Analysis,LDA）是一種可作為特徵抽取的技術 LDA可以提

資料探勘學習------------------1-資料準備-４-主成分分析（PCA）降維和相關係數降維

１.４資料降維在分析多個變數時發現它們中有一定的相關性。有一種方法將多個變數綜合成少數幾個相互無關的代表性變數來代替原來的變數，這就是資料降維，可以考慮主成分分析法。 1)、主成分分析法（PCA） 1、基本思想（1）如果將選取的第一個線性組合即第一個綜合變數記為F

數據降維——主成分分析（PCA）

get none ont chm 公式 == amp aic strong 在數據挖掘過程中，當一個對象有多個屬性（即該對象的測量過程產生多個變量）時，會產生高維度數據，這給數據挖掘工作帶來了難度，我們希望用較少的變量來描述數據的絕大多數信息，此時一個比較好的

【機器學習】資料探勘演算法——關聯規則（一），相關概念，評價指標

綜述：資料探勘是指以某種方式分析資料來源，從中發現一些潛在的有用的資訊，所以資料探勘又稱作知識發現，而關聯規則挖掘則是資料探勘中的一個很重要的課題，顧名思義，它是從資料背後發現事物之間可能存在的關聯或者聯絡。關聯規則的目的在於在一個數據集中找出項之間的關

【機器學習】資料探勘演算法——關聯規則（二），挖掘過程，Aprioir演算法

關聯規則挖掘的原理和過程從關聯規則（一）的分析中可知，關聯規則挖掘是從事務集合中挖掘出這樣的關聯規則：它的支援度和置信度大於最低閾值（minsup,minconf），這個閾值是由使用者指定的。根據 support=(X,Y).count/T.countsupp

Machine Learning第八講【非監督學習】--（三）主成分分析（PCA）

一、Principal Component Analysis Problem Formulation（主成分分析構思）首先來看一下PCA的基本原理： PCA會選擇投影誤差最小的一條線，由圖中可以看出，當這條線是我們所求時，投影誤差比較小，而投影誤差比較大時，一定是這條線偏離最優直線。

使用主成分分析（PCA）方法對資料進行降維

我們知道當資料維度太大時，進行分類任務時會花費大量時間，因此需要進行資料降維，其中一種非常流行的降維方法叫主成分分析。 Exploratory Data Analysis 鳶尾花資料集： import numpy as np from skle

[python機器學習及實踐(6)]Sklearn實現主成分分析（PCA）

相關性 hit 變量 gray tran total 空間 mach show 1.PCA原理主成分分析（Principal Component Analysis，PCA），是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量，轉換後的這組

【原始碼】主成分分析（PCA）與獨立分量分析（ICA）MATLAB工具箱

本MATLAB工具箱包含PCA和ICA實現的多個函式，並且包括多個演示示例。在主成分分析中，多維資料被投影到最大奇異值相對應的奇異向量上，該操作有效地將輸入訊號分解成在資料中最大方差方向上的正交分量。因此，PCA常用於維數降低的應用中，通過執行PCA產生資料的低維表示，同時，該低維表

機器學習實戰學習筆記5——主成分分析（PCA）

1.PCA演算法概述 1.1 PCA演算法介紹主成分分析（Principal Component Analysis）是一種用正交變換的方法將一個可能相關變數的觀察值集合轉換成一個線性無關變數值集合的統計過程，被稱為主成分。主成分的數目小於或等於原始

機器學習（十三）：CS229ML課程筆記（9）——因子分析、主成分分析（PCA）、獨立成分分析（ICA）

1.因子分析：高維樣本點實際上是由低維樣本點經過高斯分佈、線性變換、誤差擾動生成的，因子分析是一種資料簡化技術，是一種資料的降維方法，可以從原始高維資料中，挖掘出仍然能表現眾多原始變數主要資訊的低維資料。是基於一種概率模型，使用EM演算法來估計引數。因子分析，是分析屬性們的公

優達機器學習：主成分分析（PCA）

主成分是由資料中具有最大方差的方向決定的，因為可以最大程度的保留資訊量我理解相當於降維，也就是將特徵通過降維的方式減少方差最大化相當於將所有的距離最小化，這個方差和平時理解的方差不太一樣 PCA可以幫助你發現數據中的隱藏特徵，比如說得到總體上有兩個因素推動

【轉】主成分分析（PCA）原理解析

本文轉載於 http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html 主成分分析（Principal components analysis）-最大方差解釋在這一篇之前的

深入學習主成分分析（PCA）演算法原理及其Python實現

一：引入問題　　首先看一個表格，下表是某些學生的語文，數學，物理，化學成績統計：　　首先，假設這些科目成績不相關，也就是說某一科目考多少分與其他科目沒有關係，那麼如何判斷三個學生的優秀程度呢？首先我們一眼就能看出來，數學，物理，化學這三門課的成績構成了這組資料的主成分（很顯然，數學作為第一主成分，

主成分分析（PCA）原理詳解（轉載）

增加信息什麽之前 repl 神奇 cto gmail 協方差一、PCA簡介 1. 相關背景上完陳恩紅老師的《機器學習與知識發現》和季海波老師的《矩陣代數》兩門課之後，頗有體會。最近在做主成分分析和奇異值分解方面的項目，所以記錄一下心得體會。

主成分分析（PCA）詳細講解

介紹主成分分析（Principal Component Analysis，PCA）是一種常用的資料降維演算法，可以將高維度的資料降到低維度，並且保留原始資料中最重要的一些特徵，同時去除噪聲和部分關聯特徵，從而提高資料的處理效率，降低時間成本。資料降維優點：低維資

主成分分析（PCA）原理詳解

1. 問題真實的訓練資料總是存在各種各樣的問題： 1、比如拿到一個汽車的樣本，裡面既有以“千米/每小時”度量的最大速度特徵，也有“英里/小時”的最大速度特徵，顯然這兩個特徵有一個多餘。 2、拿到一個數學系的本科生期末考試成績單，裡面有三列，一列是對數學的

主成分分析（PCA）在壓縮影象方面的應用

一、主成分分析的原理主成分分析能夠通過提取資料的主要成分，減少資料的特徵，達到資料降維的目的。具體的原理可參見之前寫的關於PCA原理的一篇文章：二、使用matlab模擬實現%% 利用PCA對影象壓縮 close all clear all clc %% 輸入 In = i

主成分分析（PCA）-理論基礎

要解釋為什麼協方差矩陣的特徵向量可以將原始特徵對映到 k 維理想特徵，我看到的有三個理論：分別是最大方差理論、最小錯誤理論和座標軸相關度理論。這裡簡單探討前兩種，最後一種在討論PCA 意義時簡單概述。最大方差理論在訊號處理中認為訊號具有較大的方差

【機器學習】資料降維—主成分分析（PCA）

主成分分析（PCA）

相關推薦