使用PCA對資料集進行降維

阿新 • • 發佈：2018-11-26

使用PCA對資料集進行降維

一、實驗準備

1、實驗內容和目的

使用主成分分析(PCA)對鳶尾花資料集進行降維操作，其中要求繪製出降維後的資料分佈散點圖並說明降維後的維度，提取的主成分的特徵值
其中資料集檔案為iris.data.txt。資料集中的每個樣本有4個特徵引數，最後的標籤為鳶尾花的類別

2、實驗原理

前面學習到了KNN分類演算法，然後使用KNN演算法進行鳶尾花的分類。分類時，雖然將資料集中的所有特徵都納入了考慮範圍，都參與了計算，但由於只有4個特徵，並不會明顯地加大計算的複雜程度。但如果處理別的資料集時，假如此時的樣本擁有成百上千個特徵，還會一樣的輕鬆嗎？
想象這樣一種場景：我們正通過電視而非現場觀看體育比賽，在電視上的純平顯示器上有一個球。顯示器大概包含了100萬畫素，而球則可能是由較少的畫素組成的，比如說一千個畫素。在大部分體育比賽中，我們關注的是給定時刻球的位置。人的大腦要想了解比賽的進展，就需要了解球在運動場中的位置。對於人來說，這一切顯得十分自然，甚至都不需要做任何思考。在這個場景當中，人們實時地將顯示器上的百萬畫素轉換成為了一個三維影象，該影象就給出了運動場上球的位置。在這個過程中，人們已經將資料從一百萬維降至了三維
在上述體育比賽的例子中，人們面對的原本是百萬畫素的資料，但是隻有球的三維位置才最重要，這就稱作降維。在低維下，資料更容易進行處理。另外，其相關特徵可能在資料中明確地顯示出來
降維就是對高維度特徵的一種預處理方法，它將高維度的資料保留下最重要的一些特徵，去除噪聲和不重要的特徵，從而實現提升資料處理速度的目的。在實際的生產和應用當中，降維在一定的資訊損失範圍內，可以為我們節省大量的時間和成本。降維也成為了應用非常廣泛的資料預處理方法
主成分分析(PCA)就是一種降維技術，它通過正交變換把可能線性相關的變數轉換為幾乎線性無關的變數，這些變數就是所謂的“主成分”

2.1 PCA的工作原理

在PCA中，資料從原來的座標系轉換到新的座標系，由資料本身決定。轉換座標系時，以方差最大的方向作為座標軸方向，因為資料的最大方差給出了資料的最重要資訊。第一個新座標軸選擇的是原始資料中方差最大的方向，第二個新座標軸選擇的是與第一個新座標軸正交且方差次大的方向。重複該過程，重複次數為原始資料的特徵維數
通過這種方式獲得的新的座標系，大部分方差都包含在前面幾個座標軸中，後面的座標軸所含的方差幾乎為0。於是，我們可以忽略餘下的座標軸，只保留前面的幾個含有絕大部份方差座標軸。事實上，這樣也就相當於只保留包含絕大部分方差的維度特徵，而忽略包含方差幾乎為0的特徵維度，也就實現了對資料特徵的降維處理

2.2 計算協方差矩陣

PCA的原理已經知道了，那麼我們如何得到這些包含最大差異性的主成分方向呢？事實上，通過計算資料矩陣的協方差矩陣，然後得到協方差矩陣的特徵值及特徵向量，選擇特徵值最大(也即包含方差最大)的N個特徵所對應的特徵向量組成的矩陣，我們就可以將資料矩陣轉換到新的空間當中，實現資料特徵的降維
這裡說一下方差和協方差之間的關係，首先看一下均值、方差和協方差的計算公式：

$\overline{X}=\frac{1}{N}\sum_{i=1}^NX_i$

$S=\frac{1}{N-1}\sum_{i=1}^N(X_i-\overline{X})^2$

$C=\frac{1}{N-1}\sum_{i=1}^N(X_i-\overline{X})(Y_i-\overline{Y})$

由上面的公式，我們可以得到以下兩點：
- 方差的計算針對一維特徵，即針對同一特徵不同樣本的曲直來進行計算得到；而協方差則必須要求至少滿足二維特徵
- 方差和協方差的除數是 N-1，這樣是為了得到方差和協方差的無偏估計

二、進行實驗

1、演算法思路

在第一部分中已經詳細地說明了PCA的工作原理以及具體的實現方法，即為演算法思路

2、演算法步驟

(1) 對資料集進行處理，提出每個樣本的特徵引數集
(2) 將特徵引數集組織成 $m$ 行 $n$ 列的矩陣 $X$
(3) 進行零均值化
(4) 求出協方差矩陣 $C=\frac{1}{m-1}X^TX$
(5) 求出協方差矩陣的特徵值以及對應的特徵向量
(6) 將特徵向量按照對應的特徵值大小進行排序，然後取前k列組成矩陣 $P$
(7) 矩陣 $X$ 是 $m$ 行 $n$ 列的矩陣，矩陣 $P$ 是 $n$ 行 $k$ 列的矩陣
(8) $Y=X*P$ 即為降維到 $k$ 維後的資料矩陣

3、程式碼實現

注：由於這次實驗對應的OJ題目要求提交程式碼進行評測，而OJ題目有一些具體的輸入輸出要求，所以我實現的程式碼就不基於使用本地的資料檔案，最後實現的效果和繪製的散點圖均具體進行描述
具體的功能實現在程式碼中的註釋均進行了詳細說明

#!/usr/bin/python
# -*- coding utf-8 -*-
# Project: PCA
# Author: jiangnan 
# Mail: [email protected]
# Date: 2018/10/27

import numpy as np

def loadDataSet():
    """
    函式說明：
        處理資料集的輸入，將其進行處理後以矩陣的形式返回
    :return:
        np.mat(stringArr) - 矩陣形式的資料集
    """
    stringArr = []
    for i in range(m):
        line = input().split(',')   #輸入的資料以逗號分隔，以此進行分詞
        tempArr = []
        for j in line:
            tempArr.append(float(j))    #轉換為float型別
        stringArr.append(tempArr)
    return np.mat(stringArr)    #返回資料矩陣

def pca():
    """
    函式說明：
        對資料集進行PCA操作
    """
    meanVals = np.mean(dataMat, axis=0)
    meanRemoved = dataMat - meanVals    #零均值化

    covMat = np.cov(meanRemoved, rowvar=0)  #求協方差矩陣

    eigVals, eigVects = np.linalg.eig(np.mat(covMat))   #求特徵值和特徵向量

    eigValInd = np.argsort(eigVals)  #對特徵值的下標進行排序操作


    eigValInd_re = eigValInd[: -(k + 1): -1]    #取出最大的k個特徵值

    for i in eigValInd_re:       #根據OJ的要求，輸出特徵值
        print(eigVals[i], end=' ')
    print()

    eigValInd = reversed(eigValInd)

    for i in eigValInd:         #根據OJ的要求，輸出特徵向量
        for j in range(k):
            print(eigVects[i, j], end=' ')
        print()


    redEigVects = eigVects[: ,eigValInd_re]

    lowDDataMat = meanRemoved * redEigVects     #計算獲得降維到k維後的資料矩陣

    for i in range(m):          #根據OJ的要求，輸出降維後的資料矩陣
        for j in range(k):
            print(lowDDataMat[i, j], end=' ')
        print()


m, n, k = map(int, input().split()) #m和n標示輸入資料的行和列，k標示降至k維

dataMat = loadDataSet()

pca()

3、實現效果

3.1 OJ測評結果

在這裡插入圖片描述

3.2 繪製散點圖

(1) 繪製一維圖

在這裡插入圖片描述

(2) 繪製二維圖

在這裡插入圖片描述

(3) 使用PCA降至3維

在這裡插入圖片描述

4、總結

大致總結了PCA(主成分分析)的優缺點：
- 優點：降低資料的複雜性，識別最重要的多個特徵
- 缺點：可能損失有用資訊

使用PCA對資料集進行降維

使用PCA對資料集進行降維一、實驗準備 1、實驗內容和目的使用主成分分析(PCA)對鳶尾花資料集進行降維操作，其中要求繪製出降維後的資料分佈散點圖並說明降維後的維度，提取的主成分的特徵值其中資料集檔案為iris.data.txt。

Bobo老師機器學習筆記第七課-使用PCA對MNIST資料集進行降噪

問題1：什麼是MNIST資料集？ MNIST 資料集來自美國國家標準與技術研究所, National Institute of Standards and Technology (NIST). 訓練集 (training set) 由來自 250 個不同人手寫的數字構成

資料處理-------利用jieba對資料集進行分詞和統計頻數

一，對txt檔案中出現的詞語的頻數統計再找出出現頻率多的二，程式碼： import re from collections import Counter import jieba def cut_word(datapath): with open(

【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（下）

上一篇中我們簡單的介紹了利用線性迴歸分析並預測波士頓房價資料集，那麼在這一篇中，將使用相同的模型來對紅酒資料集進行分析。 1 基本要求利用線性迴歸，對紅酒資料集進行分析。資料集下載地址。 2 完整程式碼 #-*- codin

【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（上）

本篇筆記是《從自然語言處理到機器學習入門》課程第三次作業的上篇，主要是復現了老大課上講的利用線性迴歸對波士頓房價進行預測的實驗。在下篇中，將利用該模型對紅酒資料集進行線性迴歸分析。 1 基本要求利用提供的波士頓房價資料，對其進行分析。資

【python】pytorch中如何使用DataLoader對資料集進行批處理

第一步：我們要建立torch能夠識別的資料集型別（pytorch中也有很多現成的資料集型別，以後再說）。首先我們建立兩個向量X和Y，一個作為輸入的資料，一個作為正確的結果：隨後我們需要把X和Y組成一個完整的資料集，並轉化為pytorch能

【自然語言處理入門】01：利用jieba對資料集進行分詞，並統計詞頻

一、基本要求使用jieba對垃圾簡訊資料集進行分詞，然後統計其中的單詞出現的個數，找到出現頻次最高的top100個詞。二、完整程式碼 # -*- coding: UTF-8 -*- fr

Delphi中使用cxGrid對資料集進行Sort和Locate操作

　　核心提示：在編寫某個系統時，由於使用了資料集型別無關技術(即資料集可能是ADOQuery，也有可能是TClientDataSet等等)。當需要對資料進行排序和查詢時，只好利用cxGrid自身的功能來實現：fun... 在編寫某個系統時，由於使用了資料集型別無關技術(即資料集可能是ADOQuery，也有可

使用labelImg對資料集進行標註

labelImg下載地址：使用方法： Click 'Change default saved annotation folder' in Menu/File：改變儲存路徑Click 'Open Dir'：開啟當前資料夾下所有圖片Click 'Create RectBo

Caffe程式碼導讀（5）：對資料集進行Testing

上一篇介紹瞭如何準備資料集，做好準備之後我們先看怎樣對訓練好的模型進行Testing。先用手寫體識別例子，MNIST是資料集（包括訓練資料和測試資料），深度學習模型採用LeNet（具體介紹見http://yann.lecun.com/exdb/lenet/），由Yann Le

使用主成分分析（PCA）方法對資料進行降維

我們知道當資料維度太大時，進行分類任務時會花費大量時間，因此需要進行資料降維，其中一種非常流行的降維方法叫主成分分析。 Exploratory Data Analysis 鳶尾花資料集： import numpy as np from skle

使用PCA對特徵資料進行降維

PCA（Principal Component Analysis）是機器學習中對資料進行降維的一種方法。主要目的是在不丟失原有資料資訊的情況下降低機器學習演算法的複雜度，及資源消耗。本篇文章將使用python對特徵進行降維。 PCA通過線性變換將原始資料中可能相關的資料轉換為一組線性不相

PCA演算法 | 資料集特徵數量太多怎麼辦？用這個演算法對它降維打擊！

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是機器學習專題的第27文章，我們一起來聊聊資料處理領域的降維(dimensionality reduction)演算法。我們都知道，圖片格式當中有一種叫做svg，這種格式的圖片無論我們將它放大多少倍，也不會失真更不會出現邊緣模糊的

Deep Learning 16：用自編碼器對資料進行降維_讀論文“Reducing the Dimensionality of Data with Neural Networks”的筆記

前言筆記摘要：高維資料可以通過一個多層神經網路把它編碼成一個低維資料，從而重建這個高維資料，其中這個神經網路的中間層神經元數是較少的，可把這個神經網路叫做自動編碼網路或自編碼器（autoencoder）。梯度下降法可用來微調這個自動編碼器的權值，但是隻有在初始化權值較好時才能得到最優解，不然就

R_Studio(關聯)對Groceries資料集進行關聯分析

　　　　　　RGui的arules程式包裡含有Groceries資料集，該資料集是某個雜貨店一個月真實的交易記錄，共有9835條消費記錄，169個商品 #install.packages("arules") libra

如何使用Java資料集進行web端的多維分析操作

看到文章標題，顧名思義應該也曉得本篇文章的重點內容是要說啥了吧？沒錯，就是想針對程式資料集上的多維分析嘮幾毛錢的！所謂程式資料集，是指資料來源不是來自檔案和SQL，而是由程式現計算出來的。這種情況在許多BI系統中都會出現，BI系統自己管理資料模型，把資料庫擋在後面，不會直接開

[譯]使用 Pandas 對 Kaggle 資料集進行統計資料分析

原文地址：EXPLORATORY STATISTICAL DATA ANALYSIS WITH A KAGGLE DATASET USING PANDAS 原文作者：Strikingloo 譯文出自：掘金翻譯計劃本文永久連結：github.com/xitu/gold-m…

Tensorflow學習教程------利用卷積神經網路對mnist資料集進行分類_利用訓練好的模型進行分類

#coding:utf-8 import tensorflow as tf from PIL import Image,ImageFilter from tensorflow.examples.tutorials.mnist import input_data def imageprepare(ar

keras RNN、LSTM對IMDB資料集進行分類

本文介紹如何基於keras採用RNN和LSTM對IMDB資料集進行分類。示例程式碼： from keras.layers import SimpleRNN from keras.models import Sequential from keras.layers import Embedd

keras對貓、狗資料集進行分類（三）

使用已訓練模型對貓狗圖片進行測試，以及視覺化模型訓練過程。示例程式碼： # # 視覺化卷積神經網路 # # 人們常說，深度學習模型是“黑盒子”，學習表示難以提取並以人類可讀的形式呈現。 # 雖然對於某些型別的深度學習模型來說這是部分正確的，但對於小行星來說絕對不是這樣。 # 由con

使用PCA對資料集進行降維

使用PCA對資料集進行降維

一、實驗準備

1、實驗內容和目的

2、實驗原理

2.1 PCA的工作原理

2.2 計算協方差矩陣

二、進行實驗

1、演算法思路

2、演算法步驟

3、程式碼實現

3、實現效果

3.1 OJ測評結果

3.2 繪製散點圖

4、總結

相關推薦