chapter02 PCA主成分分析在手寫數字識別分類的應用

阿新 • • 發佈：2017-10-12

git 性能 .cn its nts line hive 基礎上存儲

#coding=utf8
# 導入numpy工具包。
import numpy as np
# 導入pandas用於數據分析。
import pandas as pd

from sklearn.metrics import classification_report
# 從sklearn.decomposition導入PCA。
from sklearn.decomposition import PCA

# 從互聯網讀入手寫體圖片識別任務的訓練數據，存儲在變量digits_train中。
digits_train = pd.read_csv(‘https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits.tra 
‘, header=None)

# 從互聯網讀入手寫體圖片識別任務的測試數據，存儲在變量digits_test中。
digits_test = pd.read_csv(‘https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits.tes‘, header=None)
# 對訓練數據、測試數據進行特征向量（圖片像素）與分類目標的分隔。
X_train = digits_train[np.arange(64)]
y_train = digits_train[64]
X_test = digits_test[np.arange(64)]
y_test  
= digits_test[64]

# 導入基於線性核的支持向量機分類器。
from sklearn.svm import LinearSVC

# 使用默認配置初始化LinearSVC，對原始64維像素特征的訓練數據進行建模，並在測試數據上做出預測，存儲在y_predict中。
svc = LinearSVC()
svc.fit(X_train, y_train)
y_predict = svc.predict(X_test)

# 使用PCA將原64維的圖像數據壓縮到20個維度。
estimator = PCA(n_components=20)

# 利用訓練特征決定（fit）20個正交維度的方向，並轉化（transform）原訓練特征。 

pca_X_train = estimator.fit_transform(X_train)
# 測試特征也按照上述的20個正交維度方向進行轉化（transform）。
pca_X_test = estimator.transform(X_test)

# 使用默認配置初始化LinearSVC，對壓縮過後的20維特征的訓練數據進行建模，並在測試數據上做出預測，存儲在pca_y_predict中。
pca_svc = LinearSVC()
pca_svc.fit(pca_X_train, y_train)
pca_y_predict = pca_svc.predict(pca_X_test)


# 對使用原始圖像高維像素特征訓練的支持向量機分類器的性能作出評估。
print svc.score(X_test, y_test)
print classification_report(y_test, y_predict, target_names=np.arange(10).astype(str))

# 對使用PCA壓縮重建的低維圖像特征訓練的支持向量機分類器的性能作出評估。
print pca_svc.score(pca_X_test, y_test)
print classification_report(y_test, pca_y_predict, target_names=np.arange(10).astype(str))

結果：

技術分享

分析：雖然損失了%3的預測準確性，但是相比於原來的64維特征，使用PCA壓縮並降低了68.75%的維度，能改節省大量的訓練時間，在保持數據多樣性的基礎上，規避掉了大量特征冗余和噪聲。

chapter02 PCA主成分分析在手寫數字識別分類的應用

git 性能 .cn its nts line hive 基礎上存儲 #coding=utf8 # 導入numpy工具包。 import numpy as np # 導入pandas用於數據分析。 import pandas as pd from sklearn.me

PCA(主成分分析)原理,步驟詳解以及應用

主成分分析(PCA, Principal Component Analysis) 一個非監督的機器學習演算法主要用於資料的降維處理通過降維,可以發現更便於人類理解的特徵其他應用:資料視覺化,去噪等主成分分析是儘可能地忠實再現原始重要資訊的資料降維方法原理推導: 如圖,

pytorch 利用lstm做mnist手寫數字識別分類

程式碼如下，U我認為對於新手來說最重要的是學會rnn讀取資料的格式。 # -*- coding: utf-8 -*- """ Created on Tue Oct 9 08:53:25 2018 @author: www """ import sys sys.path

【機器學習算法-python實現】PCA 主成分分析、降維

pre gre text iss 主成分分析 int 找到 nts 導入 1.背景 PCA(Principal Component Analysis)，PAC的作用主要是減少數據集的維度，然後挑選出基本的特征。 PCA的主要思想是移動坐標軸，找

PCA主成分分析Python實現

more 公式最大最重要的例如好的 mina details args 作者：拾毅者出處：http://blog.csdn.net/Dream_angel_Z/article/details/50760130 Github源代碼：https

機器學習之PCA主成分分析

ping app 最大們的理解 style 避免 -m size 前言以下內容是個人學習之後的感悟，轉載請註明出處~ 簡介　　在用統計分析方法研究多變量的課題時，變量個數太多就會增加課題的復雜性。人們自然希望變量個數較少而得到的信息較

PCA主成分分析 R語言

number ble 輸入 null Language 差值 rotation test 根據 1. PCA優缺點利用PCA達到降維目的，避免高維災難。 PCA把所有樣本當作一個整體處理，忽略了類別屬性，所以其丟掉的某些屬性可能正好包含了重要的分類信息 2. PCA原

降維——PCA主成分分析

運用二維降維到一維的例子幫助理解對於如下二維資料 PCA演算法會試圖尋找一條直線使得所有資料到這個直線的距離的平方和最小（”投影誤差“最小）（圖中所有藍色線長度的平方和）（注意：做PCA之前需要將資料進行標準化，將資料對映到（0，1）區間內）對於以下兩種情況，PCA會選擇紅色線更

PCA(主成分分析)降維的概念、作用及演算法實現

1、PCA降維的概念 Principal Component Analysis(PCA)：主成分分析法，是最常用的線性降維方法。它的目標是通過某種線性投影，將高維的資料對映到低維的空間中表示，即把原先的n個特徵用數目更少的m個特徵取代，新特徵是舊特徵的線性組合。並期望在所投影的維度上資料的方

【模式識別與機器學習】——PCA主成分分析

基本思想其基本思想就是設法提取資料的主成分（或者說是主要資訊），然後摒棄冗餘資訊（或次要資訊），從而達到壓縮的目的。本文將從更深的層次上討論PCA的原理，以及Kernel化的PCA。引子首先我們來考察一下，這裡的資訊冗餘是如何體現的。如下圖所示，我們有一組二維資料點，從圖上不難發現

CS229 6.6 Neurons Networks PCA主成分分析

主成分分析（PCA）是一種經典的降維演算法，基於基變換，資料原來位於標準座標基下，將其投影到前k個最大特徵值對應的特徵向量所組成的基上，使得資料在新基各個維度有最大的方差，且在新基的各個維度上資料是不相關的，PCA有幾個關鍵的點： 1）歸一化均值與方差，均值歸一化後便於計算，方差歸一化後便於對各個維度進行比

十分鐘搞定PCA主成分分析

PCA主成分分析概述在資料建模當中我們經常會聽到一個詞叫做降維，首先咱們先來嘮一嘮資料為啥要降維呢？最主要的原因還是在於一方面使得所需要計算的量更少啦，想象一下一個100維的資料和一個10維資料計算的速度肯定是不一樣的，另一方面如果我們的資料中有很無關特徵，這些對結果看起來沒什麼促進的作用

機器學習筆記(四）PCA主成分分析

首先先複習一下要用到的基礎的知識：（一）、協方差和方差樣本均值：樣本方差：樣本X和樣本Y的協方差：協方差代表了兩個變數之間的相關關係，協方差為正時，說明X和Y是正相關關係；協方差為負時，說明X和Y是負相關關係；協方差為0時，說明X和Y是相互獨立

臨時抱佛腳的Machine Learning 01-PCA主成分分析

PCA演算法作者：桂。時間：2017-02-26 19:54:26 前言本文為模式識別系列第一篇，主要介紹主成分分析演算法（Principal Component Analysis，PCA）的理論，並附上相關程式碼。全文主要分六個部分展開：　　1

PCA主成分分析之三維演示(Matlab)

PCA主成分分析之三維演示(Matlab) 寫這個的主要原因是實驗課上的要求，原本需要寫一個演示 PCA 原理的 demo ，按照實驗指導書上來說，在二維上演示就好了，但是為了折騰和無聊裝逼，我寫了這個程式，我覺得更能直觀的看出 PCA 的原理。可以完整的看到資料從三維降到二維

資料降維(三)PCA主成分分析

文章目錄 PCA主成分分析目標函式1:最小化重建誤差目標函式2：最大化方差 PCA目標函式計算求解PCA(1) 表現求解PCA(2) PCA總結 PCA主成分分析目標

KNN / SVM 手寫數字識別-PCA降維

一.問題分析採用機器學習演算法對usps和mnist兩個資料集完成手寫數字識別任務。1.1.資料集介紹MNIST MNIST 資料集來自美國國家標準與技術研究所, National Institute of Standards and Technology (NIST)。訓練

R語言 PCA(主成分分析）

1、關鍵點綜述：主成分分析因子分析典型相關分析，三種方法的共同點主要是用來對資料降維處理的從資料中提取某些公共部分，然後對這些公共部分進行分析和處理。 #主成分分析是將多指標化為少數幾個綜合指標的一種統計分析方法主成分分析是一種通過降維技術把多個變數化成少數幾個主成分的方法，這些主成分能夠反映原

機器學習---降維之PCA主成分分析法

（一）、主成分分析法PCA簡介 PCA 目的：降維——find a low dimension surface on which to project data ~如圖所示，尋找藍色的點到

PCA主成分分析（入門計算+深入解析）(一)

PCA主成分分析（入門+深入）+最大方差理論+幾何意義 Principal components analysis 我們在作資料分析處理時，資料往往包含多個變數，而較多的變數會帶來分析問題的複雜性。主成分分析（Principal componen

chapter02 PCA主成分分析在手寫數字識別分類的應用

相關推薦