機器學習：PCA（實例：MNIST數據集）

阿新 • • 發佈：2018-07-03

還需要 bsp ase rom clas fit 疑問現象 arr

一、數據

獲取數據

import numpy as np
from sklearn.datasets import fetch_mldata

mnist = fetch_mldata("MNIST original")

sklearn 的 datasets 中，一個特有的方法：fetch_mldata，使用此方法可以直接從一個官方網站中下載各種機器學習數據；
格式：datas = fetch_mldata("字符串")；

查看數據

mnist
# 輸出：
{‘COL_NAMES‘: [‘label‘, ‘data‘],
 ‘DESCR‘: ‘mldata.org dataset: mnist-original 
‘,
 ‘data‘: array([[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ...,
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0]], dtype=uint8),
 ‘target‘: array([0., 0., 0., ..., 9., 9., 9.])}

mnist 是一個字典：‘COL_NAMES‘、‘DESCR‘、‘data‘、‘target‘；

‘DESCR‘：表示 MNIST 數據集所在的網站；

處理數據

X, y = mnist[‘data‘], mnist[‘target‘]

X.shape
# 輸出：（70000, 784）

X_train = np.array(X[:60000], dtype=float)
y_train = np.array(y[:60000], dtype=float)
X_test = np.array(X[60000:], dtype=float)
y_test = np.array(y[60000:], dtype=float)

此處沒有進行數據歸一化處理，因為現在的樣本數據整體來說都表示圖像中相應的一個像素點的亮度，也就是說，雖然整體數據沒有進行歸一化處理，但他們還在同一個尺度上，所以此數據集不需要進行歸一化處理；

數據歸一化的主要意義：當數據的尺度不同時，要把數據放在同一個尺度上；

二、算法

使用 kNN 算法進行識別操作（數據不降維）

from sklearn.neighbors import KNeighborsClassifier

knn_clf = KNeighborsClassifier()
%time knn_clf.fit(X_train, y_train)
# 輸出：44.9 s


knn_clf.score(X_test, y_test)
# 輸出：0.9688

kNN 算法中還需要進行調參：k、weight

使用 kNN算法進行識別操作（PCA降維數據）

from sklearn.decomposition import PCA

# 只保留樣本的 90% 的信息
pca = PCA(0.9)

pca.fit(X_train)
X_train_reduction = pca.transform(X_train)

X_train_reduction.shape
# 輸出：（60000, 87）


knn_clf = KNeighborsClassifier()
%time knn_clf.fit(X_train_reduction, y_train)
# 輸出：602 s


X_test_reduction = pca.transform(X_test)
%time knn_clf.score(X_test_reduction, y_test)
# 輸出：1 min  27 s      0.9728

PCA(0.9)：只保留樣本的 90% 的信息，也就是能解釋 90% 原是數據方差的前 n 個主成分；
(60000, 87)：將樣本從 784 維，降低至 87 維，保留了樣本 90% 的信息；

分析：數據使用 PCA 降維前後的效果

現象：識別準確度提高了，預測時間縮短了；
使用 PCA 將數據降維後的優點：識別準確度提高了，預測時間縮短了，減小了數據和存儲空間；
疑問：為什麽 PCA 的過程中丟失了 10% 的信息，識別準確度反而提高了？
答疑：實際上 PCA 這個過程中，不僅僅對原始數據進行了降維，更有可能在降維的過程中將原有的數據所包含的噪音消除了，使得數據集中更好的特征，以至於識別準確率得到提升；

機器學習：PCA（實例：MNIST數據集）

還需要 bsp ase rom clas fit 疑問現象 arr 一、數據獲取數據 import numpy as np from sklearn.datasets import fetch_mldata mnist = fetch_mldata("MNIST

機器學習入門——線性回歸預測廣告投入數據集

continue 結果手寫 alt iter 根路徑 num 三種不同的 0.Advertising數據集　　Advertising數據集是關於廣告收益與廣告在不同的媒體上投放的相關數據，分別是在TV，Radio，Newspaper三種媒體上投放花費與，投放所產生的

一起talk C栗子吧（第一百一十九回：C語言實例--線程死鎖三）

取數 string value reading sel 一個 second key 而且各位看官們。大家好，上一回中咱們說的是線程死鎖的樣例，這一回咱們繼續說該樣例。閑話休提，言歸正轉。讓我們一起talk C栗子吧！看官們，由於篇幅的原因我們

Odoo10學習筆記三：模型（結構化的應用數據）、視圖（用戶界面設計）

其他描述用戶界面列表支持字段界面設計允許學習一：模型 1：創建模型模型屬性：模型類可以使用一些屬性來控制它們的一些行為： _name ：創建odoo模型的內部標識符，必含項。 _description ：當用戶界面顯示模型時，一個方便用戶的模型記錄標題。

機器學習實戰第8章預測數值型數據：回歸

矩陣向量 from his sca ima 用戶 targe 不可 1.簡單的線性回歸假定輸入數據存放在矩陣X中，而回歸系數存放在向量W中，則對於給定的數據X1，預測結果將會是　　　　　　　　　　　　　　　　這裏的向量都默認為列向量現在的問題是手裏有一些x

機器學習實戰——PCA（主成分分析）

本章關於PCA的程式碼雖少，但涉及到的知識卻很多，由於數學知識比較淺薄，所以在看這章時提前查詢資料複習了很多的概率論和統計學知識和python基礎知識，這裡記錄的很多都是關於PCA的相關知識或理論（例如：特徵向量、協方差矩陣等），由於部分知識涉及較多，講的有點詳細所以文章篇幅

機器學習讀書筆記（高斯混合模型GMM與EM）（改）

高斯混合模型（Gaussian mixture model，GMM）是單一高斯概率密度函式的延伸。GMM能夠平滑地近似任意形狀的密度分佈。欲瞭解高斯混合模型，那就先從基礎的單一高斯概率密度函式講起。（數學公式字型太難看了！！！！！！！）注意：這一一篇致力於詳

vue.js學習筆記（Vuejs——組件——props數據傳遞）

元素綁定筆記即使大小寫 return span com 簡單 ①組件實例的作用域：是孤立的，簡單的來說，組件和組件之間，即使有同名屬性，值也不共享。 <div id="app"> <add></add>

AJAX(四）實例 -- json格式數據

net IE 希望語言 dom 來看 .net dom操作服務端　　本期來講解在AJAX中使用json格式數據。不過我們先不說json的事，先來做個案例，然後由這個案例我們再來討論為啥要用json數據，以及怎麽用。一、案例　非常經典，也是非常簡單的AJAX案例

機器學習之利用KNN近鄰算法預測數據

plt 部分制圖標簽預測最近鄰特征值 learn xlsx 前半部分是簡介, 後半部分是案例 KNN近鄰算法: 簡單說就是采用測量不同特征值之間的距離方法進行分類（k-Nearest Neighbor，KNN）優點: 精度高、對異常值不敏感、無數據輸入假定缺

Oracle實例和Oracle數據庫(Oracle體系結構)

ObjectDataSource配合存儲過程（采用數據集）的使用（刪除可以解決，但是編輯出錯好像它的方法也無法解決

database true base fault 來源 window ble red rom 原文發布時間為：2008-08-01 —— 來源於本人的百度文章 [由搬家工具導入]ObjectDataSource是比较有

將普通的圖像數據制作成類似於MNIST數據集的.gz文件（數據集制作）

lena 文件的 else offset set next ems ons error 做完MNIST數據集的訓練之後，我們想把自己的數據也拿來做一下相關的訓練，那麽如果調用MNIST數據讀取的接口就需要按照他的數據格式來存取數據，首先來看看這個接口（input_data

matlab練習程序（神經網絡識別mnist手寫數據集）

sum else ref rate 標準個數權重矩陣 ros learn 記得上次練習了神經網絡分類，不過當時應該有些地方寫的還是不對。這次用神經網絡識別mnist手寫數據集，主要參考了深度學習工具包的一些代碼。 mnist數據集訓練數據一共有28*28*6000

微信小程序初探（一、簡單的數據請求）

原來需要 any 鏈接 flex 開發人員環境 com 野心微信小程序出來有一段時間了，之前沒看好小程序（覺得小程序體驗不咋好，內心對新事物有抵觸心裏，請原諒我的膚淺[捂臉][捂臉]），不過後來偶然之間玩過小程序的遊戲（跳一跳、球球大作戰、猜畫小歌等），

初識大數據（三. Hadoop與MPP數據倉庫）

事務處理 table 關系型結構化數據討論習慣事務開發 cells 　　MPP代表大規模並行處理，這是網格計算中所有單獨節點參與協調計算的方法。是將任務並行的分散到多個服務器和節點上，在每個節點上計算完成後，將各自部分的結果匯總在一起得到最終的結果。 MPP D

分布式鎖的幾種使用方式（redis、zookeeper、數據庫）

高性能有理產品 log 自然 release 連接斷開狀態庫鎖 Q:一個業務服務器，一個數據庫，操作：查詢用戶當前余額，扣除當前余額的3%作為手續費synchronizedlockdb lockQ：兩個業務服務器，一個數據庫，操作：查詢用戶當前余額，扣除當前余額的3

python學習（8）實例：寫一個簡單商城購物車的代碼

商品流程圖 index blog pen 什麽 author 數字 git 要求： 1、寫一段商城程購物車序的代碼2、用列表把商城的商品清單存儲下來，存到列表 shopping_mail3、購物車的列表為shopping_cart4、用戶首先輸入工資金額，判斷輸入為數字5

Spring學習（4）IOC容器配置bean：定義與實例化

dimp 工廠類 def 流程行為更多多個 scrip 編譯報錯一. IOC容器配置　　1. 一些概念　　（1）IOC容器：　　定義：具有管理對象和管理對象之間的依賴關系的容器。　　作用：應用程序無需自己創建對象，對象由IOC容器創建並組裝。BeanFac

機器學習：PCA（高維數據映射為低維數據封裝&調用）

pca 圖片數據的區別機器學習 png 復數 img 空間 # 每個主成分向量的長度與數據集的特征數一樣 # 主成分分析法的本質：將數據集從一個坐標系轉換到另一個坐標系，原坐標系有 n 個維度（n 中特征），則轉換的新坐標系也有 n 個維度，每個主成分表示一個維度，只

機器學習：PCA（實例：MNIST數據集）

一、數據

獲取數據

查看數據

處理數據

二、算法

使用 kNN 算法進行識別操作（數據不降維）

使用 kNN算法進行識別操作（PCA降維數據）

分析：數據使用 PCA 降維前後的效果

相關推薦