sklearn pca降維

阿新 • • 發佈：2017-08-17

noise .text learn mac crc sigma 參考 clas nts

PCA降維

一.原理

這篇文章總結的不錯PCA的數學原理。

PCA主成分分析是將原始數據以線性形式映射到維度互不相關的子空間。主要就是尋找方差最大的不相關維度。數據的最大方差給出了數據的最重要信息。

二.優缺點

優：將高維數據映射到低維，降低數據的復雜性，識別最重要的多個特征

不足：不一定需要，且可能損失有用信息

適用數值型數據

三.步驟

1.原始數據X，對於每列屬性，去平均值（也可以對數值進行標準分化）

2.計算樣本點的協方差矩陣（列間兩兩計算相關性）

3.求出協方差矩陣的特征值和對應的特征向量

4.從大到小排序特征值，取得最前的k個特征向量P

5.將數據轉換到k個特征向量構建的新空間中，Y=P^tX

四.python代碼

 1 #!/usr/bin/python
 2 # -*- coding: utf-8 -*-
 3 
 4 import numpy as np
 5 from sklearn.decomposition import PCA
 6 from matplotlib import pyplot as plt
 7 
 8 class PCA_DimensionalityReduction:
 9 
10     def __init__(self):
11         # 隨機產生數據沿y=2x分布，
12         self.x = np.arange(1, 101, 1).astype(float)
 
13         self.y = 2 * np.arange(1, 101, 1).astype(float)
14 
15     def dataProduction(self):
16         #添加服從正太分布的噪音數據normal(均值，標準差，個數)
17         noise=np.random.normal(0,10,100)
18         self.y+=noise
19         #定義繪圖
20         self.fig=plt.figure(figsize=(10,10))
21         #紅色的小圓點在坐標平面上畫一個點
22         plt.plot(self.x,self.y,‘ 
ro‘)
23         #坐標範圍axis[xmin,xmax,ymin,ymax]
24         plt.axis([0,102,-20,220])
25         #箭頭
26         plt.quiver(60, 100, 10 - 0, 20 - 0, scale_units=‘xy‘, scale=1)
27         plt.arrow(60, 100, 10 - 0, 20 - 0, head_width=2.5, head_length=2.5, fc=‘k‘, ec=‘k‘)
28         #圖中的任意位置添加文字
29         plt.text(70,110,r‘$v^1$‘,fontsize=20)
30 
31         #保存
32         # 添加子圖，返回Axes實例，參數：子圖總行數，子圖總列數，子圖位置
33         ax=self.fig.add_subplot(111)
34         ax.axis([0,102,-20,220])
35         ax.set_xlabel(‘x‘,fontsize=40)
36         ax.set_ylabel(‘y‘,fontsize=40)
37         self.fig.suptitle(‘2 dimensional‘,fontsize=40)
38         self.fig.savefig(‘pca_data.png‘)
39 
40     ‘‘‘
41     PCA算法
42     總結一下PCA的算法步驟：
43     設有m條n維數據。
44     1）將原始數據按列組成n行m列矩陣X
45     2）將X的每一行（代表一個屬性字段）進行零均值化，即減去這一行的均值
46     3）求出協方差矩陣C=(1/m)X(X)^T
47     4）求出協方差矩陣的特征值及對應的特征向量
48     5）將特征向量按對應特征值大小從上到下按行排列成矩陣，取前k行組成矩陣P
49     6）Y=PX
50     即為降維到k維後的數據
51     ‘‘‘
52     #使用np.linalg.eig計算特征值和特征向量
53     def dr_pca(self):
54         #每列屬性的均值
55         mean_x=np.mean(self.x)
56         mean_y=np.mean(self.y)
57         #這裏對數據標準分化
58         mean_vector=np.array([[mean_x],[mean_y]])
59         self.u_x=(self.x-mean_x)/np.std(self.x)#除標準差
60         self.u_y=(self.y-mean_y)/np.std(self.y)
61         #協方差矩陣
62         sigma=np.cov([self.u_x,self.u_y])
63         #從協方差矩陣中求出特征值和特征向量，選擇特征值最大的對應的特征向量
64         eig_vals,eig_vecs=np.linalg.eig(sigma)
65         eig_pairs=[(np.abs(eig_vals[i]),eig_vecs[:,i]) for i in range(len(eig_vals))]
66         eig_pairs.sort()
67         eig_pairs.reverse()
68         v1=eig_pairs[0][1]#取出一個最大特征值對應的特征向量
69         print(‘v1,shape:‘,(v1,v1.shape))
70         #映射到由k個特征向量組成的子空間特征向量(主成分)
71         X=np.array([self.u_x,self.u_y])
72         #X=X.T
73         print(‘X shape:‘,X.shape)
74         main_vector=v1.T.dot(X)
75         print(‘main_vector:‘,main_vector.T)
76 
77         #w=np.array(v1.reshape(2,1))
78         #main_vector=w.T.dot(X)
79         #print(‘w:‘,w.shape)
80         #print("main_vector2:",main_vector)
81 
82     #使用sklearn中的pca
83     def sklearn_pca(self):
84         X=np.array([self.u_x,self.u_y])
85         X=X.T
86         pca=PCA(n_components=1) #指定主成分數量
87 
88         #pca.fig(X)#訓練pca模型
89         #v1 = pca.components_[0]  # 得到特征向量
90         #print(‘v1:‘, v1)
91 
92         main_vector=pca.fit_transform(X)#用X來訓練PCA模型，同時返回降維後的結果數據。
93         print(‘sklearn:‘,main_vector)
94 
95 if __name__==‘__main__‘:
96     pca=PCA_DimensionalityReduction()
97     pca.dataProduction()
98     pca.dr_pca()
99     pca.sklearn_pca()

參考:1.CRC.Machine.Learning.An.Algorithmic.Perspective.2nd.Edition.

　　 2.machine learning for the web

　　 3.machine learning in action

sklearn pca降維

noise .text learn mac crc sigma 參考 clas nts PCA降維一.原理這篇文章總結的不錯PCA的數學原理。 PCA主成分分析是將原始數據以線性形式映射到維度互不相關的子空間。主要就是尋找方差最大的不相關維度。數據的最大方差給出了數據的

PCA降維以及Kmeans聚類例項----python,sklearn,PCA,Kmeans

PCA 演算法也叫主成分分析（principal components analysis），主要是用於資料降維的。關於降維，可以這樣理解，一組資料有n個feature（客戶年齡，收入，每個月消費額度等

PCA降維demo

效果 cti 代碼 push jpg per ims whitening get PCA(Principal Components Analysis)主成分分析法是一種常用的減小數據維度的算法。能力有限在這裏就不做過多的數學分析了，具體原理可參見http://uf

【資料收集】PCA降維

post hive ron str AD span clas htm logs 重點整理： PCA（Principal Components Analysis）即主成分分析，是圖像處理中經常用到的降維方法 1、原始數據：假定數據是二維的 x=[2.5, 0.5, 2.2,

機器學習—PCA降維

one 因此表示實現維度非監督學習衡量取出計算方法 1、基本思想：　　主成分分析（Principal components analysis，以下簡稱PCA）是最重要的降維方法之一。在數據壓縮消除冗余和數據噪音消除等領域都有廣泛的應用。　　PCA顧名思義，

LDA和PCA降維的原理和區別

除了思想樣本計算方法相互進化 strong 繞過位置 LDA算法的主要優點有：在降維過程中可以使用類別的先驗知識經驗，而像PCA這樣的無監督學習則無法使用類別先驗知識。 LDA在樣本分類信息依賴均值而不是方差的時候，比PCA之類的算法較優。 LDA算法的

PCA降維原理和作用

降維的作用 ①資料在低維下更容易處理、更容易使用； ②相關特徵，特別是重要特徵更能在資料中明確的顯示出來；如果只有兩維或者三維的話，更便於視覺化展示； ③去除資料噪聲 ④降低演算法開銷降維通俗點的解釋一些高維度的資料，比如淘寶交易資料，為便於解釋降維作用，我們在這假設有下單數

機器學習筆記（八）：PCA降維演算法

1 - PCA概述主成份分析，簡稱為PCA，是一種非監督學習演算法，經常被用來進行資料降維有損資料壓縮特徵抽取資料視覺化 2 - PCA原理詳解通過計算資料矩陣的協方差矩陣，然後得到協方差矩陣的特徵值特徵向量，選擇特

scikit-learn使用PCA降維小結

本文在主成分分析（PCA）原理總結和用scikit-learn學習主成分分析(PCA)的內容基礎上做了一些筆記和補充，強調了我認為重要的部分，其中一些細節不再贅述。 Jupiter notebook版本參見我的github: https://github.com/konatasick/machin

matlab實現PCA降維

利用PCA，把二維資料降為一維資料 load ('ex7data1.mat'); %變成一維 K = 1; %對資料歸一化 means = mean(X); X_means = bsxfun(@min

PCA降維例項[GridSearchCV求最優參]

降維概念機器學習領域中所謂的降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習一個對映函式 f : x->y，其中x是原始資料點的表達，目前最多使用向量表達形式。 y是資料點對映後的低維向量表達，通常y的維度小於x

PCA 降維方法的簡單使用

from sklearn.decomposition import PCA from sklearn.cluster import KMeans import pandas as pd import numpy as np #pca.txt是一個沒有表頭的多維資料，一共有7列，利用pandas讀取

PCA----降維

引言：特徵值分解：矩陣的作用就是線性變換（如旋轉，伸縮，平移等），在一個空間當中，矩陣左乘向量就是將向量線性變換成想要的效果，那麼矩陣的特徵值和特徵向量是什麼呢？特徵值、特徵向量：線上性代數的定義當中，特徵值和特徵向量的定義是這樣的，AX=rX ，則稱r為A的特徵值，X稱為A的屬於特徵值k的特徵向量。

一步步教你輕鬆學主成分分析PCA降維演算法

（白寧超 2018年10月22日10:14:18）摘要：主成分分析（英語：Principal components analysis，PCA）是一種分析、簡化資料集的技術。主成分分析經常用於減少資料集的維數，同時保持資料集中的對方差貢獻最大的特徵。常常應用在文字處理、人臉識別、圖片識別、自然語言處

協方差及PCA降維計算

PCA（Principal Component Analysis，主成分分析），PCA是一種無監督演算法，也就是我們不需要標籤也能對資料做降維，這就使得其應用範圍更加廣泛了。那麼PCA的核心思想是什麼呢？這裡我們提到了方差，咱們可以想象一下，如果一群人都堆疊在一起，我們想區分他們是不是比較困難，但是

補：PCA降維

結合網上的資料，細看了兩種求解PCA的方式。當進行協方差矩陣上求解特徵值時，若矩陣的維數較小，則可以使用傳統的求解方式，直接求出協方差矩陣的所有特徵值和對應的特徵向量。但是如果是用在圖片方面，加入一張100*100的圖片，特徵維度高達10000維，協方差矩陣則是10000*10000這種級別，這

筆記：PCA降維

作為一個非監督學習的降維方法，PCA（Principal Components Analysis）顧名思義，就是找出資料裡最主要的方面，用資料裡最主要的方面來代替原始資料。具體的，假如我們的資料集是n維的，共有m個數據(x1,x2,…,xm)。我們希望將這m個數據的維度從n維降到k維，希望這m個

機器學習-PCA降維與DBScan聚類分析實戰

基本概念：　　在資料處理中，經常會遇到特徵維度比樣本數量多得多的情況，如果拿到實際工程中去跑，效果不一定好。一是因為冗餘的特徵會帶來一些噪音，影響計算的結果；二是因為無關的特徵會加大計算量，耗費時間和資源。所以我們通常會對資料重新變換一下，再跑模型。資料變換的目的不僅僅是降維，還可以消除特徵之間的相關性，

KNN / SVM 手寫數字識別-PCA降維

一.問題分析採用機器學習演算法對usps和mnist兩個資料集完成手寫數字識別任務。1.1.資料集介紹MNIST MNIST 資料集來自美國國家標準與技術研究所, National Institute of Standards and Technology (NIST)。訓練

PCA降維的原理及步驟

*****降維的作用***** ①資料在低維下更容易處理、更容易使用； ②相關特徵，特別是重要特徵更能在資料中明確的顯示出來；如果只有兩維或者三維的話，更便於視覺化展示； ③去除資料噪聲 ④降低演算法

sklearn pca降維

相關推薦