降維（PCA、核PCA、SVD、高斯隨機對映和 NMF）

阿新 • • 發佈：2019-02-11

以下內容來自《Python資料科學指南》
降維方法比較：

PCA：計算代價高昂，特徵向量得存線上性相關。
核PCA: 特徵向量是非線性相關也可以。
SVD：比PCA更能解釋資料，因為是直接作用於原資料集，不會像PCA一樣，將相關變數轉換為一系列不相干的變數。另外，PCA是單模因子分析方法，行列代表的是相同的實體，而SVD是雙模因子（即適用兩類實體矩陣），可以運用在文字挖掘中，行對應詞，列對應文件。
高斯隨機對映：速度快，利用歐氏距離降維，但資料多會有記憶體問題，可以考慮稀疏隨機對映代替。
NMF：常見於推薦系統，輸入矩陣A = 降維矩陣（行）A_dash * 成本矩陣（列） F。

1. PCA: Principle Component Analysis, PCA 主成分分析，計算代價高昂，只適用於特徵向量間存線上性相關的環境下。

將資料集中心化；

找出資料集的相關矩陣和單位標準偏差值；
將相關矩陣分解成它的特徵向量和值；
基於降序的特徵值選擇Top-N特徵向量；
投射輸入的特徵向量矩陣到一個新空間。

# -*- coding: utf-8 -*-
"""
Created on Fri Mar 30 17:47:41 2018

@author: Alvin AI
"""

from sklearn.datasets import load_iris
import numpy as np
import matplotlib.pyplot as plt
import scipy
from sklearn.preprocessing import scale

data = load_iris()
x = data['data']
y = data['target']

x_s = scale(x,with_mean=True,with_std=True,axis=0)#中心化
x_c = np.corrcoef(x_s.T)#計算過相關矩陣

eig_val,r_eig_vec = scipy.linalg.eig(x_c)
print 'Eigen values \n%s' % (eig_val)#相關矩陣中找到的特徵值
print '\n Eigen vectors \n%s' % (r_eig_vec)#相關矩陣中找的特徵向量
#可解釋變化的百分比=特徵值/原特徵變數的個數，這裡是4個變數
w = r_eig_vec[:,0:2]#選擇前兩個特徵向量，因為輸出結果Eigen values的前兩個特徵值較大

x_rd = x_s.dot(w)#叉乘，四維變二維y

plt.figure(1)
plt.scatter(x_rd[:,0],x_rd[:,1],c=y)
plt.xlabel('component 1')
plt.ylabel('component 2')

#如何選擇多少成分的方法
print "Component, Eigen Value, % of Variance, Cumulative %"
cum_per = 0
per_var = 0
for i,e_val in enumerate(eig_val):
    per_var = round((e_val/len(eig_val)),3)
    cum_per += per_var
    print ('%d, %0.2f, %0.2f, %0.2f')%(i+1, e_val, per_var*100, cum_per*100)

#輸出結果：
Eigen values #特徵值 
[2.91081808+0.j 0.92122093+0.j 0.14735328+0.j 0.02060771+0.j]

 Eigen vectors #特徵向量
[[ 0.52237162 -0.37231836 -0.72101681  0.26199559]
 [-0.26335492 -0.92555649  0.24203288 -0.12413481]
 [ 0.58125401 -0.02109478  0.14089226 -0.80115427]
 [ 0.56561105 -0.06541577  0.6338014   0.52354627]]

#可解釋變化的百分比=特徵值/原特徵變數的個數，這裡是4個變數
#2.91/4=72.80
#第一個成分可解釋72.80%，第二個成分可解釋23%，前兩份成分一起可以解釋95.8%
Component, Eigen Value, % of Variance, Cumulative %
1, 2.91, 72.80, 72.80
2, 0.92, 23.00, 95.80
3, 0.15, 3.70, 99.50
4, 0.02, 0.50, 100.00

2. 核PCA：針對非線性資料集進行降維。核類別有：線性、多項式、sigmoid、餘弦值、預先計算的、RBF。

from sklearn.datasets import make_circles
import matplotlib.pyplot as plt
import numpy as np
from sklearn.decomposition import PCA #PCA模組
from sklearn.decomposition import KernelPCA #核PCA模組

#生成一個變化非線性的資料集
np.random.seed(10)#定義一個隨機種子號
x,y = make_circles(n_samples=400, factor=.2, noise=0.02)#factor代表維度

plt.close('all')#關閉當前所有圖
plt.figure(1)
plt.title('original space')
plt.scatter(x[:,0],x[:,1],c=y)
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')

#使用PCA降維
pca = PCA(n_components=2)
pca.fit(x)
x_pca=pca.transform(x)

#繪製前兩個主成分的圖
plt.figure(2)
plt.title('pca')
plt.scatter(x_pca[:,0],x_pca[:,1],c=y)
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')

#將兩個成分單獨拎出來畫，發現結果均對映在一條直線上，無法實現區分
class_1_index = np.where(y==0)[0]
class_2_index = np.where(y==1)[0]

plt.figure(3)
plt.title('pca-one component')
plt.scatter(x_pca[class_1_index,0],np.zeros(len(class_1_index)),color='red')
plt.scatter(x_pca[class_2_index,0],np.zeros(len(class_2_index)),color='blue')

#使用kernal PCA
#這裡核PCA呼叫的核是徑向基函式（Radial Basis Function, RBF）
#gamma值為10，gamma是一個核（用於處理非線性）引數--核心係數
kpca = KernelPCA(kernel='rbf',gamma=10) 
x_kpca = kpca.fit_transform(x)

plt.figure(4)
plt.title('kernel pca')
plt.scatter(x_kpca[:,0],x_kpca[:,1],c=y)
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')

3. 奇異值分解：Singular Value Decomposition, SVD, 與PCA不同，直接作用於原始資料矩陣。SVD把m*n矩陣分解成三個矩陣的乘積：A = U*S*V^T 。

U：左奇異矩陣，m*k矩陣。
V：右奇異矩陣，n*k矩陣。
S：該矩陣的對角線值為奇異值，k*k矩陣。

from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
from sklearn.preprocessing import scale
from scipy.linalg import svd

data = load_iris()
x = data['data']
y = data['target']

#只中心化，不需要把資料縮放到同一量綱
#因為現在的資料就是相同度量單位，不縮放還能捕捉到最大變化的基本單位
x_s = scale(x,with_mean=True,with_std=False,axis=0)

#用SVD分解矩陣
#沒必要縮放資料，full_matrices=False是一定要有的
U,S,V = svd(x_s,full_matrices=False)

#選擇最前兩個奇異值來近似原始的矩陣
x_t = U[:,:2]

#最後用降維的成分來繪製出資料集的圖形
plt.figure(1)
plt.scatter(x_t[:,0],x_t[:,1],c=y)
plt.xlabel("Component 1")
plt.ylabel("Component 2")
plt.show()

4. 高斯隨機對映：速度快，利用資料間的距離來降低維度。

# -*- coding: utf-8 -*-
"""
Created on Mon Apr 23 21:19:54 2018

@author: Alvin AI
"""

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import euclidean_distances
from sklearn.random_projection import GaussianRandomProjection
import matplotlib.pyplot as plt

#載入20個新聞租資料集
#我們只選用sci.crypt分類
#其他分類還包括“sci.med” "sci.space"等
cat = ['sci.crypt']
data = fetch_20newsgroups(categories=cat)

#從上面的資料集中建立一個詞-文件矩陣，詞頻作為值，不哦那個idf
vectorizer = TfidfVectorizer(use_idf=False)
vector = vectorizer.fit_transform(data.data)

#執行對映，我們把維度降為1000
gauss_proj = GaussianRandomProjection(n_components=1000)
vector_t = gauss_proj.fit_transform(vector)

#打印出轉換後的向量形態
print vector.shape
print vector_t.shape

#為了驗證轉換過程是否保持了距離，我們計算新的和舊的兩點間距離
org_dist = euclidean_distances(vector)
red_dist = euclidean_distances(vector_t)
diff_dist = abs(org_dist-red_dist)

#繪製差距熱圖（只有前100個文件）
plt.figure()
plt.pcolor(diff_dist[0:100,0:100])
plt.colorbar()
plt.show()

5. 非負矩陣分解：Non-negative Matrix Factorization, NMF 。常用於推薦系統，預測原本缺失的資料。

# -*- coding: utf-8 -*-
"""
Created on Sat Mar 31 15:04:36 2018

@author: Alvin AI
"""

import numpy as np#
#from collections import dafaultdict
from sklearn.decomposition import NMF
import matplotlib.pyplot as plt

#生成電影評分資料集
ratings = [\
        [1,2,3,5,2,1],\
        [2,3,1,1,2,1],\
        [4,2,1,3,1,4],\
        [2,9,5,4,2,1],\
        [1,4,2,1,1,1]]

movie_dict = {1:'alvin story', 
              2:'star wars',
              3:'inception',
              4:'gunsa',
              5:'dream',
              6:'decomere'}

A = np.asmatrix(ratings,dtype=float)#向量化

max_components = 2
reconstruction_error = []
nmf = None
nmf = NMF(n_components = max_components, random_state=1) #降維到2
A_dash = nmf.fit_transform(A)#A_dash為降維矩陣，針對於行例項，即使用者

for i in range(A_dash.shape[0]):
    print 'User id = %d,  comp1 score = %0.2f, comp2 score = \
    %0.2f' % (i+1,A_dash[i][0],A_dash[i][1])

#輸入矩陣A=A_dash*F
    
#A_dash為降維矩陣，針對於行例項，即使用者
plt.figure(1)
plt.title('user concept mapping')
x = A_dash[:,0]
y = A_dash[:,1]
plt.scatter(x,y)
plt.xlabel('component1')
plt.ylabel('component2')

#F為成本矩陣，針對列例項，即電影
F =nmf.components_
plt.figure(2)
plt.title('movie concept mapping')
x = F[0,:]
y = F[1,:]
plt.scatter(x,y)
plt.xlabel('component1')
plt.ylabel('component2')

for i in range(F[0,:].shape[0]):
    plt.annotate(movie_dict[i+1],(F[0,:][i],F[1,:][i]))#在圖中給每個點加上電影名註釋
plt.show()    

#預測出電影評分，如果原輸入矩陣有些是0，而在下面結果輸出會預測出使用者評分
reconstructed_A = np.dot(A_dash,F)
np.set_printoptions(precision=2)#精確到小數點後2位
print reconstructed_A

降維（PCA、核PCA、SVD、高斯隨機對映和 NMF）

以下內容來自《Python資料科學指南》降維方法比較：PCA：計算代價高昂，特徵向量得存線上性相關。核PCA: 特徵向量是非線性相關也可以。SVD：比PCA更能解釋資料，因為是直接作用於原資料集，不會像PCA一樣，將相關變數轉換為一系列不相干的變數。另外，PCA是單模因子分析

機器學習實戰（十二）降維（PCA、SVD）

目錄 0. 前言學習完機器學習實戰的降維，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。本篇綜合了先前的文章，如有不理解，可參考：如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心的~ 0

一、降維——機器學習筆記——降維（特徵提取）

目錄 2、示例一、為什麼要降維維數災難：在給定精度下，準確地對某些變數的函式進行估計，所需樣本量會隨著樣本維數的增加而呈指數形式增長。降維的意義：克服維數災難，獲取本質特徵，節省儲存空間，去除無用噪聲，實現資料視覺化

吳恩達機器學習總結：第十一降維（PCA）（大綱摘要及課後作業）

為了更好的學習，充分複習自己學習的知識，總結課內重要知識點，每次完成作業後都會更博。總結1.動機I：資料壓縮（1）壓縮 a.加速演算法 b.減小資料空間 c.2維降為1維例子 d.3維降為2維例子 e.在實際中，我們正常會將1000維將為1

降維算法中的PCA方法

主成分分析數據分析 1 主成分分析（Principal Component Analysis，PCA） 2 線性判別分析(Linear Discriminant Analysis, LDA)研究背景基本知識介紹經典方法介紹總結討論問題的提出地理系統是多要素的復雜系統。在地理學研究中，多變量問題是經

機器學習：降維演算法-主成分分析PCA演算法兩種角度的推導

若把高維空間的樣本點（可以想象是一個3維的）對映到一個超平面，怎樣的超平面可以認為是“好的”，可以想到這個超平面大概有這樣的性質：最近重構行：樣本點到超平面的距離都足夠近；（樣本點變化儘可能小，丟失的資訊儘可能少）最大可分性：樣本點在這個超平面上的投影儘可能分開.（樣

資料降維（Dimension Reduction）

1. 什麼是降維？降維指的是將高維資料維度降低，新的低維資料的特點是：噪聲減少，資料量減少計算減少，更能表示資料的特點。 2. 降維的分類？特徵提取（feature extraction）：將原始高緯度特徵空間通過某種數學變換轉換成低緯度空間，此過程會改變特徵的物理意義。特徵選

二分類相關評估指標（召回率、準確率，精確率，F度量，AUC和ROC）

基礎定義通常在機器學習的二分類領域中，對模型的結果評估是必不可少的，本文主要總結了各個評估指標，對每個指標的定義，作用進行闡述。廢話到此，直接上乾貨。 TP：True Positive FP：False Positive TN：Tr

機器學習筆記——降維（dimensionality reduction）

降維目的我們對資料進行降維的目的有兩個：一個是資料壓縮，對於資料壓縮我們可以大大地節省儲存空間第二就是使得資料可以視覺化，我們將多維資料壓縮成二維可以供我們更好地觀察資料的特徵主成分分析（PAC）主成分分析法可以將n維的資料降為k維，實際上我們是選取了一個k

sklearn-學習：Dimensionality reduction(降維)-（feature selection）特徵選擇

本文主要對對應文件的內容進行簡化（以程式碼示例為主）及漢化對應文件位置：http://scikit-learn.org/stable/modules/feature_selection.html#feature-selection feature selection

主成分分析降維（MNIST資料集）

今天看了用主成分分析簡化資料，就順便用MNIST資料集做了下實驗，想直觀地看一下效果，並通過完成這個小demo深入理解下原理。我發現“是什麼、能做什麼、怎麼用、效果是什麼、原理是什麼、優缺點是什麼”這樣的思路能讓我更好地接受一個新知識，之所以把原理放在效果後

matlab練習程式（生成多維高斯分佈概率密度函式）

clear all; close all; clc; randn('seed',0); %%一維高斯函式 mu=0; sigma=1; x=-6:0.1:6; y=normpdf(x,mu,sigma); plot(x,y); figure; %%二維或多維高斯函式 m

機器學習知識點查漏補缺（隨機森林和extraTrees）

efault 生成 xtra lac use sample strategy default lin 隨機森林對數據樣本及特征隨機抽取，進行多個決策樹訓練，防止過擬合，提高泛化能力一般隨機森林的特點： 1、有放回抽樣（所以生成每棵樹的時候，實際數據集會有重復），

ElasticSearch權威指南學習（對映和分析）

概念對映(mapping)機制用於進行欄位型別確認，將每個欄位匹配為一種確定的資料型別(string, number, booleans, date等)。+ 分析(analysis)機制用於進行全文文字(Full Text)的分詞，以建立供搜尋用的反向索引。資料型別差異在索引中

opencv學習筆記python實現影象金字塔（高斯金字塔與拉普拉斯金字塔）

使用拉普拉斯金字塔時，影象必須是2^n*2*m 使用拉普拉斯金字塔先要知道高斯金字塔這兩種過程是圖片縮小與放大縮小 reduce = 高斯模糊 + 降取樣（pyrDown）放大 expand = 擴大（升取樣/pyrUp） + 卷積 #-*-c

移動裝置解析度（終於弄懂了為什麼移動端設計稿總是640px和750px）

原文出處：https://www.cnblogs.com/tu-0718/p/9596894.html 在我開始寫移動端頁面至今，一直有2個疑問困擾著我，我只知道結果但不知道為什麼　　問題1：為什麼設計師給的設計稿總是640px或750px（現在一般以Phone6為基準，給的750px）

【後臺技術開發】Docker的映象和容器的區別（10張圖讓你深入理解Docke的r容器和映象）

這篇文章希望能夠幫助讀者深入理解Docker的命令，還有容器（container）和映象（image）之間的區別，並深入探討容器和執行中的容器之間的區別。當我對Docker技術還是一知半解的時候，我發現理解Docker的命令非常困難。於是，我花了幾周的時間來學習Docker的工作原理，更確切地說，是關於

AspNetCore 目前不支援SMTP協議（基於開源元件開發郵件傳送，它們分別是MailKit 和 FluentEmail ）

net所有的功能都要重新來一遍，整合眾多類庫，core任重道遠，且發展且努力!! 我們都知道，很多的郵件傳送都是基於這個SMTP協議，但現在的.net core對這方面還不太支援，所以我們選擇這兩個元件MailKit 和 FluentEmail MailKit與fluentEmail 在 ASP.NET

Mixture of Gaussian（高斯混合原型聚類）

高斯混合聚類原理：高斯混合模型（Gaussian Mixture Model ，GMM）也是原型聚類，和上一篇總結的K-means和LVQ一樣,不過與它們不同的是，GMM沒有想用原型向量來刻畫聚類結構的不同。因為比如用k-means演算法解決聚類問題非常

ubuntu下tensorflow-gpu環境搭建（通過anaconda，需預先手動安裝(或環境含有)cuda和cudnn）

第一步創造一份conda環境 conda create -n tensorflow python=3.6 第二步啟用tensorflow環境 source activa

降維（PCA、核PCA、SVD、高斯隨機對映 和 NMF）

相關推薦

降維（PCA、核PCA、SVD、高斯隨機對映和 NMF）