python大戰機器學習——資料降維

阿新 • • 發佈：2018-12-27

注：因為公式敲起來太麻煩，因此本文中的公式沒有呈現出來，想要知道具體的計算公式，請參考原書中內容　　

　　降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中

1、主成分分析（PCA）

　　將n維樣本X通過投影矩陣W，轉換為K維矩陣Z

　　輸入：樣本集D，低維空間d

　　輸出：投影矩陣W

　　演算法步驟：

　　　　1）對所有樣本進行中心化操作

　　　　2）計算樣本的協方差矩陣

　　　　3）對協方差矩陣做特徵值分解

　　　　4）取最大的d個特徵值對應的特徵向量，構造投影矩陣W

　　注：通常低維空間維數d的選取有兩種方法：1）通過交叉驗證法選取較好的d 2）從演算法原理的角度設定一個閾值，比如t=0.95，然後選取似的下式成立的最小的d值：

　　　　Σ（i->d）λi/Σ（i->n）λi>=t，其中λi從大到小排列

　　PCA降維的準則有以下兩個：

　　　　最近重構性：重構後的點距離原來的點的誤差之和最小

　　　　最大可分性：樣本點在低維空間的投影儘可能分開

實驗程式碼：

 1 import numpy as np
 2 import matplotlib.pyplot as plt
 3 from sklearn import datasets,decomposition,manifold
 4 
 5 def load_data():
 6     iris=datasets.load_iris()
 7 
     return iris.data,iris.target
 8 
 9 def test_PCA(*data):
10     X,Y=data
11     pca=decomposition.PCA(n_components=None)
12     pca.fit(X)
13     print("explained variance ratio:%s"%str(pca.explained_variance_ratio_))
14 
15 def plot_PCA(*data):
16     X,Y=data
17     pca=decomposition.PCA(n_components=2)
 
18     pca.fit(X)
19     X_r=pca.transform(X)
20  #   print(X_r)
21 
22     fig=plt.figure()
23     ax=fig.add_subplot(1,1,1)
24     colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5),(0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2),)
25     for label,color in zip(np.unique(Y),colors):
26         position=Y==label
27   #      print(position)
28         ax.scatter(X_r[position,0],X_r[position,1],label="target=%d"%label,color=color)
29     ax.set_xlabel("X[0]")
30     ax.set_ylabel("Y[0]")
31     ax.legend(loc="best")
32     ax.set_title("PCA")
33     plt.show()
34 
35 X,Y=load_data()
36 test_PCA(X,Y)
37 plot_PCA(X,Y)

View Code

實驗結果：

　　可以看出四個特徵值的比例分別佔比0.92464621,0.05301557,0.01718514,0.00518309，因此可將原始特徵4維降低到2維

IncrementalPCA超大規模資料降維

　　可以使用與超大規模資料，它可以將資料分批載入進記憶體，其介面和用法幾乎與PCA完全一致

2、SVD降維

　　SVD奇異值分解等價於PCA主成分分析，核心都是求解X*（X轉置）的特徵值以及對應的特徵向量

3、核化線性（KPCA）降維

　　是一種非線性對映的方法，核主成分分析是對PCA的一種推廣

　　實驗程式碼：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets,decomposition,manifold

def load_data():
    iris=datasets.load_iris()
    return iris.data,iris.target

def test_KPCA(*data):
    X,Y=data
    kernels=['linear','poly','rbf','sigmoid']
    for kernel in kernels:
        kpca=decomposition.KernelPCA(n_components=None,kernel=kernel)
        kpca.fit(X)
        print("kernel=%s-->lambdas:%s"%(kernel,kpca.lambdas_))

def plot_KPCA(*data):
    X,Y=data
    kernels = ['linear', 'poly', 'rbf', 'sigmoid']
    fig=plt.figure()
    colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5),(0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2),)
    for i,kernel in enumerate(kernels):
        kpca=decomposition.KernelPCA(n_components=2,kernel=kernel)
        kpca.fit(X)
        X_r=kpca.transform(X)
        ax=fig.add_subplot(2,2,i+1)
        for label,color in zip(np.unique(Y),colors):
            position=Y==label
            ax.scatter(X_r[position,0],X_r[position,1],label="target=%d"%label,color=color)
            ax.set_xlabel("X[0]")
            ax.set_ylabel("X[1]")
            ax.legend(loc="best")
            ax.set_title("kernel=%s"%kernel)
    plt.suptitle("KPCA")
    plt.show()


X,Y=load_data()
test_KPCA(X,Y)
plot_KPCA(X,Y)

View Code

　　實驗結果：

　　不同的核函式，其降維後的資料分佈是不同的

　　並且採用同樣的多項式核函式，如果引數不同，其降維後的資料分佈是不同的。因此再具體應用中，可以通過選用不同的核函式以及設定多種不同的引數來對比哪種情況下可以獲得最好的效果。

4、流形學習降維

　　是一種借鑑了拓撲流形概念的降維方法

5、多維縮放（MDS）降維

　　MDS要求原始空間中樣本之間的距離在低維空間中得到保持

　　輸入：距離矩陣D，低維空間維數n'

　　輸出：樣本集在低維空間中的矩陣Z

　　演算法步驟：

　　　　1）依據公式計算di,.^2,dj,.^2,d.,.^2

　　　　2）依據公式計算降維後空間的內積矩陣B

　　　　3）對矩陣B進行特徵值分解

　　　　4）依據求得的對角矩陣和特徵向量矩陣，依據公式計算Z

　　實驗程式碼：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets,decomposition,manifold

def load_data():
    iris=datasets.load_iris()
    return iris.data,iris.target

def test_MDS(*data):
    X,Y=data
    for n in [4,3,2,1]:
        mds=manifold.MDS(n_components=n)
        mds.fit(X)
        print("stress(n_components=%d):%s"%(n,str(mds.stress_)))

def plot_MDS(*data):
    X,Y=data
    mds=manifold.MDS(n_components=2)
    X_r=mds.fit_transform(X)
 #   print(X_r)

    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5),(0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2),)
    for label,color in zip(np.unique(Y),colors):
        position=Y==label
        ax.scatter(X_r[position,0],X_r[position,1],label="target=%d"%label,color=color)
    ax.set_xlabel("X[0]")
    ax.set_ylabel("Y[0]")
    ax.legend(loc="best")
    ax.set_title("MDS")
    plt.show()

X,Y=load_data()
test_MDS(X,Y)
plot_MDS(X,Y)

View Code

　　實驗結果：

stress表示原始資料降維後的距離誤差之和

6、等度量對映（Isomap）降維

　　輸入：樣本集D，近鄰引數k，低維空間維數n’

　　輸出：樣本集在低維空間中的矩陣Z

　　演算法步驟：

　　　　1）對每個樣本點x，計算它的k近鄰；同時將x與它的k近鄰的距離設定為歐氏距離，與其他點的距離設定為無窮大

　　　　2）呼叫最短路徑演算法計算任意兩個樣本點之間的距離，獲得距離矩陣D

　　　　3）呼叫多維縮放MDS演算法，獲得樣本集在低維空間中的矩陣Z

　　注：新樣本難以將其對映到低維空間中，因此需要訓練一個迴歸學習器來對新樣本的低維空間進行預測

　　　　建立近鄰圖時，要控制好距離的閾值，防止短路和斷路

　　實驗程式碼：

 1 import numpy as np
 2 import matplotlib.pyplot as plt
 3 from sklearn import datasets,decomposition,manifold
 4 
 5 def load_data():
 6     iris=datasets.load_iris()
 7     return iris.data,iris.target
 8 
 9 def test_Isomap(*data):
10     X,Y=data
11     for n in [4,3,2,1]:
12         isomap=manifold.Isomap(n_components=n)
13         isomap.fit(X)
14         print("reconstruction_error(n_components=%d):%s"%(n,isomap.reconstruction_error()))
15 
16 def plot_Isomap_k(*data):
17     X,Y=data
18     Ks=[1,5,25,Y.size-1]
19     fig=plt.figure()
20   #  colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5),(0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2),)
21     for i,k in enumerate(Ks):
22         isomap=manifold.Isomap(n_components=2,n_neighbors=k)
23         X_r=isomap.fit_transform(X)
24         ax=fig.add_subplot(2,2,i+1)
25         colors = ((1, 0, 0), (0, 1, 0), (0, 0, 1), (0.5, 0.5, 0), (0, 0.5, 0.5), (0.5, 0, 0.5), (0.4, 0.6, 0), (0.6, 0.4, 0),
26         (0, 0.6, 0.4), (0.5, 0.3, 0.2),)
27         for label,color in zip(np.unique(Y),colors):
28             position=Y==label
29             ax.scatter(X_r[position,0],X_r[position,1],label="target=%d"%label,color=color)
30     ax.set_xlabel("X[0]")
31     ax.set_ylabel("Y[0]")
32     ax.legend(loc="best")
33     ax.set_title("k=%d"%k)
34     plt.suptitle("Isomap")
35     plt.show()
36 
37 X,Y=load_data()
38 test_Isomap(X,Y)
39 plot_Isomap_k(X,Y)

View Code

　　實驗結果：

　　可以看出k=1時，近鄰範圍過小，此時發生斷路現象

7、區域性線性嵌入（LLE）

　　其目標是保持鄰域內樣本之間的線性關係

　　輸入：樣本集D，近鄰引數k，低維空間維數n'

　　輸出：樣本集在低維空間中的矩陣Z

　　演算法步驟：

　　　　1）對於樣本集中的每個點x，確定其k近鄰，獲得其近鄰下標集合Q，然後依據公式計算Wi,j

　　　　2）根據Wi,j構建矩陣W

　　　　3）依據公式計算M

　　　　4）對M進行特徵值分解，取其最小的n'個特徵值對應的特徵向量，即得到樣本集在低維空間中的矩陣Z

　　實驗程式碼：

 1 import numpy as np
 2 import matplotlib.pyplot as plt
 3 from sklearn import datasets,decomposition,manifold
 4 
 5 def load_data():
 6     iris=datasets.load_iris()
 7     return iris.data,iris.target
 8 
 9 def test_LocallyLinearEmbedding(*data):
10     X,Y=data
11     for n in [4,3,2,1]:
12         lle=manifold.LocallyLinearEmbedding(n_components=n)
13         lle.fit(X)
14         print("reconstruction_error_(n_components=%d):%s"%(n,lle.reconstruction_error_))
15 
16 def plot_LocallyLinearEmbedding_k(*data):
17     X,Y=data
18     Ks=[1,5,25,Y.size-1]
19     fig=plt.figure()
20   #  colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5),(0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2),)
21     for i,k in enumerate(Ks):
22         lle=manifold.LocallyLinearEmbedding(n_components=2,n_neighbors=k)
23         X_r=lle.fit_transform(X)
24         ax=fig.add_subplot(2,2,i+1)
25         colors = ((1, 0, 0), (0, 1, 0), (0, 0, 1), (0.5, 0.5, 0), (0, 0.5, 0.5), (0.5, 0, 0.5), (0.4, 0.6, 0), (0.6, 0.4, 0),
26         (0, 0.6, 0.4), (0.5, 0.3, 0.2),)
27         for label,color in zip(np.unique(Y),colors):
28             position=Y==label
29             ax.scatter(X_r[position,0],X_r[position,1],label="target=%d"%label,color=color)
30     ax.set_xlabel("X[0]")
31     ax.set_ylabel("Y[0]")
32     ax.legend(loc="best")
33     ax.set_title("k=%d"%k)
34     plt.suptitle("LocallyLinearEmbedding")
35     plt.show()
36 
37 X,Y=load_data()
38 test_LocallyLinearEmbedding(X,Y)
39 plot_LocallyLinearEmbedding_k(X,Y)

View Code

　　實驗結果：

8、總結：

　　對原始資料採取降維的原因通常有兩個：緩解“維度災難”或者對資料進行視覺化。

　　降維的好壞沒有一個直接的標準（包括上面提到的重構誤差也只能作為一箇中性的指標）。通常通過對資料進行降維，然後用降維後的資料進行學習，再根據學習的效果選擇一個恰當的降維方式和一個合適的降維模型引數。　　

python大戰機器學習——資料降維

注：因為公式敲起來太麻煩，因此本文中的公式沒有呈現出來，想要知道具體的計算公式，請參考原書中內容　　　　降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中 1、主成分分析（PCA）　　將n維樣本X通過投影矩陣W，轉換為K維矩陣Z 　　輸入：樣本集D，低維空間d 　　輸出：投影矩陣W

機器學習——資料降維

特徵選擇選擇特徵就是單純地從提取到的所有特徵種選擇部分特徵作為訓練集特徵，特徵在選擇前和選擇後可以改變值，也不改變值，但是選擇後的特徵維度肯定比選擇前小，畢竟我們只選擇了其中的一部分特徵。主要方法（三大武器）：Filter（過濾器）：VarianceThreshold

Python大戰機器學習

tor scale scatter [0 檢測 kit gre 自變量 val 一矩陣求導復雜矩陣問題求導方法：可以從小到大，從scalar到vector再到matrix。 x is a column vector, A is a matrix d(A?x)/d

python大戰機器學習——支持向量機

高斯方法技術擴展 -1 ges 分時 nts 提高　　支持向量機（Support Vector Machine，SVM）的基本模型是定義在特征空間上間隔最大的線性分類器。它是一種二類分類模型，當采用了核技巧之後，支持向量機可以用於非線性分類。　　1）線性可分支持向

python大戰機器學習——數據預處理

但是毫無缺陷 nbsp 正則連續可選目標使用　　數據預處理的常用流程：　　　　1）去除唯一屬性　　　　2）處理缺失值　　　　3）屬性編碼　　　　4）數據標準化、正則化　　　　5）特征選擇　　　　6）主成分分析（1）去除唯一屬性　　在獲取的數據集

機器學習—PCA降維

one 因此表示實現維度非監督學習衡量取出計算方法 1、基本思想：　　主成分分析（Principal components analysis，以下簡稱PCA）是最重要的降維方法之一。在數據壓縮消除冗余和數據噪音消除等領域都有廣泛的應用。　　PCA顧名思義，

機器學習演算法--降維技術

當資料集維數較高時，往往會出現樣本稀疏以及距離難以計算等問題，而某個學習任務可能僅與資料的某個低維分佈有關，因此可以採用降維技術來變換資料空間座標系，主要有： LDA線性判別分析 PCA主成分分析 ICA獨立成分分析 FA因子分析 SVD奇異值分解維數災難：資

機器學習-PCA降維與DBScan聚類分析實戰

基本概念：　　在資料處理中，經常會遇到特徵維度比樣本數量多得多的情況，如果拿到實際工程中去跑，效果不一定好。一是因為冗餘的特徵會帶來一些噪音，影響計算的結果；二是因為無關的特徵會加大計算量，耗費時間和資源。所以我們通常會對資料重新變換一下，再跑模型。資料變換的目的不僅僅是降維，還可以消除特徵之間的相關性，

機器學習筆記——降維（dimensionality reduction）

降維目的我們對資料進行降維的目的有兩個：一個是資料壓縮，對於資料壓縮我們可以大大地節省儲存空間第二就是使得資料可以視覺化，我們將多維資料壓縮成二維可以供我們更好地觀察資料的特徵主成分分析（PAC）主成分分析法可以將n維的資料降為k維，實際上我們是選取了一個k

機器學習四大降維方法

引言：機器學習領域中所謂的降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習一個對映函式 f : x->y，其中x是原始資料點的表達，目前最多使用向量表達形式。 y是資料點對映後的低維向量表達，通常y的維度小於x的維度（當然提高維度也是可以的）。f可能是顯

機器學習-->特徵降維方法總結

本篇博文主要總結一下機器學習裡面特徵降維的方法，以及各種方法之間的聯絡和區別。機器學習中我個人認為有兩種途徑可以來對特徵進行降維，一種是特徵抽取，其代表性的方法是PCA,SVD降維等，另外一個途徑就是特徵選擇。特徵抽取先詳細講下PCA降維的原理

一、降維——機器學習筆記——降維（特徵提取）

目錄 2、示例一、為什麼要降維維數災難：在給定精度下，準確地對某些變數的函式進行估計，所需樣本量會隨著樣本維數的增加而呈指數形式增長。降維的意義：克服維數災難，獲取本質特徵，節省儲存空間，去除無用噪聲，實現資料視覺化

機器學習：降維演算法-主成分分析PCA演算法兩種角度的推導

若把高維空間的樣本點（可以想象是一個3維的）對映到一個超平面，怎樣的超平面可以認為是“好的”，可以想到這個超平面大概有這樣的性質：最近重構行：樣本點到超平面的距離都足夠近；（樣本點變化儘可能小，丟失的資訊儘可能少）最大可分性：樣本點在這個超平面上的投影儘可能分開.（樣

機器學習筆記簿降維篇 LDA 01

機器學習中包含了兩種相對應的學習型別：**無監督學習**和**監督學習**。**無監督學習**指的是讓機器只從資料出發，挖掘資料本身的特性，對資料進行處理，PCA就屬於無監督學習，因為它只根據資料自身來構造投影矩陣。而**監督學習**將使用資料和資料對應的標籤，我們希望機器能夠學習到資料和標籤的關係，例如分類

機器學習-python編寫主成分分析(PCA)資料降維

程式碼及資料集下載：PCA 在機器學習之前通常需要對資料進行降維處理，有以下原因：使得資料集更易使用降低很多演算法的計算開銷去除噪聲使得結果易懂這裡講的降維方法為主成分分析法（PCA），將資料從原來的座標系轉換到新的座標系，新的座標系的選擇是

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 主成分分析（Principal Component Analysis, PCA)可以

機器學習-3.資料特徵預處理與資料降維

特徵預處理定義：通過特定的統計方法（數學方法）將資料轉換成演算法要求的資料。處理方法數值型資料：標準縮放（1.歸一化，2.標準化）；缺失值。類別型資料：one-hot編碼。時間型別：時間的切分。預處理API：sklear

機器學習實戰（Machine Learning in Action）學習筆記————10.奇異值分解(SVD)原理、基於協同過濾的推薦引擎、資料降維

關鍵字：SVD、奇異值分解、降維、基於協同過濾的推薦引擎作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@author: Peter Harrington）原始碼下載地址：https://www.manning.com/books/machine-le

機器學習：資料降維

1、主成分分析（Principle Component Analysis，PCA）PCA原理主成分分析是最常用的一種降維方法，為了便於維度變換，作出如下假設：1）樣本資料是維的。2）原始座標系為：由標準

python大戰機器學習——資料降維

相關推薦