降維演算法（PCA）

阿新 • • 發佈：2019-01-04

降維方法

1、主成分分析（PCA）
在PCA中，資料從原來的座標系轉換到新的座標系，新座標系的選擇是由資料本身決定的。第一個新座標軸選擇的是原始資料中方差最大的方向，第二個新座標軸選擇和第一個座標軸正交且具有最大方差的方向。該過程一直重複，重複次數為原始資料中特徵的數目。我們會發現，大部分方差都包含在最前面的幾個新座標軸中。因此，我們可以忽略餘下的座標軸，即對資料進行降維處理。

2、因子分析（Factor Analysis）。在因子分析中，我們假設在觀察資料的生成中有一些觀察不到的隱變數（latent variable）。假設觀察資料是這些隱變數和某些噪聲資料的線性組合。那麼隱變數的資料可能比觀察資料的數目少，也就是說通過找到隱變數就可以實現資料降維。

3、獨立成分分析（ICA）
ICA假設資料從N個數據源生成的，和因子分析有些類似。假設資料為多個數據源的混合觀察結果，這些資料來源之間在統計上是相互獨立的，而在PCA中只假設資料是不相關的。同因子分析一樣，如果資料來源的數目少於觀察資料的數目，則可實現降維。

注：PCA應用最廣泛，所以只介紹PCA。
線性判別分析（LDA）是一種經典的監督降維演算法。主成分分析（PCA）是一種經典的無監督降維演算法。

PCA降維的兩個準則：
最近重構性：樣本集中所有點，重構後的點距離原來的點的誤差之和最小。
最大可分性：樣本在低維空間的投影儘可能分開。

1、PCA
**scikit-learn中提供一個PCA類來實現PCA模型
decomposition.PCA( )**
注：decomposition.PCA不能應用於稀疏矩陣且無法適用於超大規模資料（因它要求所有的資料一次載入進記憶體）

引數
n_components：一個整數，指定降維後的維數
屬性
explained_variance_ratio_：一個數組，元素是每個主成分explained variance的比例

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets,decomposition,manifold

def load_data():
    iris=datasets.load_iris()
    return iris.data,iris.target

def test_PCA(*data) 
:
    X,y=data
    pca=decomposition.PCA(n_components=None)
    pca.fit(X)
    print('explained variance ratio : %s'%str(pca.explained_variance_ratio_))

X,y=load_data()
test_PCA(X,y)

def plot_PCA(*data):
    X,y=data
    pca=decomposition.PCA(n_components=2)
    pca.fit(X)
    X_r=pca.transform(X)

    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5),(0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2))
    for label,color in zip(np.unique(y),colors):
        position=y==label
        ax.scatter(X_r[position,0],X_r[position,1],label="target=%d"%label,color=color)
    ax.set_xlabel("X[0]")
    ax.set_ylabel("Y[0]")
    ax.legend(loc="best")
    ax.set_title("PCA")
    plt.show()
plot_PCA(X,y)

這裡寫圖片描述

2、超大規模資料降維IncrementalPCA
可以將資料分批載入進記憶體。

3、KernelPCA
decomposition.KernelPCA( )
引數
n_components：一個整數，指定降維後的維數，如果為None，則維數不變。
kernel：一個字串，指定核函式
–linear：線性核
–poly：多項式核
–rbf：高斯核函式
–sigmoid
alpha：一個整數，嶺迴歸的超引數，用於計算逆轉矩陣（當fit_inverse_transform=True時）。inverse：逆，transform：轉。先逆後轉。
屬性
lambdas_：核化矩陣的特徵值
alphas_：核化矩陣的特徵向量
dual_coef_：逆轉換矩陣
方法
fit（X[ , y]）:訓練模型
transform(X)：執行降維
fit_transform（X[ , y]）:訓練模型並且降維
inverse_transform(X):執行升維，將資料從低維空間逆向轉換到原始空間

import numpy as np
import matplotlib.pyplot as plt
from sklearn import   datasets,decomposition

def load_data():
    '''
    載入用於降維的資料
    :return: 一個元組，依次為訓練樣本集和樣本集的標記
    '''
    iris=datasets.load_iris()# 使用 scikit-learn 自帶的 iris 資料集
    return  iris.data,iris.target

def test_KPCA(*data):
    '''
    測試 KernelPCA 的用法
    :param data: 可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、訓練樣本的標記
    :return: None
    '''
    X,y=data
    kernels=['linear','poly','rbf','sigmoid']
    for kernel in kernels:
        kpca=decomposition.KernelPCA(n_components=None,kernel=kernel) # 依次測試四種核函式
        kpca.fit(X)
        print('kernel=%s --> lambdas: %s'% (kernel,kpca.lambdas_))
def plot_KPCA(*data):
    '''
    繪製經過 KernelPCA 降維到二維之後的樣本點
    :param data: 可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、訓練樣本的標記
    :return: None
    '''
    X,y=data
    kernels=['linear','poly','rbf','sigmoid']
    fig=plt.figure()
    colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5),
        (0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2),)# 顏色集合，不同標記的樣本染不同的顏色

    for i,kernel in enumerate(kernels):
        kpca=decomposition.KernelPCA(n_components=2,kernel=kernel)
        kpca.fit(X)
        X_r=kpca.transform(X)# 原始資料集轉換到二維
        ax=fig.add_subplot(2,2,i+1) ## 兩行兩列，每個單元顯示一種核函式的 KernelPCA 的效果圖
        for label ,color in zip( np.unique(y),colors):
            position=y==label
            ax.scatter(X_r[position,0],X_r[position,1],label="target= %d"%label,
            color=color)
        ax.set_xlabel("X[0]")
        ax.set_ylabel("X[1]")
        ax.legend(loc="best")
        ax.set_title("kernel=%s"%kernel)
    plt.suptitle("KPCA")
    plt.show()
def plot_KPCA_poly(*data):
    '''
    繪製經過 使用 poly 核的KernelPCA 降維到二維之後的樣本點
    :param data: 可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、訓練樣本的標記
    :return: None
    '''
    X,y=data
    fig=plt.figure()
    colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5),
        (0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2),)# 顏色集合，不同標記的樣本染不同的顏色
    Params=[(3,1,1),(3,10,1),(3,1,10),(3,10,10),(10,1,1),(10,10,1),(10,1,10),(10,10,10)] # poly 核的引數組成的列表。
            # 每個元素是個元組，代表一組引數（依次為：p 值， gamma 值， r 值）
            # p 取值為：3，10
            # gamma 取值為 ：1，10
            # r 取值為：1，10
            # 排列組合一共 8 種組合
    for i,(p,gamma,r) in enumerate(Params):
        kpca=decomposition.KernelPCA(n_components=2,kernel='poly'
        ,gamma=gamma,degree=p,coef0=r)  # poly 核，目標為2維
        kpca.fit(X)
        X_r=kpca.transform(X)# 原始資料集轉換到二維
        ax=fig.add_subplot(2,4,i+1)## 兩行四列，每個單元顯示核函式為 poly 的 KernelPCA 一組引數的效果圖
        for label ,color in zip( np.unique(y),colors):
            position=y==label
            ax.scatter(X_r[position,0],X_r[position,1],label="target= %d"%label,
            color=color)
        ax.set_xlabel("X[0]")
        ax.set_xticks([]) # 隱藏 x 軸刻度
        ax.set_yticks([]) # 隱藏 y 軸刻度
        ax.set_ylabel("X[1]")
        ax.legend(loc="best")
        ax.set_title(r"$ (%s (x \cdot z+1)+%s)^{%s}$"%(gamma,r,p))
    plt.suptitle("KPCA-Poly")
    plt.show()
def plot_KPCA_rbf(*data):
    '''
    繪製經過 使用 rbf 核的KernelPCA 降維到二維之後的樣本點
    :param data: 可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、訓練樣本的標記
    :return: None
    '''
    X,y=data
    fig=plt.figure()
    colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5),
        (0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2),)# 顏色集合，不同標記的樣本染不同的顏色
    Gammas=[0.5,1,4,10]# rbf 核的引數組成的列表。每個引數就是 gamma值
    for i,gamma in enumerate(Gammas):
        kpca=decomposition.KernelPCA(n_components=2,kernel='rbf',gamma=gamma)
        kpca.fit(X)
        X_r=kpca.transform(X)# 原始資料集轉換到二維
        ax=fig.add_subplot(2,2,i+1)## 兩行兩列，每個單元顯示核函式為 rbf 的 KernelPCA 一組引數的效果圖
        for label ,color in zip( np.unique(y),colors):
            position=y==label
            ax.scatter(X_r[position,0],X_r[position,1],label="target= %d"%label,
            color=color)
        ax.set_xlabel("X[0]")
        ax.set_xticks([]) # 隱藏 x 軸刻度
        ax.set_yticks([]) # 隱藏 y 軸刻度
        ax.set_ylabel("X[1]")
        ax.legend(loc="best")
        ax.set_title(r"$\exp(-%s||x-z||^2)$"%gamma)
    plt.suptitle("KPCA-rbf")
    plt.show()
def plot_KPCA_sigmoid(*data):
    '''
    繪製經過 使用 sigmoid 核的KernelPCA 降維到二維之後的樣本點
    :param data: 可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、訓練樣本的標記
    :return: None
    '''
    X,y=data
    fig=plt.figure()
    colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5),
        (0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2),)# 顏色集合，不同標記的樣本染不同的顏色
    Params=[(0.01,0.1),(0.01,0.2),(0.1,0.1),(0.1,0.2),(0.2,0.1),(0.2,0.2)]# sigmoid 核的引數組成的列表。
        # 每個元素就是一種引數組合（依次為 gamma,coef0）
        # gamma 取值為： 0.01，0.1，0.2
        # coef0 取值為： 0.1,0.2
        # 排列組合一共有 6 種組合
    for i,(gamma,r) in enumerate(Params):
        kpca=decomposition.KernelPCA(n_components=2,kernel='sigmoid',gamma=gamma,coef0=r)
        kpca.fit(X)
        X_r=kpca.transform(X)# 原始資料集轉換到二維
        ax=fig.add_subplot(3,2,i+1)## 三行兩列，每個單元顯示核函式為 sigmoid 的 KernelPCA 一組引數的效果圖
        for label ,color in zip( np.unique(y),colors):
            position=y==label
            ax.scatter(X_r[position,0],X_r[position,1],label="target= %d"%label,
            color=color)
        ax.set_xlabel("X[0]")
        ax.set_xticks([]) # 隱藏 x 軸刻度
        ax.set_yticks([]) # 隱藏 y 軸刻度
        ax.set_ylabel("X[1]")
        ax.legend(loc="best")
        ax.set_title(r"$\tanh(%s(x\cdot z)+%s)$"%(gamma,r))
    plt.suptitle("KPCA-sigmoid")
    plt.show()
if __name__=='__main__':
    X,y=load_data() # 產生用於降維的資料集
    test_KPCA(X,y)   # 呼叫 test_KPCA
    #plot_KPCA(X,y)   # 呼叫 plot_KPCA
    #plot_KPCA_poly(X,y)   # 呼叫 plot_KPCA_poly
    #plot_KPCA_rbf(X,y)   # 呼叫 plot_KPCA_rbf
    #plot_KPCA_sigmoid(X,y)   # 呼叫 plot_KPCA_sigmoid

總結一下：例項就是把鳶尾花這個4維資料降維降到2維的。從plot_KPCA_poly函式可以看到，採用同樣的多項式函式，如果引數不同，其降維後的資料分佈是不同的。其他函式亦是如此。

將資料轉換成前N個主成分的虛擬碼大致如下：

去除平均值
計算協方差矩陣
計算協方差矩陣的特徵值和特徵向量
將特徵值從大到小排序
保留最上面的N個特徵向量
將資料轉換到上述N個特徵向量構建的新空間中

PCA可以從資料中識別其主要特徵，它是通過沿著資料最大方差方向旋轉座標軸來實現的。選擇方差最大的方向作為第一條座標軸，後續座標軸與前面的座標軸正交。協方差矩陣上的特徵值分析可以用一系列的正交座標軸來獲取。

降維演算法（PCA）

降維方法

降維演算法（PCA）

降維演算法（LASSO、PCA、聚類分析、小波分析、線性判別分析、拉普拉斯特徵對映、區域性線性嵌入）

區域性線性嵌入降維演算法（含實驗程式碼）

四大機器學習降維演算法：PCA、LDA、LLE、Laplacian Eigenmaps

降維概述（I）

機器學習筆記（八）：PCA降維演算法

淺談PCA（主成分分析）線性降維演算法用法

PCA（主成分分析）降維演算法詳解和程式碼

人工智慧（2）- 學習主成成分分析（PCA）進行降維

使用主成分分析（PCA）方法對資料進行降維

主成分（PCA）降維

數據降維——主成分分析（PCA）

機器學習----降維與度量學習（PCA）

資料探勘學習------------------1-資料準備-４-主成分分析（PCA）降維和相關係數降維

吳恩達機器學習總結：第十一降維（PCA）（大綱摘要及課後作業）

【機器學習】資料降維—主成分分析（PCA）

降維之主成分分析法（PCA）

你也可以手繪二維碼（二）糾錯碼字演算法：數論基礎及伽羅瓦域GF（2^8）

一步步教你輕鬆學主成分分析PCA降維演算法

用主成分分析（PCA）演算法做人臉識別

降維演算法（PCA）

降維方法

相關推薦