【Python-ML】非線性對映降維-KPCA方法

阿新 • • 發佈：2018-12-31

# -*- coding: utf-8 -*-
'''
Created on 2018年1月18日
@author: Jason.F
@summary: 特徵抽取-KPCA方法，核主成分分析方法，RBF核實現
'''
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import pdist,squareform
from scipy import exp
from scipy.linalg import eigh
from sklearn.datasets import make_moons
from sklearn.datasets import make_circles
from sklearn.decomposition import PCA
from matplotlib.ticker import FormatStrFormatter
def rbf_kernel_pca(X,gama,n_components):
    '''
    RBF kernel PCA implementation.
    
    Parameters:
    X:{Numpy ndarray},shape=[n_samples,n_features]
    gama:float,Tuning parameter of the RBF kernel
    n_components:int,Number of principal components to return
    
    Returns:
    X_pc:{Numpy ndarray},shape=[n_samples,n_features],Projected dataset
    '''
    #1：計算樣本對歐幾里得距離，並生成核矩陣
    #k(x,y)=exp(-gama *||x-y||^2)，x和y表示樣本，構建一個NXN的核矩陣，矩陣值是樣本間的歐氏距離值。
    #1.1:calculate pairwise squared Euclidean distances in the MXN dimensional dataset.
    sq_dists = pdist (X, 'sqeuclidean') #計算兩兩樣本間歐幾里得距離
    
    #1.2:convert pairwise distances into a square matrix.
    mat_sq_dists=squareform(sq_dists) #距離平方
    
    #1.3:compute the symmetric kernel matrix.
    K=exp(-gama * mat_sq_dists) 
    
    #2:聚集核矩陣K'=K-L*K-K*L + L*K*L，其中L是一個nXn的矩陣(和核矩陣K的維數相同，所有的值都是1/n。
    #聚集核矩陣的必要性是：樣本經過標準化處理後，當在生成協方差矩陣並以非線性特徵的組合替代點積時，所有特徵的均值為0；但用低維點積計算時並沒有精確計算新的高維特徵空間，也無法確定新特徵空間的中心在零點。
    #center the kernel matrix.
    N=K.shape[0]
    one_n = np.ones((N,N))/N #NXN單位矩陣
    K=K - one_n.dot(K) - K.dot(one_n) + one_n.dot(K).dot(one_n)
    
    #3：對聚集後的核矩陣求取特徵值和特徵向量
    #obtaining eigenpairs from the centered kernel matrix
    #numpy.eigh returns them in sorted order.
    eigvals,eigvecs = eigh(K)
    
    #4：選擇前k個特徵值所對應的特徵向量，和PCA不同，KPCA得到的K個特徵，不是主成分軸，而是高維對映到低維後的低維特徵數量
    #核化過程是低維對映到高維，pca是降維，經過核化後的維度已經不是原來的特徵空間。
    #核化是低維對映到高維，但並不是在高維空間計算(非線性特徵組合)而是在低維空間計算(點積)，做到這點關鍵是核函式，核函式通過兩個向量點積來度量向量間相似度，能在低維空間內近似計算出高維空間的非線性特徵空間。
    #collect the top k eigenvectors (projected samples).
    X_pc = np.column_stack((eigvecs[:,-i] for i in range(1,n_components+1)))

    return X_pc

#case1:分離半月形資料
#1.1：生成二維線性不可分資料
X,y=make_moons(n_samples=100,random_state=123)
plt.scatter(X[y==0,0],X[y==0,1],color='red',marker='^',alpha=0.5)
plt.scatter(X[y==1,0],X[y==1,1],color='blue',marker='o',alpha=0.5)
plt.show()
#1.2：PCA降維，對映到主成分，仍不能很好線性分類
sk_pca = PCA(n_components=2)
X_spca=sk_pca.fit_transform(X)
fig,ax = plt.subplots(nrows=1,ncols=2,figsize=(7,3))
ax[0].scatter(X_spca[y==0,0],X_spca[y==0,1],color='red',marker='^',alpha=0.5)
ax[0].scatter(X_spca[y==1,0],X_spca[y==1,1],color='blue',marker='o',alpha=0.5)
ax[1].scatter(X_spca[y==0,0],np.zeros((50,1))+0.02,color='red',marker='^',alpha=0.5)
ax[1].scatter(X_spca[y==1,0],np.zeros((50,1))-0.02,color='blue',marker='^',alpha=0.5)
ax[0].set_xlabel('PC1')
ax[0].set_ylabel('PC2')
ax[1].set_ylim([-1,1])
ax[1].set_yticks([])
ax[1].set_xlabel('PC1')
plt.show()
#1.3：利用基於RBF核的KPCA來實現線性可分
X_kpca=rbf_kernel_pca(X, gama=15, n_components=2)
fig,ax = plt.subplots(nrows=1,ncols=2,figsize=(7,3))
ax[0].scatter(X_kpca[y==0,0],X_kpca[y==0,1],color='red',marker='^',alpha=0.5)
ax[0].scatter(X_kpca[y==1,0],X_kpca[y==1,1],color='blue',marker='o',alpha=0.5)
ax[1].scatter(X_kpca[y==0,0],np.zeros((50,1))+0.02,color='red',marker='^',alpha=0.5)
ax[1].scatter(X_kpca[y==1,0],np.zeros((50,1))-0.02,color='blue',marker='^',alpha=0.5)
ax[0].set_xlabel('PC1')
ax[0].set_ylabel('PC2')
ax[1].set_ylim([-1,1])
ax[1].set_yticks([])
ax[1].set_xlabel('PC1')
ax[0].xaxis.set_major_formatter(FormatStrFormatter('%0.1f'))
ax[1].xaxis.set_major_formatter(FormatStrFormatter('%0.1f'))
plt.show()

#case2：分離同心圓
#2.1：生成同心圓資料
X,y=make_circles(n_samples=1000,random_state=123,noise=0.1,factor=0.2)
plt.scatter(X[y==0,0],X[y==0,1],color='red',marker='^',alpha=0.5)
plt.scatter(X[y==1,0],X[y==1,1],color='blue',marker='o',alpha=0.5)
plt.show()
#2.2：標準PCA對映
sk_pca = PCA(n_components=2)
X_spca=sk_pca.fit_transform(X)
fig,ax = plt.subplots(nrows=1,ncols=2,figsize=(7,3))
ax[0].scatter(X_spca[y==0,0],X_spca[y==0,1],color='red',marker='^',alpha=0.5)
ax[0].scatter(X_spca[y==1,0],X_spca[y==1,1],color='blue',marker='o',alpha=0.5)
ax[1].scatter(X_spca[y==0,0],np.zeros((500,1))+0.02,color='red',marker='^',alpha=0.5)
ax[1].scatter(X_spca[y==1,0],np.zeros((500,1))-0.02,color='blue',marker='^',alpha=0.5)
ax[0].set_xlabel('PC1')
ax[0].set_ylabel('PC2')
ax[1].set_ylim([-1,1])
ax[1].set_yticks([])
ax[1].set_xlabel('PC1')
plt.show()
#2.3：RBF-KPCA對映
X_kpca=rbf_kernel_pca(X, gama=15, n_components=2)
fig,ax = plt.subplots(nrows=1,ncols=2,figsize=(7,3))
ax[0].scatter(X_kpca[y==0,0],X_kpca[y==0,1],color='red',marker='^',alpha=0.5)
ax[0].scatter(X_kpca[y==1,0],X_kpca[y==1,1],color='blue',marker='o',alpha=0.5)
ax[1].scatter(X_kpca[y==0,0],np.zeros((500,1))+0.02,color='red',marker='^',alpha=0.5)
ax[1].scatter(X_kpca[y==1,0],np.zeros((500,1))-0.02,color='blue',marker='^',alpha=0.5)
ax[0].set_xlabel('PC1')
ax[0].set_ylabel('PC2')
ax[1].set_ylim([-1,1])
ax[1].set_yticks([])
ax[1].set_xlabel('PC1')
ax[0].xaxis.set_major_formatter(FormatStrFormatter('%0.1f'))
ax[1].xaxis.set_major_formatter(FormatStrFormatter('%0.1f'))
plt.show()

case1結果：

case2結果：

【Python-ML】非線性對映降維-KPCA方法

# -*- coding: utf-8 -*- ''' Created on 2018年1月18日 @author: Jason.F @summary: 特徵抽取-KPCA方法，核主成分分析方法，RBF核實現 ''' import pandas as pd import nu

【機器學習】簡述多種降維演算法

【轉載請註明出處】chenrudan.github.io 最近看了一些關於降維演算法的東西，本文首先給出了七種演算法的一個資訊表，歸納了關於每個演算法可以調節的(超)引數、演算法主要目的等等，然後介紹了降維的一些基本概念，包括降維是什麼、為什麼要降維、降維可以

【Python-ML】SKlearn庫整合學習器Bagging

# -*- coding: utf-8 -*- ''' Created on 2018年1月19日 @author: Jason.F @summary: Bagging，通過bootstrap樣本構建整合分類器，樣本有放回抽樣。降低模型方差，防止過擬合。 ''' impo

【Python-ML】感知器學習演算法(perceptron)

1、數學模型 2、權值訓練 3、Python程式碼感知器收斂的前提是兩個類別必須是線性可分的，且學習速率足夠小。如果兩個類別無法通過一個線性決策邊界進行劃分，要為模型在訓練集上的學習迭代次數設定一個最大值，或者設定一個允許錯誤分類樣本數量的閾值，否則感知器

【Python-ML】SKlearn庫支援向量機(SVM) 使用

# -*- coding: utf-8 -*- ''' Created on 2018年1月15日 @author: Jason.F @summary: Scikit-Learn庫支援向量機分類演算法 ''' from sklearn import datasets im

【Python-ML】神經網路-多層感知器增加梯度檢驗

# -*- coding: utf-8 -*- ''' Created on 2018年1月26日 @author: Jason.F @summary: 多層感知器實現，加梯度檢驗訓練集：http://yann.lecun.com/exdb/mnist/ train-im

【Python資料探勘課程】七.PCA降維操作及subplot子圖繪製

這篇文章主要介紹四個知識點，也是我那節課講課的內容。 1.PCA降維操作； 2.Python中Sklearn的PCA擴充套件包； 3.Matplotlib的subplot函式繪製子圖； 4.通過Kmean

【Python 程式碼】CS231n中Softmax線性分類器、非線性分類器對比舉例（含python繪圖顯示結果）

#CS231n中線性、非線性分類器舉例（Softmax） #注意其中反向傳播的計算 # -*- coding: utf-8 -*- import numpy as np import matplotlib.pyplot as plt N = 100 # num

【python自制】讓大白成為你的個人助手！

article get content clas tps com class out 自制我做這個軟件就是要讓賣萌進行究竟！官方站點：http://www.jackeriss.com/companions.htm GitHub：https://github.co

【Python學習】Python解決漢諾塔問題

次數代碼 int 解題思路 move python學習求解 color 印度參考文章：http://www.cnblogs.com/dmego/p/5965835.html 一句話：學程序不是目的，理解就好；寫代碼也不是必然，省事最好；拿也好，查也好，解決問題就好

【Python筆記】文件常見用法

off 習慣 size readline 追加 run 寫到文件內部關於文件的函數w 寫方式a 追加模式打開（從EOF開始，必要時創建新文件）r+ 以讀寫模式打開w+ 以讀寫模式打開a+ 以讀寫模式打開rb 以二進制讀模式打開wb 以二進制寫模式打開 (參見 w )a

【python學習】使用python寫一個2048小遊戲

ast stc 遊戲多少 wan nbsp 小遊戲效果參考個人博客：jerwang.cn 沒有參考其他代碼,效果圖：話不多少，源代碼： https://github.com/jerustc/Python/blob/master/2048.py【python學

【Python學習】Python中的數據類型精度問題

類型一次 /usr logs int 第一次 pytho 整數問題 Python真的很神奇。。。神奇到沒有直接的數據類型概念，並且精度可以是任意精度。想當初，第一次接觸OI算法時，寫得第一個算法就是高精度加法，搗鼓了半天。一切在Python看來，僅僅三行代碼即可完成。

【python Dict】 python 字典操作

div 調用 clear 時報 bsp 找到 ict strong 數字 python字典是一個無序、以鍵值對存儲的數據類型，數據關聯性強、唯一一個映射數據類型。鍵：必須是可哈希（不可變的數據類型：字符串、數字、元組、bool）值，並且是唯一的 None: none 是一

【python學習】今天看看學習 %d ,%s, %f 等用法，下面的學習例子是說輸入名字、年齡、工作，工資。並給出65歲退休還差多久的計算

msg ear end style 資料科學一個保留 value 今天看看學習 %d ,%s, %f 等用法。%d 是占位符整數，%s 是占位符，%f 是浮點數。下面的學習例子是說輸入名字、年齡、工作，工資。並給出65歲退休還差多久的計算。重點在於用占位符來print

【python-excel】Selenium+python自動化之讀取Excel數據（xlrd）

logs title .html selenium2 ref target targe pos 數據 Selenium2+python自動化之讀取Excel數據（xlrd）轉載地址：http://www.cnblogs.com/lingzeng86/p/6793398.h

【python-字典】判斷python字典中key是否存在的

打印是否 str pop highlight int rac copyto 屬性一般有兩種通用做法: 第一種方法：使用自帶函數實現: 在python的字典的屬性方法裏面有一個has_key()方法: [python] view plain copy #生成一

【python-ini】python讀寫ini文件

clas edr print 代碼 cells order sta read param 【python-ini】python讀寫ini文件本文實例講述了Python讀寫ini文件的方法。分享給大家供大家參考。具體如下：比如有一個文件update.ini，裏面有這些

【python-strip】Python strip()方法

python this 指定 round str ret amp rip int strip()方法用於移除字符串首尾的指定字符（默認是空格）比如： str = "0000000this is string example....wow!!!0000000"; print

【算法】CDQ分治 -- 三維偏序 & 動態逆序對

累加區間 www 得到 pri sort fine max upd 初次接觸CDQ分治，感覺真的挺厲害的。整體思路即分而治之，再用之前處理出來的答案統計之後的答案。大概流程是：對於區間 l ~ r : 1.處理 l ~mid, mid + 1 ~ r 的答案 2.分

【Python-ML】非線性對映降維-KPCA方法

相關推薦