【機器學習算法-python實現】PCA 主成分分析、降維

阿新 • • 發佈：2017-05-07

pre gre text iss 主成分分析 int 找到 nts 導入

1.背景

PCA(Principal Component Analysis)，PAC的作用主要是減少數據集的維度，然後挑選出基本的特征。 PCA的主要思想是移動坐標軸，找到方差最大的方向上的特征值。什麽叫方差最大的方向的特征值呢。就像下圖中的曲線B。一樣。它的覆蓋範圍最廣。技術分享

基本步驟：（1）首先計算數據集的協方差矩陣（2）計算協方差矩陣的特征值和特征向量（3）保留最重要的n個特征

what is 協方差矩陣：

定義是變量向量減去均值向量，然後乘以變量向量減去均值向量的轉置再求均值。

比如x是變量，μ是均值，協方差矩陣等於E[(x-μ)(x-μ)^t]，物理意義是這種，比如x=（x1,x2,...,xi）那麽協方差矩陣的第m行n列的數為xm與xn的協方差，若m=n。則是xn的方差。假設x的元素之間是獨立的，那麽協方差矩陣僅僅有對角線是有值，由於x獨立的話對於m≠n的情況xm與xn的協方差為0。另外協方差矩陣是對稱的。

能夠參考wiki：（http://zh.wikipedia.org/wiki/%E5%8D%8F%E6%96%B9%E5%B7%AE%E7%9F%A9%E9%98%B5）

2.代碼實現

偽代碼例如以下（摘自機器學習實戰）：技術分享

‘‘‘
@author: Garvin
‘‘‘
from numpy import *
import matplotlib.pyplot as plt

def loadDataSet(fileName, delim=‘\t‘):
    fr = open(fileName)
    stringArr = [line.strip().split(delim) for line in fr.readlines()]
    datArr = [map(float,line) for line in stringArr]
    return mat(datArr)

def pca(dataMat, topNfeat=9999999):
    meanVals = mean(dataMat, axis=0)
    meanRemoved = dataMat - meanVals #remove mean
    covMat = cov(meanRemoved, rowvar=0)
    eigVals,eigVects = linalg.eig(mat(covMat))
    eigValInd = argsort(eigVals)            #sort, sort goes smallest to largest
    eigValInd = eigValInd[:-(topNfeat+1):-1]  #cut off unwanted dimensions
    redEigVects = eigVects[:,eigValInd]       #reorganize eig vects largest to smallest
    lowDDataMat = meanRemoved * redEigVects#transform data into new dimensions
    reconMat = (lowDDataMat * redEigVects.T) + meanVals
    return lowDDataMat, reconMat

def plotBestFit(dataSet1,dataSet2):      
    dataArr1 = array(dataSet1)
    dataArr2 = array(dataSet2)
    n = shape(dataArr1)[0] 
    n1=shape(dataArr2)[0]
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    xcord3=[];ycord3=[]
    j=0
    for i in range(n):
        
            xcord1.append(dataArr1[i,0]); ycord1.append(dataArr1[i,1])
            xcord2.append(dataArr2[i,0]); ycord2.append(dataArr2[i,1])                  
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c=‘red‘, marker=‘s‘)
    ax.scatter(xcord2, ycord2, s=30, c=‘green‘)
    
    plt.xlabel(‘X1‘); plt.ylabel(‘X2‘);
    plt.show()    




if __name__==‘__main__‘:
     mata=loadDataSet(‘/Users/hakuri/Desktop/testSet.txt‘)  
     a,b= pca(mata, 2)

loadDataSet函數是導入數據集。PCA輸入參數：參數一是輸入的數據集。參數二是提取的維度。比方參數二設為1。那麽就是返回了降到一維的矩陣。PCA返回參數：參數一指的是返回的低維矩陣。相應於輸入參數二。

參數二相應的是移動坐標軸後的矩陣。

上一張圖。綠色為原始數據。紅色是提取的2維特征。技術分享

3.代碼下載

下載地址：請點擊我

/********************************

* 本文來自博客 “李博Garvin“

* 轉載請標明出處:http://blog.csdn.net/buptgshengod

******************************************/

【機器學習算法-python實現】PCA 主成分分析、降維

pre gre text iss 主成分分析 int 找到 nts 導入 1.背景 PCA(Principal Component Analysis)，PAC的作用主要是減少數據集的維度，然後挑選出基本的特征。 PCA的主要思想是移動坐標軸，找

【機器學習算法-python實現】PCA 主成分分析、降維

1.背景

2.代碼實現

3.代碼下載

【機器學習算法-python實現】PCA 主成分分析、降維

【機器學習算法-python實現】svm支持向量機(3)—核函數

【機器學習算法-python實現】掃黃神器-樸素貝葉斯分類器的實現

【模式識別與機器學習】——PCA主成分分析

機器學習回顧篇（14）：主成分分析法（PCA）

吳恩達機器學習（十二）主成分分析（降維、PCA）

【機器學習】 Matlab 2015a 自帶機器學習算法匯總

如何用Python實現常見機器學習算法-3

機器學習算法整理（二）邏輯回歸 python實現

【方法論】機器學習算法概覽

【專欄】- 機器學習理論與Python實現

【算法】【python實現】二叉樹深度、廣度優先遍歷

機器學習算法整理（六）— 貝葉斯算法_實現垃圾郵件過濾

python機器學習算法系列之初識神經網路分類

【機器學習實戰-kNN(k-近鄰)】python3實現-書本知識【1】

（轉）8種常見機器學習算法比較

DeepLearning tutorial（2）機器學習算法在訓練過程中保存參數

八大排序算法python實現（轉）

機器學習算法

機器學習算法基礎概念學習總結（轉載）

【機器學習算法-python實現】PCA 主成分分析、降維

1.背景

2.代碼實現

3.代碼下載

相關推薦