【機器學習筆記15】主成分分析(PCA)

阿新 • • 發佈：2018-12-12

PCA演算法

去平均值，即每一位特徵減去各自的平均值
計算新矩陣的協方差矩陣設$X=(X_1, X_2…X_N)^T $，在鳶尾花例子裡N=4,會生成一個4*4的協方差矩陣稱矩陣 $C=(c_{ij})_{n \times n}=\begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \end{pmatrix}$ 其中 $c_{ij}=Cov(X_i, X_j)$

備註:協方差衡量兩個隨機變數的相關性，當協方差為0是認為兩個隨機變數是獨立的。 $Cov(X, Y) = E[(X-E[X])(Y-E(Y))]$ 3. 計算協方差矩陣的特徵值與特徵向量 4. 對特徵值從大到小排序，保留大的特徵值對應的特徵向量 5. 將原始資料矩陣乘特徵向量矩陣（減去忽略的特徵值）得到新的特徵空間詳見程式例子

PCA程式實現（基於sklearn）

備註: 在本例中我們將鳶尾花資料的四個特徵通過PCA降低成兩個，即原有的150 * 4個特徵降維成150 * 2，之後再進行貝葉斯分析。

# -*- coding: utf-8 -*-
import numpy  as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB 
from sklearn.pipeline import Pipeline


def iris_type(s):

    it = {b'Iris-setosa': 0, b'Iris-versicolor': 1, b'Iris-virginica': 2}
    return it[s]

def _test_pca():

    """
    採用鳶尾花卉資料集進行特徵降維
    """

    data = np.loadtxt("./data/iris.data", dtype=float, delimiter=',', converters={4: iris_type})
    x, y = np.split(data, (4,), axis=1)

    pca = PCA(n_components=4)
    pca.fit(x)

    """
    協方差矩陣 特徵值: [4.22484077 0.24224357 0.07852391 0.02368303]
    協方差矩陣 特徵所佔比重: [0.92461621 0.05301557 0.01718514 0.00518309]
    協方差矩陣 特徵向量: 
    [[ 0.36158968 -0.08226889  0.85657211  0.35884393]
    [ 0.65653988  0.72971237 -0.1757674  -0.07470647]
    [-0.58099728  0.59641809  0.07252408  0.54906091]
    [ 0.31725455 -0.32409435 -0.47971899  0.75112056]]
    """

    print('協方差矩陣 特徵值: {0}'.format(pca.explained_variance_))
    print('協方差矩陣 特徵所佔比重: {0}'.format(pca.explained_variance_ratio_))
    print('協方差矩陣 特徵向量: {0}'.format(pca.components_))

    #保留兩個特徵
    v = pca.components_[[0,1],:]


    """
    [[ 0.36158968 -0.08226889  0.85657211  0.35884393]
    [ 0.65653988  0.72971237 -0.1757674  -0.07470647]]
    """
    print(v)

    #重新構造特徵資料 x * v 稱為一個150 * 2的矩陣

    x_new = np.dot(x, np.transpose(v))

    #利用新的特徵資料來做分類
    x_train, x_test, y_train, y_test = train_test_split(x_new, y, test_size=0.3, random_state=1)


    #如果這裡採用MultinomialNB引數，則預設認為概率分佈為多項式分佈，在鳶尾花例子中會報錯：
    #ValueError: Input X must be non-negative
    model = Pipeline([
        ('sc', StandardScaler()),
        ('clf', GaussianNB())])

    model.fit(x_train, y_train)

    y_test_pre = model.predict(x_test)      

    # 訓練集上的預測結果
    y_test = y_test.reshape(-1)
    result = (y_test_pre == y_test)

    acc = np.mean(result)
    
    print('準確度: %.2f%%' % (100 * acc)) #93.33%

    pass


"""
說明：

SVD程式碼實現，對應的筆記《12.主成分分析(PCA)》

作者：fredric

日期：2018-9-12

"""
if __name__ == "__main__":

    _test_pca()

【機器學習筆記15】主成分分析(PCA)

PCA演算法去平均值，即每一位特徵減去各自的平均值計算新矩陣的協方差矩陣設$X=(X_1, X_2…X_N)^T $，在鳶尾花例子裡N=4,會生成一個4*4的協方差矩陣稱矩陣 C=(cij)n×n=(c11c12⋯c1nc21c22⋯c2n⋯⋯⋯⋯

【機器學習演算法實現】主成分分析 PCA ——基於python+numpy

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【機器學習】主成分分析PCA（Principal components analysis）

大小限制總結情況 pca 空間會有 ges nal 1. 問題真實的訓練數據總是存在各種各樣的問題：　　1、比如拿到一個汽車的樣本，裏面既有以“千米/每小時”度量的最大速度特征，也有“英裏/小時”的最大速度特征，

【機器學習筆記35】蟻群演算法

【參考資料】【1】《蟻群演算法原理及其應用》【2】測試資料: https://comopt.ifi.uni-heidelberg.de/software/TSPLIB95/tsp/att48.tsp.gz 演算法原理（以TSP問題為例）（1）引數初始化。令時間t=0和迴圈次數

【機器學習筆記02】最小二乘法（多元線性迴歸模型）

數學基礎 1.轉置矩陣定義：將矩陣A同序數的行換成列成為轉置矩陣ATA^TAT，舉例： A=(1203−11)A=\begin{pmatrix} 1 & 2 & 0 \\ 3 & -1 &

【機器學習筆記01】最小二乘法（一元線性迴歸模型）

【參考資料】【1】《概率論與數理統計》【2】 http://scikit-learn.org /stable/auto_examples/ linear_model/ plot_ols.html # sphx-glr-auto-examples-

【機器學習筆記04】隨機梯度下降

梯度下降梯度下降是一個尋找函式機值的方式，屬於最優化裡的基礎演算法，在低維度的情況下非常容易理解。例如存在函式y=x2y=x^2y=x2存在導數dy=2x，若當前點在x=1點，設dx的步長為0.1。此時我們通過負梯度計算下一個x點xt+1=xt−2∗0.

【機器學習筆記05】Jacobian矩陣&Hessian矩陣

Jacobian矩陣 Jacobian矩陣是函式對向量求導，其結果是一階偏導陣列成的矩陣。假設:F:Rn→RmF:R_n \to R_mF:Rn→Rm也就是一個n維歐式空間向m維歐式空間的一個對映。舉例：由球座標系轉換到直角座標系，存在對映形式化表

【機器學習筆記08】分類器（softmax迴歸)

基本定義首先給出softmax的數學定義，如下: hθ(x(i))=[p(y(i)=1∣x(i);θ)p(y(i)=2∣x(i);θ)⋮p(y(i)=k∣x(i);θ)]=1∑j=1keθjTx(i)[eθ1Tx(i)eθ2Tx(i)⋮eθkTx(i)]

【機器學習筆記18】隱馬爾可夫模型

【參考資料】【1】《統計學習方法》隱馬爾可夫模型（HMM）定義隱馬爾可夫模型: 隱馬爾可夫模型是關於時序的模型，描述一個由隱藏的馬爾可夫鏈生成的不可觀測的狀態序列，再由各個狀態生成的觀測值所構成的一個觀測序列。形式化定義HMM為λ=(A,B,π)\la

【機器學習筆記14】奇異值分解(SVD)

奇異值分解定義: 假設A是一個m×nm \times nm×n的矩陣，則存在如下一種分解: Am×n=Um×m∑m×nVn×nTA_{m \times n}=U_{m \times m} \sum_{m \times n} V_{n \times n}^T

【機器學習筆記17】支援向量機

【參考資料】【1】《統計學習方法》基本概念當訓練資料線性可分時，通過硬間隔最大化，學習一個線性的分類器，即線性可分支援向量機，又稱硬間隔支援向量機；當訓練資料近似線性可分時，通過軟間隔（增加一個鬆弛因子）後學習一個線性的分類器，即軟間隔支援向量機；

【機器學習筆記20】神經網路（鏈式求導和反向傳播)

【參考文獻】【1】《面向機器智慧的TensorFlow實踐》4.7 假設存在網路結果如下各個層輸出定義 L1=sigmoid(w1⋅x)L_1 = sigmoid(w_1 \cdot x)L1=sigmoid(w1⋅x) L2=sigmoid(w2⋅L

【機器學習筆記12】聚類（k-means)

K-means 演算法演算法流程如下：（1）在樣本中選擇兩個點（也可以是若干個）作為種子點；（2）計算其餘各個樣本離該種子點的距離，並將其分為兩類；（3）將種子點移到（2）所分為的兩類的中間；（4）重複（2）(3)直到種子不再移動； K-means

【機器學習筆記21】神經網路（多層感知機)

【參考資料】【1】《深度學習》花書 6.1 亦或問題由於單層感知機相當於在一個空間增加了一個超平面進行分類，那麼對於像亦或問題這樣的情況則無法完成。因此在多層感知機中增加了一個隱藏層，即一個啟用函式。現代神經網路最常用的啟用函式是整流線性單元，ReL

【機器學習筆記19】神經網路（單層感知機）

【參考資料】【1】《人工神經網路教程》【2】《matlab 2015b 神經網路技術》基本概念單層感知器可以看成一個線性累加器和一個二值化閾值元器件，通常會在累加一個偏移量。由公式表達為:oj=sgn(∑i=1nwijxi+b)o_j= sgn(\s

【機器學習筆記16】拉格朗日乘子法

【參考資料】【1】《統計學習方法》【2】《凸優化》【3】小象學院《凸優化》凸集直線和線段的表達設x1≠x2x_1 \ne x_2x1̸=x2是RnR^nRn空間上的兩個點，具有存在下列定義的點： y=θx1+(1−θ)x2y = \thet

【機器學習筆記13】聚類（高斯混合聚類）

【參考資料】【1】《統計學習方法》【2】《概率論與數理統計》【3】小象學院 EM演算法高斯分佈定義: 如果隨機變數X的概率密度為f(x)=12πσe−(x−u)22σ2f(x)= \dfrac{1}{\sqrt{2\pi}\sigma}e^{-\df

【機器學習筆記22】神經網路(卷積神經網路)

【參考資料】【1】《面向機器智慧的tensorflow實踐》【2】Keras/example – mnist_cnn.py 【3】Keras中文文件常用層卷積層卷積理解就是之前影象處理裡用作檢測邊緣、檢測角點的運算元，例如: 輸入: [1234] \

【機器學習筆記23】神經網路（RNN)

基礎迴圈神經網路迴圈神經網路（RNN）是一個由神經元和權值構成的有向圖，它的當前狀態與前一時刻的狀態和當前輸入決定，因此當前狀態也被稱為工作記憶。迴圈神經網路在時間序列上展開後如上圖所示，用於解決序列化的問題，諸如語音識別、語音合成、文字生成。例子:利

【機器學習筆記15】主成分分析(PCA)

PCA演算法

PCA程式實現（基於sklearn）

相關推薦