PCA, SVD以及代碼示例

阿新 • • 發佈：2017-08-12

swe erro ict ef7 計算 component pict 需要 wikipedia

本文是對PCA和SVD學習的整理筆記，為了避免很多重復內容的工作，我會在介紹概念的時候引用其他童鞋的工作和內容，具體來源我會標記在參考資料中。

一.PCA (Principle component analysis)

PCA（主成分分析）通過線性變換將原始數據變換為一組各維度線性無關的表示，可用於提取數據的主要特征分量，常用於高維數據的降維。

為什麽需要降維？以下圖為例，圖c中的點x y 呈現明顯線性相關，假如以數據其實以數據點分布的方向的直線上的投影（一維）已經能夠很好的描述這組數據特點了。明顯的，將數據維度降低：1能夠降低數據計算量 2壓縮數據重構 3.部分情況下甚至能夠改善數據特征。

技術分享

　　那麽如何在降維時盡量保留源數據的特征，PCA就是一種。關於如何理解，PCA,通常可以用兩種方式進行理解：一是讓降維後的數據分布盡量分散能夠保留信息（方差盡量大）二是降維導致的信息損失盡量小。關於第一種理解方式，大家可以參考這裏，細致而清晰。第二種方法通常需要簡單的公式推導，利用拉格朗日乘子將帶約束的優化轉化為無約束優化後求導，有興趣的童鞋可以參考這裏.

上面兩篇文章關於兩個不同方向解釋PCA，那麽這裏就直接寫出PCA的降維方法，假設原數據為X：

　　　　設有m條n個特征的數據。

　　　　1）將原始數據按列組成n行m列矩陣X，即每一列代表一組數據

　　　　2）將X的每一行（代表一個屬性字段）進行零均值化，即減去這一行的均值

　　　　3）求出協方差矩陣\[C=\frac{1}{m}XX^{T}\]

　　　　4）求出協方差矩陣的特征值及對應的特征向量(對\[XX^{T}\]進行特征分解)

　　　　5）將特征向量按對應特征值大小從上到下按行排列成矩陣，取前k行組成矩陣P

　　　　6） $Y = P X$

$Y = P X$

二 SVD(Singular value decomposition)

$Y = P X$

$Y = P X$

$Y = P X$

$Y = P X$

　也就是說，奇異值分解可以說是包含了特征分解！來看Wikipedia的解釋：

在矩陣M的奇異值分解中

$技術分享$

V的列（columns）組成一套對 $技術分享$

U的列（columns）組成一套對 $技術分享$

Σ對角線上的元素是奇異值，可視為是在輸入與輸出間進行的標量的"膨脹控制"。這些是 $技術分享$

這裏的*標識轉置T。看到其中U就是MM*的特征向量了，那麽也就是說利用奇異值分解也可以做PCA了，而且還不用求\[XX^{T}\]！

不僅如此，單獨觀看奇異值分解的式子，我們也可以利用主成分的思想，利用奇異值分解的公式對高維數據進行壓縮，具體看下面的代碼。

from PIL import Image
import numpy as np
import matplotlib.pyplot as plt


def decide_k(s, ratio):
    sum_tmp = 0
    sum_s = np.sum(s)
    k = 0
    for i in s:
        k += 1
        sum_tmp += i
        if (sum_tmp / sum_s) >= ratio:
            print("reduce dims is:", k)
            return k

    if k >= s.shape:
        raise ValueError(‘input dim could not less than compress dims‘)


def svd_refactor(x, ratio=0.90):  # compress to a k dims data

    before = x.shape[0] * x.shape[1]
    print("before compress:", before)

    # after svd, save cu cv and cs ,then we could use them to refactor picture
    mean_ = np.mean(x, axis=1, keepdims=True)
    x = x - mean_
    u, s, v = np.linalg.svd(x)
    k = decide_k(s, ratio)
    c_u = u[:, :k]
    c_v = v[:k, :]
    c_s = s[0:k]

    after = c_u.shape[0] * c_u.shape[1] + c_v.shape[0] * c_v.shape[1] + c_s.shape[0]
    print("after compress:", after)
    print("ratio", after / before)

    # refactor
    s_s = np.diag(c_s)
    return np.dot(c_u, np.dot(s_s, c_v))


def pca_refactor(x, ratio=0.90):  # compress to a k dims data

    before = x.shape[0] * x.shape[1]
    print("before pca:", before)

    # after svd, save cu cv and cs ,then we could use them to refactor picture
    mean_ = np.mean(x, axis=1, keepdims=True)
    x = x - mean_
    u, s, v = np.linalg.svd(x)
    k = decide_k(s, ratio)
    c_u = u[:, :k]

    eig_vec = c_u.transpose()
    pca_result = np.dot(eig_vec, x)

    after = c_u.shape[0] * c_u.shape[1] + pca_result.shape[0] * pca_result.shape[1]
    print("after pca:", after)
    print("ratio", after / before)

    # since U*U=I
    return np.dot(c_u, pca_result)


if __name__ == ‘__main__‘:
    img_file = Image.open(‘test.jpg‘).convert(‘L‘)  # convert picture to gray
    img_array = np.array(img_file)
    print(img_array.shape)

    img_array = pca_refactor(img_array)

    plt.figure("beauty")
    plt.imshow(img_array, cmap=plt.cm.gray)
    plt.axis(‘off‘)
    plt.show()

其中關於如何選擇降低維度到多少維的decide_k函數，采用了貢獻率。就是指當剩余特征值和的比例小於一定百分比（0.05）的時候舍棄他們。

Reference:

李航《統計學習方法》

PCA的數學原理

機器學習中的數學(5)-強大的矩陣奇異值分解(SVD)及其應用

機器學習中的SVD和PCA.知乎

奇異值的物理意義是什麽？

矩陣的奇異值與特征值有什麽相似之處與區別之處

從PCA和SVD的關系拾遺

PCA, SVD以及代碼示例

swe erro ict ef7 計算 component pict 需要 wikipedia 本文是對PCA和SVD學習的整理筆記，為了避免很多重復內容的工作，我會在介紹概念的時候引用其他童鞋的工作和內容，具體來源我會標記在參考資料中。一.PCA (Princi

PCA, SVD以及代碼示例

一.PCA (Principle component analysis)

二 SVD(Singular value decomposition)

Reference:

PCA, SVD以及代碼示例

spring 發送郵件代碼示例(帶附件和不帶附件的)

NumPy常用函數(一)——構造數組函數及代碼示例

ECMAScript 6 中的快捷語法匯總及代碼示例

RabbitMQ基礎學習筆記（C#代碼示例）

Hilbert曲線介紹以及代碼實現

解決zend studio代碼無法自動提示以及代碼跟蹤函數和變量的問題

Java中普通代碼塊，構造代碼塊，靜態代碼塊區別及代碼示例

Jsoup代碼示例、解析網頁+提取文本

Qt學習: QTimerEvent定時器事件的處理程序代碼示例

Qt學習: QCloseEvent關閉事件的使用及代碼示例

java代碼示例（3）

java代碼示例（5）

java代碼示例（2）

java代碼示例（7-1）

Lambda表達式常用代碼示例

聚合短信PHP代碼示例短信接口調用CURL方法

C#基礎--三層架構與接口--純概念，無代碼示例

企業信使短信接口API代碼示例

php請求接口的方法代碼示例

PCA, SVD以及代碼示例

一.PCA (Principle component analysis)

二 SVD(Singular value decomposition)

Reference:

相關推薦