1. 程式人生 > >資料降維(三)PCA主成分分析

資料降維(三)PCA主成分分析

文章目錄

PCA主成分分析

目標函式1:最小化重建誤差

重建誤差是指將低維表示重新轉化為高維表示時與原來的高維表示的誤差.

最小化重建誤差可用最小化所有樣本的平方重建誤差之和來替代.

  • 假定
    w i = 1 , w i
    T
    w j = 0 ( i j
    ) ||w_i||=1,w_i^Tw_j = 0(i\neq j)
    為新座標
  • w w 用在兩個函式上:
    • 編碼: z i = W T x i , z i j = w j T x i z_i = W^Tx_i,z_{ij} = w_j^Tx_i
    • 解碼: x ~ i = W z i = j = 1 d z i j w j \tilde{x}_i = Wz_i = \sum_{j=1}^{d'}z_{ij}w_j
  • 目標:最小平方重建誤差和 m i n W R d × d i = 1 m x i W z i 2 min_{W\in R^{d\times d'}}\sum_{i=1}^m||x_i - Wz_i||^2

重建誤差: x x ~ ||x-\tilde{x}||

當低維恰好是高維在低維向量 w i w_i 上的投影時,重構誤差最小.

推導
i = 1 m x i W z i 2 = i = 1 m x i j = 1 d z i j w j 2 = i = 1 m z i T z i 2 j = 1 m z i T W T x i + c o n s t t r ( W T ( i = 1 m x i x i T ) W ) = t r ( W T X X T W ) \begin{aligned} \sum_{i=1}^m||x_i - Wz_i||^2 & = \sum_{i=1}^m||x_i - \sum_{j=1}^{d'}z_{ij}w_j||^2\\ & = \sum_{i=1}^mz_i^Tz_i - 2\sum_{j=1}^mz_i^TW^Tx_i + const\\ &\propto -tr(W^T(\sum_{i=1}^mx_ix_i^T)W)\\ & = - tr(W^TXX^TW) \end{aligned}
其中,
w i = 1 , w i T w j = 0 ( i j ) ||w_i|| = 1, w_i^Tw_j = 0(i\neq j)