1. 程式人生 > >夜闌臥聽風吹雨,鐵馬是你,冰河也是你。

夜闌臥聽風吹雨,鐵馬是你,冰河也是你。

PCA原理

  • 又叫KLT
  • 動機:多個變數之間存在一定程度的相關性,可以通過線性組合的方式從中提取資訊
  • 主成分分析:將原始的高維資料投影到低維空間,並儘可能的保留更多的資訊
  • 衡量標準:
  1. 投影后資料方差最大(如下圖)
  2. 最小化重構平方誤差 ( 二者等價)
  • 從而達到降維的目的:用較少的主成分得到較多資訊

下圖三維資料降維到灰色平面(二維空間),改平面使得資料方差最大 在這裡插入圖片描述 在這裡插入圖片描述

PCA演算法

在這裡插入圖片描述

PCA虛擬碼

在這裡插入圖片描述 例項 在這裡插入圖片描述

在這裡插入圖片描述 在這裡插入圖片描述 在這裡插入圖片描述 建議PCA不要先用,一般用來做最後的優化才好 在這裡插入圖片描述 PCA

非監督的降維方法,使用SVD分解,進行壓縮去噪,還出現了PCA變種:非線性的KPCA(kernelPCA),還有解決記憶體限制的增量PCA方法incremental PCA(分批次,但是該演算法限制太大,一般的資料不適合) ,以及解決稀疏資料降維的PCA方法Sparse PCA 等,以及隨機PCA

優點: 1)只需要以方差衡量資訊量,不受資料集以外的資料影響 2)各主成分之間正交,可消除原始資料成分之間的相互影響的因素 3)計算方法簡單,主要運算時特徵值分解,易於實現 PCA的主要缺點: 1)主成分各個特徵維度的含義具有一定 的模糊性,不如原始樣本的特徵的解釋性強。 2)方差小的非主成分也有可能含有對樣本差異的重要資訊,因降維丟失可能對後續資料處理有影響

EVD 在這裡插入圖片描述

在這裡插入圖片描述 SVD用於和自然語言處理,推薦系統,是大部分的機器學習的基石 在這裡插入圖片描述 在這裡插入圖片描述 在這裡插入圖片描述