1. 程式人生 > >機器學習演算法--降維技術

機器學習演算法--降維技術

當資料集維數較高時,往往會出現樣本稀疏以及距離難以計算等問題,而某個學習任務可能僅與資料的某個低維分佈有關,因此可以採用降維技術來變換資料空間座標系,主要有:

LDA線性判別分析  PCA主成分分析   ICA獨立成分分析  FA因子分析  SVD奇異值分解

維數災難:資料集在高維情況下出現資料集稀疏以及距離難以計算等問題

1.多維縮放MDS

假設m個樣本的原始空間(d維)的距離矩陣D, distij表示xi到xj的距離

將原始空間資料進行變換到d`空間(d`<<d),樣本點矩陣變換為Z,在Z空間的距離||xi-xj||應該與原始空間distij相等,即:

令B=ZTZ降維後的內積矩陣,bij=ziTzj

假設降維後樣本Z中心化:

矩陣B的跡:

令:

可以通過矩陣D求B,對B做特徵值分解:

其中

   

特徵值構成的對角矩陣

取非零特徵值 

這些非零特徵值對應的特徵向量矩陣

則有:

如果允許原始空間距離與變換空間距離不一定嚴格相等,可以只取部分最大的特徵值: