1. 程式人生 > >降維 (Dimensionality Reduction, DR)

降維 (Dimensionality Reduction, DR)

降維在機器學習、資料探勘、資訊檢索、模式識別等資訊處理的許多領域具有重要作用。在監督的機器學習中, 如果在預測輸出的時候有許多不必要的特徵,會使得演算法的效能下降。在機器學習、計算機視覺、模式識別等領域,一個很重要的問題是如何提取少數量的特徵。對此,一種常用的解決方式是使用降維技術。

1. 已有降維方法分類

  1)線性的以PCA為代表, 缺點:要求資料嵌入在一個線性的空間。

  2)非線性:基於流形學習的方法。缺點:低維空間到高維空間沒有函式對映關係。

      a)區域性的方法:區域性線性嵌入(Locally Linear Embedding ,LLE), Laplacian Eigenmap(LE)

      b)全域性的方法:ISOMAP

      c)彌補缺點的方法: 顯式尋找一個嵌入的函式,線性的或者核希爾伯特空間(kernel Hilbert space, RKHS),如基於迴歸和譜圖的方法:譜迴歸(Spectral Regression,SR)

2. 譜迴歸

譜迴歸基於迴歸和譜圖分析,流程如下:

  1)首先,在標記和未標記的資料點上構造一個仿射圖來發掘資料的判別結構。

  2)其次,使用仿射圖來學習標記和未標記資料點的響應

  3)獲得響應之後,使用普通的迴歸來學習嵌入函式

譜迴歸的優點:

  1)把學習嵌入函式的問題轉化為一個迴歸框架,避免了密集矩陣的特徵值分解問題。不同的降維方法(LDA,LPP,NPE,LSDA等)的區別在於仿射圖矩陣的構建。

  2)使用迴歸作為構造的塊基元,各種型別的正則化技術可以整合進譜迴歸,使得譜迴歸比較靈活。

  3)SR適用於監督、非監督和半監督的情況。

  4)SR可以在原始資料空間進行,也可以在生成的核希爾伯特空間進行,因此可以擴充套件到核SR。