1. 程式人生 > >資料降維(Dimension Reduction)

資料降維(Dimension Reduction)

1. 什麼是降維?

降維指的是將高維資料維度降低,新的低維資料的特點是:噪聲減少,資料量減少計算減少,更能表示資料的特點。

2. 降維的分類?

特徵提取(feature extraction):將原始高緯度特徵空間通過某種數學變換轉換成低緯度空間,此過程會改變特徵的物理意義。

特徵選擇(feature selection):保留重要特徵,刪除冗餘特徵,此過程保留了特徵的物理意義。

3. 特徵提取方法

方法:PCA, LDA, LSA等,本質是轉換空間座標系。

演算法:SVD。

4. 特徵選擇方法

1) Document Frequency : 特徵詞出現的數量;

2) Mutual information 互資訊:兩個變數之間的相關性;

3)Information gain 資訊增益:引入特徵會幫助降低不確定性的能力,越高越好。

 

未完待續...