1. 程式人生 > >特徵選擇與特徵抽取的區別

特徵選擇與特徵抽取的區別

機器學習領域的一個普遍問題是如何降低資料的維度,因為過高的維度會嚴重影響計算效率並造成資料稀疏。降維方法一般分為兩類:特徵選擇(Feature Selection)和特徵抽取(Feature Extraction)。
  • 特徵選擇
特徵選擇的目標是從原始的d個特徵中選擇k個特徵。
  • 特徵抽取
特徵抽取的目標是根據原始的d個特徵的組合形成k個新的特徵,即將資料從d維空間對映到k維空間。 無論是特徵選擇還是特徵抽取,它們共同的特徵都是儘可能保持原始資料中包含的資訊。
  • 什麼是保持原始資料中包含的資訊?
以主成分分析為例(Principal Components Analysis, PCA)為例。PCA是一種特徵抽取方法。PCA定義資料的資訊為原始資料中樣本之間的方差。因此PCA在進行空間轉換時(從d維空間對映到k維空間),將選擇在新的k維空間中樣本方差最大的空間。