1. 程式人生 > >降維技術

降維技術

ref 查找 過程 body 科學 因此 規律 factor 穩定

1.1 降維的必要性

1. 多重共線性--預測變量之間相互關聯。多重共線性會導致解空間的不穩定,從而可能導致結果的不連貫。

2. 高維空間本身具有稀疏性。一維正態分布有68%的值落於正負標準差之間,而在十維空間上只有0.02%。

3. 過多的變量會妨礙查找規律的建立。

4. 僅在變量層面上分析可能會忽略變量之間的潛在聯系。例如幾個預測變量可能落入僅反映數據某一方面特征的一個組內。

1. 2 降維的目的:

1. 減少預測變量的個數

2. 確保這些變量是相互獨立的

3. 提供一個框架來解釋結果

1. 3 降維的方法:

  • 主成分分析(PCA)
    • 從原來的坐標系轉換到了新的坐標系,新坐標系的選擇是由數據本身決定的
    • 第一個新坐標軸選擇的是原始數據中方差最大的方向,第二個新坐標軸的選擇和第一個坐標軸正交且具有最大方差的方向
    • 該過程一直重復,重復次數為原始數據中特征的數目。
    • 我們會發現,大部分方差都包含在最前面的幾個新坐標軸中。因此,我們可以忽略余下的坐標軸,即對數據進行了降維處理
  • 因子分析(Factor Analysis)
    • 我們假設在觀察數據的生成中有一些觀察不到的隱變量( latentvariable)。
    • 假設觀察數據是這些隱變量和某些噪聲的線性組合。那麽隱變量的數據可能比觀察數據的數目少,也就是說通過找到隱變量就可以實現數據的降維。
    • 因子分析已經應用於社會科學、金融和其他領域中了。
  • 獨立成分分析(Independent Component Analysis ICA)
    • 假設數據是從N個數據源生成的,這一點和因子分析有些類似,假設數據為多個數據源的混合觀察結果。
    • 這些數據源之間在統計上是相互獨立的,而在PCA中只假設數據是不相關的。
    • 同因子分析一樣,如果數據源的數目少於觀察數據的數目,則可以實現降維過程。

(1)PCA

http://www.cnblogs.com/nucdy/p/8267483.html

降維技術