降維技術
阿新 • • 發佈:2018-01-11
ref 查找 過程 body 科學 因此 規律 factor 穩定
1.1 降維的必要性
1. 多重共線性--預測變量之間相互關聯。多重共線性會導致解空間的不穩定,從而可能導致結果的不連貫。
2. 高維空間本身具有稀疏性。一維正態分布有68%的值落於正負標準差之間,而在十維空間上只有0.02%。
3. 過多的變量會妨礙查找規律的建立。
4. 僅在變量層面上分析可能會忽略變量之間的潛在聯系。例如幾個預測變量可能落入僅反映數據某一方面特征的一個組內。
1. 2 降維的目的:
1. 減少預測變量的個數
2. 確保這些變量是相互獨立的
3. 提供一個框架來解釋結果
1. 3 降維的方法:
- 主成分分析(PCA)
- 從原來的坐標系轉換到了新的坐標系,新坐標系的選擇是由數據本身決定的
- 第一個新坐標軸選擇的是原始數據中方差最大的方向,第二個新坐標軸的選擇和第一個坐標軸正交且具有最大方差的方向
- 該過程一直重復,重復次數為原始數據中特征的數目。
- 我們會發現,大部分方差都包含在最前面的幾個新坐標軸中。因此,我們可以忽略余下的坐標軸,即對數據進行了降維處理
- 因子分析(Factor Analysis)
- 我們假設在觀察數據的生成中有一些觀察不到的隱變量( latentvariable)。
- 假設觀察數據是這些隱變量和某些噪聲的線性組合。那麽隱變量的數據可能比觀察數據的數目少,也就是說通過找到隱變量就可以實現數據的降維。
- 因子分析已經應用於社會科學、金融和其他領域中了。
- 獨立成分分析(Independent Component Analysis ICA)
- 假設數據是從N個數據源生成的,這一點和因子分析有些類似,假設數據為多個數據源的混合觀察結果。
- 這些數據源之間在統計上是相互獨立的,而在PCA中只假設數據是不相關的。
- 同因子分析一樣,如果數據源的數目少於觀察數據的數目,則可以實現降維過程。
(1)PCA
http://www.cnblogs.com/nucdy/p/8267483.html
降維技術