【Scikit-Learn 中文文件】分解成分中的訊號（矩陣分解問題）

阿新 • • 發佈：2019-01-25

2.5.1.3. PCA 使用隨機SVD

通過丟棄具有較低奇異值的奇異向量成分，將資料降維到低維空間並保留大部分方差是非常有意義的。

例如，如果我們使用64x64畫素的灰度級影象進行人臉識別，資料的維數為4096，在這樣大的資料上訓練含RBF核心的支援向量機是很慢的。此外我們知道資料本質上的維度遠低於4096，因為人臉的所有照片都看起來有點相似。樣本位於許多的很低維度（例如約200維）。PCA演算法可以用於線性變換資料，同時降低維數並同時保留大部分方差。

在這種情況下，使用可選引數 svd_solver='randomized' 的 PCA 是非常有用的。因為我們將要丟棄大部分奇異值，所以對我們將保留並實際執行變換的奇異向量進行近似估計的有限的計算更有效。

例如：以下顯示了來自 Olivetti 資料集的 16 個樣本肖像（以 0.0 為中心）。右側是前 16 個奇異向量重畫為肖像。因為我們只需要使用大小為 $n_{samples} = 400$ 和 $n_{features} = 64 \times 64 = 4096$ 的資料集的前 16 個奇異向量, 使得計算時間小於 1 秒。

注意：使用可選引數 svd_solver='randomized' ，在 PCA 中我們還需要給出輸入低維空間大小 n_components 。

如果我們注意到： $n_{\max} = \max(n_{\mathrm{samples}}, n_{\mathrm{features}})$ 且 $n_{\min} = \min(n_{\mathrm{samples}}, n_{\mathrm{features}})$ , 對於PCA中實施的確切方式，隨機 PCA 的時間複雜度是： $O(n_{\max}^2 \cdot n_{\mathrm{components}})$ ，而不是 $O(n_{\max}^2 \cdot n_{\min})$ 。

對於確切的方式，隨機 PCA 的記憶體佔用量正比於 $2 \cdot n_{\max} \cdot n_{\mathrm{components}}$ ，而不是 $n_{\max}\cdot n_{\min}$

注意：選擇引數 svd_solver='randomized'

的 PCA，在執行 inverse_transform 時，並不是 transform 的確切的逆變換操作（即使引數設定為預設的 whiten=False）

【Scikit-Learn 中文文件】分解成分中的訊號（矩陣分解問題）

2.5.1.3. PCA 使用隨機SVD

【Scikit-Learn 中文文件】分解成分中的訊號（矩陣分解問題）

【Scikit-Learn 中文文件】新異類和異常值檢測

【Scikit-Learn 中文文件】神經網路模型（無監督）- 無監督學習

【Scikit-Learn 中文文件】線性和二次判別分析

【Scikit-Learn 中文文件】二十四：協方差估計 / 經驗協方差 / 收斂協方差 / 稀疏逆協方差 / Robust 協方差估計

【Scikit-Learn 中文文件】處理文字資料

機器學習 Python scikit-learn 中文文件（3）使用 scikit-learn 介紹機器學習

機器學習 Python scikit-learn 中文文件（2）教程目錄

機器學習 Python scikit-learn 中文文件（1）

機器學習 Python scikit-learn 中文文件（7）模型選擇: 選擇合適的估計器及其引數

python-ConfigParser模塊【讀寫配置文件】

3月15日【如何讀取配置文件】

【pySerial3.4官方文件】6、示例

【pySerial3.4官方文件】4、工具

【pySerial3.4官方文件】3、pySerial API

【pySerial3.4官方文件】2、簡介

【Maven官網文件】Optional & Exclusion Maven中的可選依賴和依賴性排除

【Scikit-learn Preprocessing 預處理】

【cocos2d-js官方文件】十七、事件分發機制

【cocos2d-js官方文件】一、搭建 Cocos2d-JS 開發環境

【Scikit-Learn 中文文件】分解成分中的訊號（矩陣分解問題）

2.5.1.3. PCA 使用隨機SVD

相關推薦