【ML學習筆記】25：PCA及繪製降維與恢復示意圖

主成分分析

簡述

主成分分析意在學習一個對映 $U_{r e d u c e}$

U_{reduce}

U_{r e d u c e}

，能將高維資料投射到低維空間上（在矩陣表示中即將資料的列變少），PCA後的低維空間資料可通過對映

U_{reduce}^T

還原成高維資料的近似。PCA意在使得在指定維度的低維表示中，投射誤差總是最小。在ML中即用於將

m

個樣本的特徵數目從

n

減少到

k

。

歸一化

設樣本的特徵矩陣 $A$ 是 $m$ 行 $n$ 列的，第 $i$ 行第 $j$ 列的 $a_j^{(i)}$ 即是第 $i$ 個樣本的第 $j$ 個特徵的值。資料歸一化是使樣本的特徵的均值為0，第 $j$ 個特徵在 $m$ 個樣本的樣本集中的均值
$\mu_j=\frac{1}{m} \sum_{i=1}^m a_j^{(i)}$
資料歸一化即是使
$x_j^{(i)}=a_j^{(i)}-\mu_j$

縮放

不同的特徵值很可能取值範圍相差很大，縮放即使特徵的最大最小值之差恰為1。取每個特徵的最大最小值之差
$s_j=max(a_j^{(i)})-min(a_j^{(i)}) \equiv max(x_j^{(i)})-min(x_j^{(i)})$
對歸一化後的資料進行縮放，即
$x_j^{(i)}=\frac{x_j^{(i)}}{s_j}=\frac{a_j^{(i)}-\mu_j}{s_j}$

PCA降維

前面的歸一化和縮放屬於資料預處理的過程，得到的還是 $m\times n$ 的矩陣 $X$ ，先計算樣本協方差矩陣 $\Sigma$
$\Sigma=\frac{1}{m}X^TX$
對其做SVD，得到
$[U,S,V]=svd(\Sigma)$
因為前面得到的 $\Sigma$ 是 $n\times n$ 的，行數為 $n$ ，所以 $U$ 是 $n$ 階方陣，其列空間由左奇異向量組成
$U=[\pmb{u}_1,\pmb{u}_2,...,\pmb{u}_n]$
樣本協方差矩陣 $\Sigma$ 可以由這些特徵向量線性表出。在約定奇異值在主對角線上從大到小排列的要求下，只要選取前 $k$ 個列向量，組成主成分特徵矩陣
$U_{reduce}=[\pmb{u}_1,\pmb{u}_2,...,\pmb{u}_k]$
其維度是

【ML學習筆記】25：PCA及繪製降維與恢復示意圖

主成分分析

簡述

歸一化

縮放

PCA降維

【ML學習筆記】25：PCA及繪製降維與恢復示意圖

【ML學習筆記】18：原始的Perceptron(感知機)

【ML學習筆記】3：機器學習中的數學基礎3(特徵值,特徵向量,認識SVD)

【ML學習筆記】17：多元正態分佈下極大似然估計最小錯誤率貝葉斯決策

【ML學習筆記】5：機器學習中的數學基礎5(張量,哈達瑪積,生成子空間,超平面,範數)

【python學習筆記】25：scipy中值濾波

【ML學習筆記】8：PAC可能近似正確

【python學習筆記】12：用matplotlib繪製3D函式影象

【SciKit-Learn學習筆記】7：PCA結合SVM做AT&T資料集人物影象分類

【JAVAEE學習筆記】hibernate02：實體規則、對象狀態、緩存、事務、批量查詢和實現客戶列表顯示

【JAVAEE學習筆記】hibernate03：多表操作，級聯練習:添加聯系人

【JAVAEE學習筆記】hibernate04：查詢種類、HQL、Criteria、查詢優化和練習為客戶列表增加查詢條件

【K8S學習筆記】Part3：同一Pod中多個容器間使用共享卷進行通信

【python學習筆記】37：認識Scrapy爬蟲,爬取滬深A股資訊

【python學習筆記】36：抓取去哪兒網的旅遊產品資料

【python學習筆記】35：爬蟲基礎和相關產品API(和風天氣)使用例項

【python學習筆記】41：認識Pandas中的資料變形

【python學習筆記】40：Pandas中DataFrame的分組/分割/合併

【python學習筆記】39：認識SQLAlchemy,簡單操作Pandas中的DataFrame

【python學習筆記】38：使用Selenium抓取去哪兒網動態頁面

【ML學習筆記】25：PCA及繪製降維與恢復示意圖

主成分分析

簡述

歸一化

縮放

PCA降維

相關推薦