【ML學習筆記】25:PCA及繪製降維與恢復示意圖
阿新 • • 發佈:2018-12-26
主成分分析
簡述
主成分分析意在學習一個對映 ,能將高維資料投射到低維空間上(在矩陣表示中即將資料的列變少),PCA後的低維空間資料可通過對映 還原成高維資料的近似。PCA意在使得在指定維度的低維表示中,投射誤差總是最小。在ML中即用於將 個樣本的特徵數目從 減少到 。
歸一化
設樣本的特徵矩陣
是
行
列的,第
行第
列的
即是第
個樣本的第
個特徵的值。資料歸一化是使樣本的特徵的均值為0,第
個特徵在
個樣本的樣本集中的均值
資料歸一化即是使
縮放
不同的特徵值很可能取值範圍相差很大,縮放即使特徵的最大最小值之差恰為1。取每個特徵的最大最小值之差
對歸一化後的資料進行縮放,即
PCA降維
前面的歸一化和縮放屬於資料預處理的過程,得到的還是
的矩陣
,先計算樣本協方差矩陣
對其做SVD,得到
因為前面得到的
是
的,行數為
,所以
是
階方陣,其列空間由左奇異向量組成
樣本協方差矩陣
可以由這些特徵向量線性表出。在約定奇異值在主對角線上從大到小排列的要求下,只要選取前
個列向量,組成主成分特徵矩陣
其維度是