機器學習：資料降維

1、主成分分析（Principle Component Analysis，PCA）

PCA原理
主成分分析是最常用的一種降維方法，為了便於維度變換，作出如下假設：

1）樣本資料是 $n$ 維的。

2）原始座標系為：由標準正交基向量 $\left \{ \left. \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right \} \right.$ 張成的空間，其中 $\left \| \boldsymbol{\vec{i}}_{s} \right \|=1$ ； $\boldsymbol{\vec{i}}_{s}\cdot \boldsymbol{\vec{i}}_{t}=0,s\neq t$ 。
3）經過線性變換後的新座標系為：有標準正交基向量 $\left \{ \left. \boldsymbol{\vec{j}}_{1},\boldsymbol{\vec{j}}_{2},\cdots ,\boldsymbol{\vec{j}}_{n} \right \} \right.$ 張成的空間,其中 $\left \| \boldsymbol{\vec{j}}_{s} \right \|=1$ ； $\boldsymbol{\vec{j}}_{s}\cdot \boldsymbol{\vec{j}}_{t}=0,s\neq t$

根據定義，有：

$\boldsymbol{\vec{j}}_{s}=\left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\begin{bmatrix} \boldsymbol{\vec{j}}_{s}\cdot\boldsymbol{\vec{i}}_{1} \\ \vdots \\ \boldsymbol{\vec{j}}_{s}\cdot \boldsymbol{\vec{i}}_{n} \end{bmatrix},s=1,2,\cdots ,n$

記 $\boldsymbol{w}_{s}=\left ( \boldsymbol{\vec{j}}_{s}\cdot\boldsymbol{\vec{i}}_{1},\cdots ,\boldsymbol{\vec{j}}_{s}\cdot \boldsymbol{\vec{i}}_{n} \right )^{T}$ ，其個分量就是基向量 $\boldsymbol{\vec{j}}_{s}$ 在原始座標系 $\left \{ \left. \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right \} \right.$ 中的投影，即： $\boldsymbol{\vec{j}}_{s}=\left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\boldsymbol{w}_{s}$ 。根據標準正交基的性質，有：

1） $\left \| \boldsymbol{w}_{s} \right \|=1,s=1,2,\cdots ,n$
2） $\boldsymbol{w}_{s}\cdot \boldsymbol{w}_{t}=0,s\neq t$

根據定義有： $\left ( \boldsymbol{\vec{j}}_{1},\boldsymbol{\vec{j}}_{2},\cdots ,\boldsymbol{\vec{j}}_{n} \right )=\left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\left ( \boldsymbol{w}_{1},\boldsymbol{w}_{2},\cdots ,\boldsymbol{w}_{n} \right )$ 。令座標變換矩陣 $\boldsymbol{W}$ 為：

$\boldsymbol{W}=\left ( \boldsymbol{w}_{1},\boldsymbol{w}_{2},\cdots ,\boldsymbol{w}_{n} \right )\begin{bmatrix} \boldsymbol{\vec{j}}_{1}\cdot\boldsymbol{\vec{i}}_{1} & \boldsymbol{\vec{j}}_{2}\cdot\boldsymbol{\vec{i}}_{1} & \cdots &\boldsymbol{\vec{j}}_{n}\cdot\boldsymbol{\vec{i}}_{1} \\ \boldsymbol{\vec{j}}_{1}\cdot\boldsymbol{\vec{i}}_{2} & \boldsymbol{\vec{j}}_{2}\cdot\boldsymbol{\vec{i}}_{2} & \cdots &\boldsymbol{\vec{j}}_{n}\cdot\boldsymbol{\vec{i}}_{2} \\ \vdots & \vdots & \ddots & \vdots \\ \boldsymbol{\vec{j}}_{1}\cdot\boldsymbol{\vec{i}}_{n} & \boldsymbol{\vec{j}}_{2}\cdot\boldsymbol{\vec{i}}_{n} & \cdots &\boldsymbol{\vec{j}}_{n}\cdot\boldsymbol{\vec{i}}_{n} \end{bmatrix}$

則有： $\left ( \boldsymbol{\vec{j}}_{1},\boldsymbol{\vec{j}}_{2},\cdots ,\boldsymbol{\vec{j}}_{n} \right )=\left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\boldsymbol{W}$ 。 $\boldsymbol{W}$ 的第 $s$ 列就是 $\boldsymbol{\vec{j}}_{s}$ 在原始座標系 $\left \{ \left. \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right \} \right.$ 中的投影，且有 $\boldsymbol{W}=\boldsymbol{W}^{T}$ ， $\boldsymbol{W}\boldsymbol{W}^{T}=\boldsymbol{I}$ 。假設樣本點 $\boldsymbol{\vec{x}}_{i}$ 在原始座標系中的表示為：

$\boldsymbol{\vec{x}}_{i}=\left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\begin{bmatrix} x_{i}^{(1)}\\ x_{i}^{(2)}\\ \vdots \\ x_{i}^{(n)} \end{bmatrix}$

令 $\boldsymbol{\vec{x}}_{i}=\left ( x_{i}^{(1)},x_{i}^{(2)},\cdots ,x_{i}^{(n)} \right )^{T}$ ，則 $\boldsymbol{\vec{x}}_{i}=\left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\boldsymbol{x}_{i}$ 。

假設樣本點 $\boldsymbol{\vec{x}}_{i}$ 在新座標系中的表示為：

$\boldsymbol{\vec{x}}_{i}=\left ( \boldsymbol{\vec{j}}_{1},\boldsymbol{\vec{j}}_{2},\cdots ,\boldsymbol{\vec{j}}_{n} \right )\begin{bmatrix} z_{i}^{(1)}\\ z_{i}^{(2)}\\ \vdots \\ z_{i}^{(n)} \end{bmatrix}$

令 $\boldsymbol{\vec{z}}_{i}=\left ( z_{i}^{(1)},z_{i}^{(2)},\cdots ,z_{i}^{(n)} \right )^{T}$ ，則 $\boldsymbol{\vec{x}}_{i}=\left ( \boldsymbol{\vec{j}}_{1},\boldsymbol{\vec{j}}_{2},\cdots ,\boldsymbol{\vec{j}}_{n} \right )\boldsymbol{z}_{i}$

。根據 $\boldsymbol{\vec{x}}_{i}=\boldsymbol{\vec{x}}_{i}$ ，有：

$\left ( \boldsymbol{\vec{j}}_{1},\boldsymbol{\vec{j}}_{2},\cdots ,\boldsymbol{\vec{j}}_{n} \right )\boldsymbol{z}_{i}=\left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\boldsymbol{W}\boldsymbol{z}_{i}=\left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\boldsymbol{x}_{i}$

於是有： $\boldsymbol{z}_{i}=\boldsymbol{W}^{-1}\boldsymbol{x}_{i}=\boldsymbol{W}^{T}\boldsymbol{x}_{i}$ 。則有：

$z_{i}^{(s)}=\boldsymbol{W}_{s}^{T}\boldsymbol{x}_{i}$

丟棄其中的部分座標，將維度降到 $d< n$ ，則樣本點 $\boldsymbol{\vec{x}}_{i}$ 在低維座標系中的座標為 ${\boldsymbol{z}}'_{i}=\left ( z_{i}^{(1)},z_{i}^{(2)},\cdots ,z_{i}^{(d)} \right )^{T}$ 。現在的問題時：丟棄哪些座標降維效果最好？於是就有了這樣的想法：基於降維之後的座標重構樣本時，儘量與原始樣本接近。若基於降維後的座標 ${\boldsymbol{z}}'_{i}$ 來重構 $\boldsymbol{\vec{x}}_{i}$ ：

$\widehat{\boldsymbol{\vec{x}}}_{i}=\left ( \boldsymbol{\vec{j}}_{1},\boldsymbol{\vec{j}}_{2},\cdots ,\boldsymbol{\vec{j}}_{d} \right )\begin{bmatrix} z_{i}^{(1)}\\ z_{i}^{(2)}\\ \vdots \\ z_{i}^{(d)} \end{bmatrix}=\left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\left ( \boldsymbol{w}_{1},\boldsymbol{w}_{2},\cdots ,\boldsymbol{w}_{d} \right )\begin{bmatrix} z_{i}^{(1)}\\ z_{i}^{(2)}\\ \vdots \\ z_{i}^{(d)} \end{bmatrix}$
$=\left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\left ( \boldsymbol{w}_{1},\boldsymbol{w}_{2},\cdots ,\boldsymbol{w}_{d} \right )\begin{bmatrix} \boldsymbol{w}_{1}^{T}\cdot \boldsymbol{x}_{i}\\ \boldsymbol{w}_{2}^{T}\cdot \boldsymbol{x}_{i}\\ \vdots \\ \boldsymbol{w}_{d}^{T}\cdot \boldsymbol{x}_{i} \end{bmatrix}= \left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\left ( \boldsymbol{w}_{1},\boldsymbol{w}_{2},\cdots ,\boldsymbol{w}_{d} \right )\begin{bmatrix} \boldsymbol{w}_{1}^{T}\\ \boldsymbol{w}_{2}^{T}\\ \vdots \\ \boldsymbol{w}_{d}^{T} \end{bmatrix}\boldsymbol{x}_{i}$

令 $\boldsymbol{W}_{d}=\left ( \boldsymbol{w}_{1},\boldsymbol{w}_{2},\cdots ,\boldsymbol{w}_{d} \right )$ ，即它是座標變換矩陣 $\boldsymbol{W}$ 的前 $d$ 列，則;

$\widehat{\boldsymbol{\vec{x}}}_{i}=\left ( \boldsymbol{\vec{i}}_{1},\boldsymbol{\vec{i}}_{2},\cdots ,\boldsymbol{\vec{i}}_{n} \right )\boldsymbol{W}_{d}\boldsymbol{W}_{d}^{T}\boldsymbol{x}_{i}$

考慮整個訓練集，原樣本點 $\boldsymbol{\vec{x}}_{i}$ 和基於投影重構的樣本點 $\widehat{\boldsymbol{\vec{x}}}_{i}$ 之間的距離為（即所有重構樣本點和原樣本點的整體誤差）：

$\sum_{i=1}^{N}\left \| \widehat{\boldsymbol{\vec{x}}}_{i}-\boldsymbol{\vec{x}}_{i} \right \|_{2}^{2}=\sum_{i=1}^{N}\left \| \boldsymbol{x}_{i}-\boldsymbol{W}_{d}\boldsymbol{W}_{d}^{T}\boldsymbol{x}_{i} \right \|_{2}^{2}$
$\boldsymbol{W}_{d}\boldsymbol{W}_{d}^{T}\boldsymbol{x}_{i}=\left ( \boldsymbol{w}_{1},\boldsymbol{w}_{2},\cdots ,\boldsymbol{w}_{d} \right )\begin{bmatrix} \boldsymbol{w}_{1}^{T}\\ \boldsymbol{w}_{2}^{T}\\ \vdots \\ \boldsymbol{w}_{d}^{T} \end{bmatrix}\boldsymbol{x}_{i}=\sum_{s=1}^{d}\boldsymbol{w_{s}}\left ( \boldsymbol{w}_{s}^{T}\boldsymbol{x}_{i} \right )$

由於 $\boldsymbol{w}_{s}^{T}\boldsymbol{x}_{i}$ 是標量，所以有：

$\boldsymbol{W}_{d}\boldsymbol{W}_{d}^{T}\boldsymbol{x}_{i}=\sum_{s=1}^{d}\left ( \boldsymbol{w}_{s}^{T}\boldsymbol{x}_{i} \right )\boldsymbol{w}_{s}=\sum_{s=1}^{d}\left ( \boldsymbol{x}_{i}^{T}\boldsymbol{w}_{s} \right )\boldsymbol{w}_{s}$

於是有：

定義矩陣 $\boldsymbol{X}=\left ( \boldsymbol{x}_{1},\boldsymbol{x}_{2},\cdots ,\boldsymbol{x}_{N} \right )$ ,即矩陣 $\boldsymbol{X}$ 的第 $i$ 列就是 $\boldsymbol{x}_{i}$ 。則可以證明：

$\left \| \boldsymbol{X}^{T}-\boldsymbol{X}^{T}\boldsymbol{W}_{d}\boldsymbol{W}_{d}^{T} \right \|_{F}^{2}=\sum_{i=1}^{N}\left \| \boldsymbol{x}_{i}-\sum_{s=1}^{d}\left ( \boldsymbol{x}_{i}^{T}\boldsymbol{w}_{s} \right )\boldsymbol{w}_{s} \right \|_{2}^{2}$

其中， $\left \| \cdot \right \|_{F}$ 表示矩陣的Frobenius範數。接下類的證明需要用到矩陣F範數和矩陣跡的性質：

1）矩陣 $\boldsymbol{A}$ 的F範數定義為： $\left \| \boldsymbol{A} \right \|_{F}=\sqrt{\sum_{i=1}^{n}\sum_{j=1}^{m}a_{ij}^{2}}$ ，即矩陣所有元素平方和的開方，F範數有以下性質：
a) $\left \| \boldsymbol{A} \right \|_{F}=\left \| \boldsymbol{A}^{T} \right \|_{F}$

b) $\left \| \boldsymbol{A} \right \|_{F}=tr(\boldsymbol{A}^{T}\boldsymbol{A})$ ，tr為矩陣的跡。
2）對於方陣，矩陣的跡定義為： $tr(\boldsymbol{A})=\sum_{i=1}^{n}a_{ii}$ ，即矩陣對角線元素之和，矩陣的跡有以下性質：
a) $tr(\boldsymbol{A})=tr(\boldsymbol{A}^{T})$
b) $tr(\boldsymbol{A}\pm \boldsymbol{B})=tr(\boldsymbol{A}\pm tr(\boldsymbol{B})$
c) 若 $\boldsymbol{A}$ 為 $m\times n$ 階矩陣， $\boldsymbol{B}$ 為 $n\times m$ 階矩陣，則 $tr(\boldsymbol{AB})=tr(\boldsymbol{BA})$
d) 矩陣的跡等於矩陣的特徵值之和， $tr(\boldsymbol{A})=\lambda _{1}+\lambda _{2}+\cdots +\lambda _{n}$
e) 對任何正整數 $k$ 有： $tr(\boldsymbol{A}^{k})=\lambda_{1}^{k}+\lambda_{2}^{k} +\cdots +\lambda_{n}^{k}$

證明過程如下：

$\boldsymbol{X}^{T}-\boldsymbol{X}^{T}\boldsymbol{W}_{d}\boldsymbol{W}_{d}^{T}=\begin{bmatrix} x_{1}^{(1)} & x_{1}^{(2)} & \cdots & x_{1}^{(n)}\\ x_{2}^{(1)} & x_{2}^{(2)} & \cdots & x_{2}^{(n)} \\ \vdots & \vdots & \ddots & \vdots \\ x_{N}^{(1)} & x_{N}^{(2)} & \cdots & x_{N}^{(n)} \end{bmatrix}-\begin{bmatrix} x_{1}^{(1)} & x_{1}^{(2)} & \cdots & x_{1}^{(n)}\\ x_{2}^{(1)} & x_{2}^{(2)} & \cdots & x_{2}^{(n)} \\ \vdots & \vdots & \ddots & \vdots \\ x_{N}^{(1)} & x_{N}^{(2)} & \cdots & x_{N}^{(n)} \end{bmatrix}(\boldsymbol{w}_{1},\boldsymbol{w}_{2},\cdots ,\boldsymbol{w}_{d})\begin{bmatrix} \boldsymbol{w}_{1}^{T}\\ \boldsymbol{w}_{2}^{T}\\ \vdots \\ \boldsymbol{w}_{d}^{T} \end{bmatrix}$

$=\boldsymbol{X}^{T}-\begin{bmatrix} \boldsymbol{x}_{1}^{T}\boldsymbol{w}_{1} & \boldsymbol{x}_{1}^{T}\boldsymbol{w}_{2} & \cdots & \boldsymbol{x}_{1}^{T}\boldsymbol{w}_{d}\\ \boldsymbol{x}_{2}^{T}\boldsymbol{w}_{1} & \boldsymbol{x}_{2}^{T}\boldsymbol{w}_{2} & \cdots & \boldsymbol{x}_{2}^{T}\boldsymbol{w}_{d}\\ \vdots & \vdots & \ddots &\vdots \\ \boldsymbol{x}_{N}^{T}\boldsymbol{w}_{1} & \boldsymbol{x}_{N}^{T}\boldsymbol{w}_{2} & \cdots & \boldsymbol{x}_{N}^{T}\boldsymbol{w}_{d} \end{bmatrix}\begin{bmatrix} \boldsymbol{w}_{1}^{T}\\ \boldsymbol{w}_{2}^{T}\\ \vdots \\ \boldsymbol{w}_{d}^{T} \end{bmatrix}$

令 $\boldsymbol{w}_{s}=\left ( w_{s}^{(1)},w_{s}^{(2)},\cdots ,w_{s}^{(n)} \right )^{T}$ ，則有：

$\boldsymbol{X}^{T}-\boldsymbol{X}^{T}\boldsymbol{W}_{d}\boldsymbol{W}_{d}^{T}=\begin{bmatrix} \sum_{s=1}^{d}\boldsymbol{x}_{1}^{T}\boldsymbol{w}_{s}w_{s}^{(1)} & \cdots &\sum_{s=1}^{d}\boldsymbol{x}_{1}^{T}\boldsymbol{w}_{s}w_{s}^{(n)} \\ \vdots & \ddots &\vdots \\ \sum_{s=1}^{d}\boldsymbol{x}_{N}^{T}\boldsymbol{w}_{s}w_{s}^{(1)} & \cdots &\sum_{s=1}^{d}\boldsymbol{x}_{N}^{T}\boldsymbol{w}_{s}w_{s}^{(n)} \end{bmatrix}$

於是：

$\left \| \boldsymbol{X}^{T}-\boldsymbol{X}^{T}\boldsymbol{W}_{d}\boldsymbol{W}_{d}^{T} \right \|_{F}^{2}=\sum_{i=1}^{N}\sum_{j=1}^{n}\left [ x_{i}^{(j)}-(\sum_{s=1}^{d}\boldsymbol{x}_{i}^{T}\boldsymbol{w}_{s}w_{s}^{(j)}) \right ]^{2}=\sum_{i=1}^{N}\left \| \boldsymbol{x}_{i}-\sum_{s=1}^{d}(\boldsymbol{x}_{i}^{T}\boldsymbol{w}_{s})\boldsymbol{w}_{s} \right \|_{2}^{2}$

要求解的最優化問題：

$\boldsymbol{W}_{d}^{*}=arg\,\, \underset{\boldsymbol{W}_{d}}{min}\left \| \widehat{\boldsymbol{\vec{x}}}_{i}-\boldsymbol{\vec{x}}_{i} \right \|_{2}^{2}=arg\,\, \underset{\boldsymbol{W}_{d}}{min}\left \| \boldsymbol{X}^{T}-\boldsymbol{X}^{T}\boldsymbol{W}_{d}\boldsymbol{W}_{d}^{T} \right \|_{F}^{2}$

$=arg\,\, \underset{\boldsymbol{W}_{d}}{min}\, \, tr\left [ (\boldsymbol{X}^{T}-\boldsymbol{X}^{T}\boldsymbol{W}_{d}\boldsymbol{W}_{d}^{T})^{T}(\boldsymbol{X}^{T}-\boldsymbol{X}^{T}\boldsymbol{W}_{d}\boldsymbol{W}_{d}^{T}) \right ]\\$

相關推薦

機器學習：資料降維

1、主成分分析（Principle Component Analysis，PCA）PCA原理主成分分析是最常用的一種降維方法，為了便於維度變換，作出如下假設：1）樣本資料是維的。2）原始座標系為：由標準

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 主成分分析（Principal Component Analysis, PCA)可以

機器學習四大資料降維方法詳解

引言：機器學習領域中所謂的降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習一個對映函式 f : x->y，其中x是原始資料點的表達，目前最多使用向量表達形式。 y是資料點對映後的低維向量表達，通常y的維度小於x的維度（當然提高維度也是可以的）。f可能是顯

【機器學習】資料降維—主成分分析（PCA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。主成分分析（PCA）特徵抽取通常用於提高計算效率，降低維度災難。主成分分析（Principe component analysis，PCA）：是一種廣泛應用於不同領域的無監督

【機器學習】資料降維—線性判別分析（LDA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。線性判別分析（Linear Discriminant Analysis,LDA）是一種可作為特徵抽取的技術 LDA可以提

維度打擊，機器學習中的降維演算法：ISOMAP & MDS

降維是機器學習中很有意思的一部分，很多時候它是無監督的，能夠更好地刻畫資料，對模型效果提升也有幫助，同時在資料視覺化中也有著舉足輕重的作用。一說到降維，大家第一反應總是PCA，基本上每一本講機器學習的書都會提到PCA，而除此之外其實還有很多很有意思的降維演算

[機器學習入門] 李巨集毅機器學習筆記-14 （Unsupervised Learning: Linear Dimension Reduction；無監督學習：線性降維）

[機器學習入門] 李巨集毅機器學習筆記-14 （Unsupervised Learning: Linear Dimension Reduction；線性降維） PDF VI

[吳恩達機器學習筆記]14降維1-2降維的應用資料壓縮與資料視覺化

14.降維覺得有用的話,歡迎一起討論相互學習~Follow Me 14.1動機一：資料壓縮降維也是一種無監督學習的方法，降維並不需要使用資料的標籤。降維的其中一個目的是資料壓

Unsupervised Learning: Linear Dimension Reduction---無監督學習：線性降維

避免 other 介紹 near -s func 例子 get 特征選擇一 Unsupervised Learning 把Unsupervised Learning分為兩大類：化繁為簡：有很多種input，進行抽象化處理，只有input沒有output 無中生

吳恩達機器學習 - PCA演算法降維吳恩達機器學習 - PCA演算法降維

原吳恩達機器學習 - PCA演算法降維 2018年06月25日 13:08:17 離殤灬孤狼閱讀數：152 更多

python資料預處理：資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都需要對資料做降維處理。資料降維有兩種方式：特徵選擇，維度轉換特徵選擇

機器學習之KPCA降維

機器學習之KPCA降維 # -*- coding: utf-8 -*- """ Created on Sun Nov 25 21:30:48 2018 @author: muli """ import numpy as np import matplotlib.py

人工智障學習筆記——機器學習(13)LLE降維

一.概念 LLE：Locally linear embedding(區域性線性嵌入演算法)是一種非線性降維演算法，它能夠使降維後的資料較好地保持原有流形結構。LLE可以說是流形學習方法最經典的工作之一。和傳統的PCA，LDA等關注樣本方差的降維方法相比，LLE關注於降維時保

機器學習筆記13-降維

機器學習筆記13-降維低維嵌入在高維情形下資料樣本會出現稀疏、距離計算困難等問題，稱為“維數災難”，緩解維數災難的一個重要途徑是降維，即通過數學變換將原始高維屬性空間轉變為一個低維子空間，在這個子空間中樣本密度大幅提高，距離計算也變得更為容易。若要求原始空間中樣本之間的距離

人工智障學習筆記——機器學習(12)LDA降維

一.概念LDA：Linear Discriminant Analysis (也有叫做Fisher Linear Discriminant)。與PCA一樣，是一種線性降維演算法。不同於PCA只會選擇資料變化最大的方向，由於LDA是有監督的（分類標籤），所以LDA會主要以類別為

人工智障學習筆記——機器學習(11)PCA降維

一.概念 Principal Component Analysis(PCA)：主成分分析法，是最常用的線性降維方法，它的目標是通過某種線性投影，將高維的資料對映到低維的空間中表示，即把原先的n個特徵用數目更少的m個特徵取代，新特徵是舊特徵的線性組合。並期望在所投影的維度上資

吳恩達機器學習筆記 —— 15 降維

本章重點講述了降維方法以及其中最主要的PCA主成分分析的原理、使用降維的作用：資料壓縮與視覺化降維的第一個作用就是進行資料的壓縮，解決磁碟和計算的問題。比如把二維資料降維到一維：或者資料從三維降維到2維。降維的另一個作用就是進行視覺化，比如我們的資料有很多維度，如果想要在圖形上展示各個資料，

無監督式學習-鳶尾花資料降維and聚類

一. 使用PCA(主成分分析)進行降維實現資料視覺化降維的任務是要找到一個可以保留資料本質特徵的低維矩陣來表示高維資料, 通常用於輔助資料視覺化的工作. 下面我們使用主成分分析(principal component analysis, PCA)方法, 這是一

機器學習演算法（降維）—SVD奇異值分解

一、SVD奇異值分解的定義假設是一個的矩陣，如果存在一個分解：其中為的酉矩陣，為的半正定對角矩陣，為的共軛轉置矩陣，且為的酉矩陣。這樣的分解稱為的奇異值分解，對角線上的元素稱為奇異值，稱

淺析機器學習中的降維方法

在我們用機器學習去訓練資料集的時候，可能會遇到上千甚至上萬個特徵，隨著資料量的增大，所分析出結果的準確度雖然會提高很多，但同時處理起來也會變得十分棘手，此時我們不得不想出一種方法去減少特徵將高維的資料轉化為低維的資料（降維）。什麼是降維？簡單的說降維就是把一個n維的資