機器學習之特徵值/特徵向量的解析和應用

阿新 • • 發佈：2018-12-18

機器學習中，矩陣的特徵值/特徵向量理論有著非常廣泛的應用，比如資料降維 [1]，人臉識別 [2]等。本文主要介紹特徵值/特徵向量。

1. 特徵值

定義: 給定 $n\times n$ 階方陣 $A$ ，如果存在數值 $\lambda$ 和 $n$ 維非零向量 $\vec{x}$ ，使得 $A\vec{x}=\lambda\vec{x}$ ，則稱數值 $\lambda$ 為方陣 $A$ 的特徵值，向量 $\vec{x}$ 為方針 $A$ 的屬於特徵值 $\lambda$ 的特徵向量。其中，特徵值 $\lambda$ 可以為零，且屬於同一個特徵值的特徵向量並不唯一。譬如，若 $\vec{x}$ 是方陣 $A$ 的特徵值 $λ$

\lambda

λ

的特徵向量，則

k\vec{x}

也是方陣

A

的特徵值

\lambda

的特徵向量。

計算: 已知 $n$ 階方陣 $A=\left ( a_{i,j} \right )$ ，則方陣 $A$ 的特徵多項式 $\varphi \left ( \lambda \right )$ ，如下，

$\varphi \left ( \lambda \right ) = det\left ( \lambda I-A \right )$

$= d e t (\begin{matrix} λ - a_{1, 1} & - a_{1, 2} & . . . & - a_{1, n} \\ - a_{2, 1} & λ - a_{2, 2} & . \end{matrix}$

..−a2,n............−an,1−an,2...λ−an,n)=det\begin{pmatrix} \lambda-a_{1,1} & -a_{1,2} & ... & -a_{1,n}\\ -a_{2,1} & \lambda-a_{2,2} & ... & -a_{2,n}\\ ... & ... & ... & ...\\ -a_{n,1} & -a_{n,2} & ... & \lambda -a_{n,n} \end{pmatrix}

= d e t ⎝ ⎜ ⎜ ⎛ λ - a_{1, 1} - a_{2, 1} . . . - a_{n, 1} - a_{1, 2} λ - a_{2, 2} . . . - a_{n, 2} . . . . . . . . . . . . - a_{1, n} - a_{2, n} . . . λ - a_{n, n} ⎠ ⎟ ⎟ ⎞

不妨令特徵多項式 $\varphi \left ( \lambda \right )=0$ ，得到特徵方程 [3]，如下，

$\varphi \left ( \lambda \right ) = det\left ( \lambda I-A \right ) = 0$

不妨令 $\lambda$ 為方陣 $A$ 的特徵值，得到齊次線性方程組 [4]，如下，

$\left ( \lambda I-A \right )\vec{x}=0$

該齊次線性方程組的非零解 $\vec{x}$ 即為矩陣 $A$ 對應於特徵值 $\lambda$ 的特徵向量。

舉例: 給定方陣 $A=\begin{bmatrix} 2 & 1 & 0\\ 1 & 3 & 1\\ 0 & 1 & 2\end{bmatrix}$ ，求方陣 $A$ 的特徵值及其特徵向量。

方陣 $A$ 的特徵方程，如下，

$\varphi \left ( \lambda \right ) = det\left ( \lambda I-A \right ) = \begin{vmatrix} \lambda -2 & -1 & 0\\ -1 & \lambda -3 & -1\\ 0 & -1 & \lambda -2 \end{vmatrix}=0$

根據行列式展開/拉普拉斯公式 [5]，將高階行列式展開為低階行列式進行計算。得到方陣 $A$ 的特徵值分別如下，

$\lambda_1 = 1$ ， $\lambda_2 = 2$ ， $\lambda_3 = 4$

分別將上述各個特徵值代入方陣 $A$ 的齊次線性方程組 $\left ( \lambda I-A \right )\vec{x}=0$ ，得到相應特徵向量，如下，

$\vec{x}_1=\begin{pmatrix} 1\\ -1\\ 1 \end{pmatrix}$ ， $\vec{x}_2=\begin{pmatrix} 1\\ 0\\ -1 \end{pmatrix}$ ， $\vec{x}_3=\begin{pmatrix} 1\\ 2\\ 1 \end{pmatrix}$ .

應用: 通過特徵值特徵向量可以將方陣分解為形式如下： $A\rightarrow Q\varepsilon Q^{-1}$ ，其中 $\varepsilon$ 是方陣 $A$ 的特徵值組成的對角方陣， $Q$ 是其對應特徵向量組成的方陣。特徵向量表示矩陣各種線性變換，其對應特徵值表示該線性變換的程度。不難想象，高維空間下的一個方陣表示高維空間下的一系列線性變換的集合，這些變換包含很多不同程度，不同方向的變換。因此，為了精簡高維空間變換問題，同時保留儘可能多的變換資訊，我們可以通過特徵值特徵向量分解高維矩陣的方法來近似地描述該方陣。

2. 奇異值分解

特徵值分解是一個提取方陣重要特徵資訊的不錯的方法，但是它僅僅侷限於方陣形式，因為方陣才有逆矩陣。但是在現實世界中，我們看到的大多數矩陣形式都不是方陣，譬如說，一個班級有 $N$ 個學生，每個學生有 $M$ 門成績，這樣構成了一個 $N\times M$ 的矩陣就不是方陣。問：如何描述這樣一個非方陣形式的矩陣的重要特徵？奇異值分解就可以用來幹這事的，我們如下講解。

定義: 給定 $n\times m$ 階矩陣 $A$ ，計算 $A^{T}A$ 的特徵值特徵向量，如下，

$A^{T}A\vec{v}=\lambda \vec{v}$

得到特徵值 $\lambda_{i}$ ，以及特徵向量 $\vec{u}_{i}$ ，其中構成右奇異酉矩陣 $U_{n\times x}$ 。

根據上述特徵值特徵向量，進一步地，

$\sigma_{i}=\sqrt{\lambda_{i}}$

機器學習之特徵值/特徵向量的解析和應用

1. 特徵值

2. 奇異值分解

機器學習之特徵值/特徵向量的解析和應用

機器學習之支持向量機（三）：核函數和KKT條件的理解

機器學習之支持向量機（一）：支持向量機的公式推導

機器學習之支持向量機（四）

機器學習之常用矩陣/向量運算

機器學習之Haar特徵

機器學習之 LBP特徵

機器學習之&&SVM支援向量機入門:Maximum Margin Classifier

機器學習之資訊增益（熵和條件熵）

機器學習系列文章：人工智慧研究和應用領域

機器學習之線性代數基礎一矩陣乘法、秩、特徵值、特徵向量的幾何意義

【ML學習筆記】3：機器學習中的數學基礎3(特徵值,特徵向量,認識SVD)

機器學習之支援向量機原理和sklearn實踐

機器學習之數學基礎（一）-微積分，概率論和矩陣

機器學習之路： python 支持向量機手寫字體識別

機器學習之路：python支持向量機回歸SVR 預測波士頓地區房價

機器學習之路： python 實踐 word2vec 詞向量技術

機器學習之numpy和matplotlib學習（十五）

機器學習之numpy和matplotlib學習（十四）

機器學習之numpy和matplotlib學習（十三）

機器學習之特徵值/特徵向量的解析和應用

1. 特徵值

2. 奇異值分解

相關推薦