基於OpenCV3實現人臉識別（原理篇）---PCA（Principal Component Analysis）

阿新 • • 發佈：2018-12-31

實踐總結：

1首先了解做人臉識別的步驟
2各個演算法後面的原理
3原理背後的相關知識的瞭解
4人臉識別專案總遇到的問題

正文

首先說關於人臉識別，用到的是OpenCV人臉識別類：FaceRecognizer ，主要包括是三個演算法：Eigenfaces（特徵臉），Fisherfaces 和區域性二進位制模式直方圖 (LBPH) 。那麼這些演算法背後是什麼呢？

我使用的是特徵臉，所以看的是它演算法的原理。特徵臉已經可以達到97%的識別率，所以你使用其他方法很難得到更好的提升了。

人臉識別是機器學習和機器視覺領域非常重要的一個研究方向，而特徵臉演算法是人臉識別裡非常經典的一個演算法，EigenFaces 是基於PCA (principal component analysis) 即主分量分析的。

首先簡單說一下PCA變換原理。在人臉識別過程中，一般把圖片看成是向量進行處理，高等數學中我們接觸的一般都是二維或三維向量，向量的維數是根據組成向量的變數個數來定的，例如就是一個二維向量，因為其有兩個參量。而在將一幅影象抽象為一個向量的過程中，我們把影象的每個畫素定為一維，對於一幅的普通影象來說，最後抽象為一個維的高維向量，如此龐大的維數對於後續影象計算式來說相當困難，因此有必要在儘可能不丟失重要資訊的前提下降低影象維數，PCA就是降低影象維數的一種方法。影象在經過PCA變換之後，可以保留任意數量的對影象特徵貢獻較大的維數分量，也就是你可以選擇降維到30維或者90維或者其他，當然最後保留的維數越多，影象丟失的資訊越少，但計算越複雜。

下面轉至知乎：很好很好，我看了，真的很容易明白！

PCA（Principal Component Analysis）是一種常用的資料分析方法。PCA通過線性變換將原始資料變換為一組各維度線性無關的表示，可用於提取資料的主要特徵分量，常用於高維資料的降維。網上關於PCA的文章有很多，但是大多數只描述了PCA的分析過程，而沒有講述其中的原理。這篇文章的目的是介紹PCA的基本數學原理，幫助讀者瞭解PCA的工作機制是什麼。

當然我並不打算把文章寫成純數學文章，而是希望用直觀和易懂的方式敘述PCA的數學原理，所以整個文章不會引入嚴格的數學推導。希望讀者在看完這篇文章後能更好的明白PCA的工作原理。

1. 資料的向量表示及降維問題

一般情況下，在資料探勘和機器學習中，資料被表示為向量。例如某個淘寶店2012年全年的流量及交易情況可以看成一組記錄的集合，其中每一天的資料是一條記錄，格式如下：

(日期, 瀏覽量, 訪客數, 下單數, 成交數, 成交金額)

其中“日期”是一個記錄標誌而非度量值，而資料探勘關心的大多是度量值，因此如果我們忽略日期這個欄位後，我們得到一組記錄，每條記錄可以被表示為一個五維向量，其中一條看起來大約是這個樣子：

$(500,240,25,13,2312.15)^\mathsf{T}$

注意這裡我用了轉置，因為習慣上使用列向量表示一條記錄（後面會看到原因），本文後面也會遵循這個準則。不過為了方便有時我會省略轉置符號，但我們說到向量預設都是指列向量。

我們當然可以對這一組五維向量進行分析和挖掘，不過我們知道，很多機器學習演算法的複雜度和資料的維數有著密切關係，甚至與維數呈指數級關聯。當然，這裡區區五維的資料，也許還無所謂，但是實際機器學習中處理成千上萬甚至幾十萬維的情況也並不罕見，在這種情況下，機器學習的資源消耗是不可接受的，因此我們必須對資料進行降維。

降維當然意味著資訊的丟失，不過鑑於實際資料本身常常存在的相關性，我們可以想辦法在降維的同時將資訊的損失儘量降低。

舉個例子，假如某學籍資料有兩列M和F，其中M列的取值是如何此學生為男性取值1，為女性取值0；而F列是學生為女性取值1，男性取值0。此時如果我們統計全部學籍資料，會發現對於任何一條記錄來說，當M為1時F必定為0，反之當M為0時F必定為1。在這種情況下，我們將M或F去掉實際上沒有任何資訊的損失，因為只要保留一列就可以完全還原另一列。

當然上面是一個極端的情況，在現實中也許不會出現，不過類似的情況還是很常見的。例如上面淘寶店鋪的資料，從經驗我們可以知道，“瀏覽量”和“訪客數”往往具有較強的相關關係，而“下單數”和“成交數”也具有較強的相關關係。這裡我們非正式的使用“相關關係”這個詞，可以直觀理解為“當某一天這個店鋪的瀏覽量較高（或較低）時，我們應該很大程度上認為這天的訪客數也較高（或較低）”。後面的章節中我們會給出相關性的嚴格數學定義。

這種情況表明，如果我們刪除瀏覽量或訪客數其中一個指標，我們應該期待並不會丟失太多資訊。因此我們可以刪除一個，以降低機器學習演算法的複雜度。

上面給出的是降維的樸素思想描述，可以有助於直觀理解降維的動機和可行性，但並不具有操作指導意義。例如，我們到底刪除哪一列損失的資訊才最小？亦或根本不是單純刪除幾列，而是通過某些變換將原始資料變為更少的列但又使得丟失的資訊最小？到底如何度量丟失資訊的多少？如何根據原始資料決定具體的降維操作步驟？

要回答上面的問題，就要對降維問題進行數學化和形式化的討論。而PCA是一種具有嚴格數學基礎並且已被廣泛採用的降維方法。下面我不會直接描述PCA，而是通過逐步分析問題，讓我們一起重新“發明”一遍PCA。

2. 向量的表示及基變換

既然我們面對的資料被抽象為一組向量，那麼下面有必要研究一些向量的數學性質。而這些數學性質將成為後續匯出PCA的理論基礎。

3. 內積與投影

下面先來看一個高中就學過的向量運算：內積。兩個維數相同的向量的內積被定義為：

$(a_1,a_2,\cdots,a_n)^\mathsf{T}\cdot (b_1,b_2,\cdots,b_n)^\mathsf{T}=a_1b_1+a_2b_2+\cdots+a_nb_n$

內積運算將兩個向量對映為一個實數。其計算方式非常容易理解，但是其意義並不明顯。下面我們分析內積的幾何意義。假設 $A$ 和 $B$ 是兩個 $n$ 維向量，我們知道 $n$ 維向量可以等價表示為 $n$ 維空間中的一條從原點發射的有向線段，為了簡單起見我們假設 $A$ 和 $B$ 均為二維向量，則 $A=(x_1,y_1)$ ， $B=(x_2,y_2)$ 。則在二維平面上 $A$ 和 $B$ 可以用兩條發自原點的有向線段表示，見下圖：

好，現在我們從 $A$ 點向 $B$ 所在直線引一條垂線。我們知道垂線與 $B$ 的交點叫做 $A$ 在 $B$ 上的投影，再設 $A$ 與 $B$ 的夾角是 $\alpha$ ，則投影的向量長度為 $|A|cos(\alpha )$ ，其中 $|A|=\sqrt{x_1^2+y_1^2}$ 是向量 $A$ 的模，也就是 $A$ 線段的標量長度。

注意這裡我們專門區分了向量長度和標量長度，標量長度總是大於等於0，值就是線段的長度；而向量長度可能為負，其絕對值是線段長度，而符號取決於其方向與標準方向相同或相反。

到這裡還是看不出內積和這東西有什麼關係，不過如果我們將內積表示為另一種我們熟悉的形式：

$A\cdot B=|A||B|cos(\alpha )$

現在事情似乎是有點眉目了： $A$ 與 $B$ 的內積等於 $A$ 到 $B$ 的投影長度乘以 $B$ 的模。再進一步，如果我們假設 $B$ 的模為1，即讓 $|B|=1$ ，那麼就變成了：

$A\cdot B=|A|cos(\alpha )$

也就是說，設向量 $B$ 的模為1，則 $A$ 與 $B$ 的內積值等於 $A$ 向 $B$ 所在直線投影的向量長度！這就是內積的一種幾何解釋，也是我們得到的第一個重要結論。在後面的推導中，將反覆使用這個結論。

4. 基

下面我們繼續在二維空間內討論向量。上文說過，一個二維向量可以對應二維笛卡爾直角座標系中從原點出發的一個有向線段。例如下面這個向量：

在代數表示方面，我們經常用線段終點的點座標表示向量，例如上面的向量可以表示為 $(3,2)$ ，這是我們再熟悉不過的向量表示。

不過我們常常忽略，只有一個 $(3,2)$ 本身是不能夠精確表示一個向量的。我們仔細看一下，這裡的3實際表示的是向量在x軸上的投影值是3，在y軸上的投影值是2。也就是說我們其實隱式引入了一個定義：以x軸和y軸上正方向長度為1的向量為標準。那麼一個向量 $(3,2)$ 實際是說在x軸投影為3而y軸的投影為2。注意投影是一個向量，所以可以為負。

更正式的說，向量(x,y)實際上表示線性組合：

$x(1,0)^\mathsf{T}+y(0,1)^\mathsf{T}$

不難證明所有二維向量都可以表示為這樣的線性組合。此處 $(1,0)$ 和 $(0,1)$ 叫做二維空間中的一組基。

所以，要準確描述向量，首先要確定一組基，然後給出在基所在的各個直線上的投影值，就可以了。只不過我們經常省略第一步，而預設以(1,0)和(0,1)為基。

我們之所以預設選擇(1,0)和(0,1)為基，當然是比較方便，因為它們分別是x和y軸正方向上的單位向量，因此就使得二維平面上點座標和向量一一對應，非常方便。但實際上任何兩個線性無關的二維向量都可以成為一組基，所謂線性無關在二維平面內可以直觀認為是兩個不在一條直線上的向量。

例如，(1,1)和(-1,1)也可以成為一組基。一般來說，我們希望基的模是1，因為從內積的意義可以看到，如果基的模是1，那麼就可以方便的用向量點乘基而直接獲得其在新基上的座標了！實際上，對應任何一個向量我們總可以找到其同方向上模為1的向量，只要讓兩個分量分別除以模就好了。例如，上面的基可以變為 $(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}})$ 和 $(-\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}})$ 。

現在，我們想獲得(3,2)在新基上的座標，即在兩個方向上的投影向量值，那麼根據內積的幾何意義，我們只要分別計算(3,2)和兩個基的內積，不難得到新的座標為 $(\frac{5}{\sqrt{2}},-\frac{1}{\sqrt{2}})$ 。下圖給出了新的基以及(3,2)在新基上座標值的示意圖：

另外這裡要注意的是，我們列舉的例子中基是正交的（即內積為0，或直觀說相互垂直），但可以成為一組基的唯一要求就是線性無關，非正交的基也是可以的。不過因為正交基有較好的性質，所以一般使用的基都是正交的。

5. 基變換的矩陣表示

下面我們找一種簡便的方式來表示基變換。還是拿上面的例子，想一下，將(3,2)變換為新基上的座標，就是用(3,2)與第一個基做內積運算，作為第一個新的座標分量，然後用(3,2)與第二個基做內積運算，作為第二個新座標的分量。實際上，我們可以用矩陣相乘的形式簡潔的表示這個變換：

$\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix} \begin{pmatrix} 3 \\ 2 \end{pmatrix} = \begin{pmatrix} 5/\sqrt{2} \\ -1/\sqrt{2} \end{pmatrix}$

太漂亮了！其中矩陣的兩行分別為兩個基，乘以原向量，其結果剛好為新基的座標。可以稍微推廣一下，如果我們有m個二維向量，只要將二維向量按列排成一個兩行m列矩陣，然後用“基矩陣”乘以這個矩陣，就得到了所有這些向量在新基下的值。例如(1,1)，(2,2)，(3,3)，想變換到剛才那組基上，則可以這樣表示：

$\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix} \begin{pmatrix} 1 & 2 & 3 \\ 1 & 2 & 3 \end{pmatrix} = \begin{pmatrix} 2/\sqrt{2} & 4/\sqrt{2} & 6/\sqrt{2} \\ 0 & 0 & 0 \end{pmatrix}$

於是一組向量的基變換被幹淨的表示為矩陣的相乘。

一般的，如果我們有M個N維向量，想將其變換為由R個N維向量表示的新空間中，那麼首先將R個基按行組成矩陣A，然後將向量按列組成矩陣B，那麼兩矩陣的乘積AB就是變換結果，其中AB的第m列為A中第m列變換後的結果。

數學表示為：

$\begin{pmatrix} p_1 \\ p_2 \\ \vdots \\ p_R \end{pmatrix} \begin{pmatrix} a_1 & a_2 & \cdots & a_M \end{pmatrix} = \begin{pmatrix} p_1a_1 & p_1a_2 & \cdots & p_1a_M \\ p_2a_1 & p_2a_2 & \cdots & p_2a_M \\ \vdots & \vdots & \ddots & \vdots \\ p_Ra_1 & p_Ra_2 & \cdots & p_Ra_M \end{pmatrix}$

其中 $p_i$ 是一個行向量，表示第 $i$ 個基， $a_j$ 是一個列向量，表示第 $j$ 個原始資料記錄。

特別要注意的是，這裡R可以小於N，而R決定了變換後資料的維數。也就是說，我們可以將一N維資料變換到更低維度的空間中去，變換後的維度取決於基的數量。因此這種矩陣相乘的表示也可以表示降維變換。

最後，上述分析同時給矩陣相乘找到了一種物理解釋：兩個矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去。更抽象的說，一個矩陣可以表示一種線性變換。很多同學在學線性代數時對矩陣相乘的方法感到奇怪，但是如果明白了矩陣相乘的物理意義，其合理性就一目瞭然了。

6. 協方差矩陣及優化目標

上面我們討論了選擇不同的基可以對同樣一組資料給出不同的表示，而且如果基的數量少於向量本身的維數，則可以達到降維的效果。但是我們還沒有回答一個最最關鍵的問題：如何選擇基才是最優的。或者說，如果我們有一組N維向量，現在要將其降到K維（K小於N），那麼我們應該如何選擇K個基才能最大程度保留原有的資訊？

要完全數學化這個問題非常繁雜，這裡我們用一種非形式化的直觀方法來看這個問題。

為了避免過於抽象的討論，我們仍以一個具體的例子展開。假設我們的資料由五條記錄組成，將它們表示成矩陣形式：

$\begin{pmatrix} 1 & 1 & 2 & 4 & 2 \\ 1 & 3 & 3 & 4 &4 \end{pmatrix}$

其中每一列為一條資料記錄，而一行為一個欄位。為了後續處理方便，我們首先將每個欄位內所有值都減去欄位均值，其結果是將每個欄位都變為均值為0（這樣做的道理和好處後面會看到）。

我們看上面的資料，第一個欄位均值為2，第二個欄位均值為3，所以變換後：

$\begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}$

我們可以看下五條資料在平面直角座標系內的樣子：

現在問題來了：如果我們必須使用一維來表示這些資料，又希望儘量保留原始的資訊，你要如何選擇？

通過上一節對基變換的討論我們知道，這個問題實際上是要在二維平面中選擇一個方向，將所有資料都投影到這個方向所在直線上，用投影值表示原始記錄。這是一個實際的二維降到一維的問題。

那麼如何選擇這個方向（或者說基）才能儘量保留最多的原始資訊呢？一種直觀的看法是：希望投影后的投影值儘可能分散。

以上圖為例，可以看出如果向x軸投影，那麼最左邊的兩個點會重疊在一起，中間的兩個點也會重疊在一起，於是本身四個各不相同的二維點投影后只剩下兩個不同的值了，這是一種嚴重的資訊丟失，同理，如果向y軸投影最上面的兩個點和分佈在x軸上的兩個點也會重疊。所以看來x和y軸都不是最好的投影選擇。我們直觀目測，如果向通過第一象限和第三象限的斜線投影，則五個點在投影后還是可以區分的。

下面，我們用數學方法表述這個問題。

7. 方差

上文說到，我們希望投影后投影值儘可能分散，而這種分散程度，可以用數學上的方差來表述。此處，一個欄位的方差可以看做是每個元素與欄位均值的差的平方和的均值，即：

$Var(a)=\frac{1}{m}\sum_{i=1}^m{(a_i-\mu)^2}$

由於上面我們已經將每個欄位的均值都化為0了，因此方差可以直接用每個元素的平方和除以元素個數表示：

$Var(a)=\frac{1}{m}\sum_{i=1}^m{a_i^2}$ $Var(a)=\frac{1} {m}\sum_{i=1}^m{a_i^2}$

於是上面的問題被形式化表述為：尋找一個一維基，使得所有資料變換為這個基上的座標表示後，方差值最大。

8. 協方差

對於上面二維降成一維的問題來說，找到那個使得方差最大的方向就可以了。不過對於更高維，還有一個問題需要解決。考慮三維降到二維問題。與之前相同，首先我們希望找到一個方向使得投影后方差最大，這樣就完成了第一個方向的選擇，繼而我們選擇第二個投影方向。

如果我們還是單純只選擇方差最大的方向，很明顯，這個方向與第一個方向應該是“幾乎重合在一起”，顯然這樣的維度是沒有用的，因此，應該有其他約束條件。從直觀上說，讓兩個欄位儘可能表示更多的原始資訊，我們是不希望它們之間存在（線性）相關性的，因為相關性意味著兩個欄位不是完全獨立，必然存在重複表示的資訊。

數學上可以用兩個欄位的協方差表示其相關性，由於已經讓每個欄位均值為0，則：

$Cov(a,b)=\frac{1}{m}\sum_{i=1}^m{a_ib_i}$

可以看到，在欄位均值為0的情況下，兩個欄位的協方差簡潔的表示為其內積除以元素數m。

當協方差為0時，表示兩個欄位完全獨立。為了讓協方差為0，我們選擇第二個基時只能在與第一個基正交的方向上選擇。因此最終選擇的兩個方向一定是正交的。

至此，我們得到了降維問題的優化目標：將一組N維向量降為K維（K大於0，小於N），其目標是選擇K個單位（模為1）正交基，使得原始資料變換到這組基上後，各欄位兩兩間協方差為0，而欄位的方差則儘可能大（在正交的約束下，取最大的K個方差）。

9. 協方差矩陣

上面我們匯出了優化目標，但是這個目標似乎不能直接作為操作指南（或者說演算法），因為它只說要什麼，但根本沒有說怎麼做。所以我們要繼續在數學上研究計算方案。

我們看到，最終要達到的目的與欄位內方差及欄位間協方差有密切關係。因此我們希望能將兩者統一表示，仔細觀察發現，兩者均可以表示為內積的形式，而內積又與矩陣相乘密切相關。於是我們來了靈感：

假設我們只有a和b兩個欄位，那麼我們將它們按行組成矩陣X：

$X=\begin{pmatrix} a_1 & a_2 & \cdots & a_m \\ b_1 & b_2 & \cdots & b_m \end{pmatrix}$

然後我們用X乘以X的轉置，並乘上係數1/m：

$\frac{1}{m}XX^\mathsf{T}=\begin{pmatrix} \frac{1}{m}\sum_{i=1}^m{a_i^2} & \frac{1}{m}\sum_{i=1}^m{a_ib_i} \\ \frac{1}{m}\sum_{i=1}^m{a_ib_i} & \frac{1}{m}\sum_{i=1}^m{b_i^2} \end{pmatrix}$

奇蹟出現了！這個矩陣對角線上的兩個元素分別是兩個欄位的方差，而其它元素是a和b的協方差。兩者被統一到了一個矩陣的。

根據矩陣相乘的運演算法則，這個結論很容易被推廣到一般情況：

設我們有 $m$ 個 $n$ 維資料記錄，將其按列排成 $n$ 乘 $m$ 的矩陣 $X$ ，設 $C=\frac{1}{m}XX^\mathsf{T}$ ，則 $C$ 是一個對稱矩陣，其對角線分別個各個欄位的方差，而第 $i$ 行 $j$ 列和 $j$ 行 $i$ 列元素相同，表示 $i$ 和 $j$ 兩個欄位的協方差。

10. 協方差矩陣對角化

根據上述推導，我們發現要達到優化目前，等價於將協方差矩陣對角化：即除對角線外的其它元素化為0，並且在對角線上將元素按大小從上到下排列，這樣我們就達到了優化目的。這樣說可能還不是很明晰，我們進一步看下原矩陣與基變換後矩陣協方差矩陣的關係：

設原始資料矩陣X對應的協方差矩陣為C，而P是一組基按行組成的矩陣，設Y=PX，則Y為X對P做基變換後的資料。設Y的協方差矩陣為D，我們推導一下D與C的關係：

$\begin{array}{l l l} D & = & \frac{1}{m}YY^\mathsf{T} \\ & = & \frac{1}{m}(PX)(PX)^\mathsf{T} \\ & = & \frac{1}{m}PXX^\mathsf{T}P^\mathsf{T} \\ & = & P(\frac{1}{m}XX^\mathsf{T})P^\mathsf{T} \\ & = & PCP^\mathsf{T} \end{array}$

現在事情很明白了！我們要找的P不是別的，而是能讓原始協方差矩陣對角化的P。換句話說，優化目標變成了尋找一個矩陣P，滿足 $PCP^\mathsf{T}$ 是一個對角矩陣，並且對角元素按從大到小依次排列，那麼P的前K行就是要尋找的基，用P的前K行組成的矩陣乘以X就使得X從N維降到了K維並滿足上述優化條件。

至此，我們離“發明”PCA還有僅一步之遙！

現在所有焦點都聚焦在了協方差矩陣對角化問題上，有時，我們真應該感謝數學家的先行，因為矩陣對角化線上性代數領域已經屬於被玩爛了的東西，所以這在數學上根本不是問題。

由上文知道，協方差矩陣 $C$ 是一個是對稱矩陣，線上性代數上，實對稱矩陣有一系列非常好的性質：

1）實對稱矩陣不同特徵值對應的特徵向量必然正交。

2）設特徵向量 $\lambda$ 重數為r，則必然存在r個線性無關的特徵向量對應於 $\lambda$ ，因此可以將這r個特徵向量單位正交化。

由上面兩條可知，一個 $n$ 行 $n$ 列的實對稱矩陣一定可以找到n個單位正交特徵向量，設這 $n$ 個特徵向量為 $e_1,e_2,\cdots,e_n$ ，我們將其按列組成矩陣：

$E=\begin{pmatrix} e_1 & e_2 & \cdots & e_n \end{pmatrix}$

則對協方差矩陣C有如下結論：

$E^ \mathsf{T}CE=\Lambda=\begin{pmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots & \\ & & & \lambda_n \end{pmatrix}$

其中 $\Lambda$ 為對角矩陣，其對角元素為各特徵向量對應的特徵值（可能有重複）。

以上結論不再給出嚴格的數學證明，對證明感興趣的朋友可以參考線性代數書籍關於“實對稱矩陣對角化”的內容。

到這裡，我們發現我們已經找到了需要的矩陣P：

$P=E^\mathsf{T}$

P是協方差矩陣的特徵向量單位化後按行排列出的矩陣，其中每一行都是C的一個特徵向量。如果設P按照 $\Lambda$ 中特徵值的從大到小，將特徵向量從上到下排列，則用P的前K行組成的矩陣乘以原始資料矩陣X，就得到了我們需要的降維後的資料矩陣Y。

至此我們完成了整個PCA的數學原理討論。在下面的一節，我們將給出PCA的一個例項。

11. 演算法及例項

為了鞏固上面的理論，我們在這一節給出一個具體的PCA例項。

PCA演算法

總結一下PCA的演算法步驟：

設有m條n維資料。

1）將原始資料按列組成n行m列矩陣X

2）將X的每一行（代表一個屬性欄位）進行零均值化，即減去這一行的均值

3）求出協方差矩陣 $C=\frac{1}{m}XX^\mathsf{T}$

4）求出協方差矩陣的特徵值及對應的特徵向量

5）將特徵向量按對應特徵值大小從上到下按行排列成矩陣，取前k行組成矩陣P

6）Y=PX即為降維到k維後的資料

例項1

這裡以上文提到的

$\begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}$

為例，我們用PCA方法將這組二維資料其降到一維。

因為這個矩陣的每行已經是零均值，這裡我們直接求協方差矩陣：

$C= \frac {1}{5}\begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}\begin{pmatrix} -1 & -2 \\ -1 & 0 \\ 0 & 0 \\ 2 & 1 \\ 0 & 1 \end{pmatrix}=\begin{pmatrix} \frac{6}{5} & \frac{4}{5} \\ \frac{4}{5} & \frac{6}{5} \end{pmatrix}$

然後求其特徵值和特徵向量，具體求解方法不再詳述，可以參考相關資料。求解後特徵值為：

$\lambda_1=2,\lambda_2=2/5$

其對應的特徵向量分別是：

$c_1=\begin{pmatrix} 1 \\ 1 \end{pmatrix},c_2=\begin{pmatrix} -1 \\ 1 \end{pmatrix}$

其中對應的特徵向量分別是一個通解， $c_1$ 和 $c_2$ 可取任意實數。那麼標準化後的特徵向量為：

$\begin{pmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{pmatrix},\begin{pmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \end{pmatrix}$

因此我們的矩陣P是：

$P=\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}$

可以驗證協方差矩陣C的對角化：

$PCP^\mathsf{T}=\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}\begin{pmatrix} 6/5 & 4/5 \\ 4/5 & 6/5 \end{pmatrix}\begin{pmatrix} 1/\sqrt{2} & -1/\sqrt{2} \\ 1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}=\begin{pmatrix} 2 & 0 \\ 0 & 2/5 \end{pmatrix}$

最後我們用P的第一行乘以資料矩陣，就得到了降維後的表示：

$Y=\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}\begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}=\begin{pmatrix} -3/\sqrt{2} & -1/\sqrt{2} & 0 & 3/\sqrt{2} & -1/\sqrt{2} \end{pmatrix}$

降維投影結果如下圖：

程式碼：

function linear_PCA 

%% PARAMETERS

N = 500;			% number of data points
R = [-.9 .4; .1 .2];	% covariance matrix

%% PROGRAM
tic

X = randn(N,2)*R;	% correlated two-dimensional data

[E,v,Xp] = km_pca(X,1);		% obtain eigenvector matrix E, eigenvalues v and principal components Xp

toc
%% OUTPUT
Y = X*E(:,2);
figure; hold on
plot(X(:,1),X(:,2),'.')
plot(E(1,1)*Xp,E(2,1)*Xp,'.r')
plot(E(1,2)*Y,E(2,2)*Y,'.b')
plot([0 E(1,1)],[0 E(2,1)],'g','LineWidth',4)
plot([0 E(1,2)],[0 E(2,2)],'k','LineWidth',4)
axis equal
legend('data','first principal components','second principal components','first principal direction','second principal direction')
title('linear PCA demo')

function [E,v,Xp] = km_pca(X,m)
N = size(X,1);
[E,V] = eig(X'*X/N);

v = diag(V);
[v,ind] = sort(v,'descend');
E = E(:,ind);

Xp = X*E(:,1:m);

(說明，為了畫圖效果，計算協方差矩陣之前沒有將資料中心化)

根據上面對PCA的數學原理的解釋，我們可以瞭解到一些PCA的能力和限制。PCA本質上是將方差最大的方向作為主要特徵，並且在各個正交方向上將資料“離相關”，也就是讓它們在不同正交方向上沒有相關性。

因此，PCA也存在一些限制，例如它可以很好的解除線性相關，但是對於高階相關性就沒有辦法了，對於存在高階相關性的資料，可以考慮Kernel PCA，通過Kernel函式將非線性相關轉為線性相關，關於這點就不展開討論了。另外，PCA假設資料各主特徵是分佈在正交方向上，如果在非正交方向上存在幾個方差較大的方向，PCA的效果就大打折扣了。

最後需要說明的是，PCA是一種無引數技術，也就是說面對同樣的資料，如果不考慮清洗，誰來做結果都一樣，沒有主觀引數的介入，所以PCA便於通用實現，但是本身無法個性化的優化。

特徵臉演算法 EigenFaces

一特徵臉演算法 EigenFaces張尺寸為 w×h的人臉影象可以看成是一個 D×1 的列向量, ，其中 D=w×h，那麼，給定一個訓練集 S，含有 m 張人臉影象, 即: S={xi},i=1,2,...m，簡單來說，我們希望通過一些線性對映，將原始向量 x 從高維空間變換到一個低維空間， K≪D.

PCA，也即主成份分析，主要用於特徵的降維。

高維資料中包含了大量的冗餘並隱藏了重要關係的相關性，降維的目的就是消除冗餘，減少被處理資料的數量。

PCA其實就是尋找最小均方意義下，最能代表原始資料的投影方法。

基於PCA的人臉識別步驟：

假設有n幅人臉影象（100*100），也即樣本大小為n，這n個樣本分屬c類，也即c個人。

$x_{i}$ 為第i個樣本，它是10000維的列向量，假設要將這10000維的列向量降維到k=99維。

① 分別將每幅影象資料依次按列頭尾相連生成列向量；

② 計算訓練樣本協方差矩陣：

$S_{t}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-u)(x_{i}-u)^{T}$

u為所有樣本（n個）的均值，是一個10000維的列向量。（對每一列都求均值）

③ 求解協方差矩陣 $S_{t}$ 的特徵根 $\lambda$ ：

$S_{t}w=\lambda w$ ；

④ 獲得投影矩陣W（就是特徵向量啦）：

如果要投影到k維的空間，只需要選出k個最大的特徵值對應的特徵向量組成投影矩陣W：

$W=[w_{1},w_{2},\cdot \cdot \cdot ,w_{k}]$ ，W為10000*k。

⑤ 將訓練樣本中的每個樣本通過變換矩陣W投影到低維空間，投影后的向量y： $y=W^{T}(x-u)$ ，y為k*1；

⑥ 將測試樣本通過變換矩陣W投影到低維空間: $y=W^{T}(x-u)$ ，利用歐式距離下的最近鄰分類器進行分類識別。

argmin求最小值！

PCA的缺點：PCA將所有的樣本作為一個整體對待，去尋找一個均方誤差最小意義下的投影矩陣，而忽略了類別屬性，而它所忽略的投影方向有可能剛好包含了重要的可分性資訊。

在低維空間中一張圖就是一個點，與原本每類做歐式距離，最近的即為該類！嗯，應該是這樣的。如果不是這樣，請與我留言聯絡，更正我的想法啊。

不知道PCA怎能應用到eigenFaces的可以看下：

基於OpenCV3實現人臉識別（原理篇）---PCA（Principal Component Analysis）

實踐總結：

下面轉至知乎：很好很好，我看了，真的很容易明白！

1. 資料的向量表示及降維問題

2. 向量的表示及基變換

3. 內積與投影

4. 基

5. 基變換的矩陣表示

6. 協方差矩陣及優化目標

7. 方差

8. 協方差

9. 協方差矩陣

10. 協方差矩陣對角化

11. 演算法及例項

特徵臉演算法 EigenFaces

在低維空間中一張圖就是一個點，與原本每類做歐式距離，最近的即為該類！嗯，應該是這樣的。如果不是這樣，請與我留言聯絡，更正我的想法啊。

基於OpenCV3實現人臉識別（原理篇）---PCA（Principal Component Analysis）

基於OpenCV3實現人臉識別（實踐篇）

主成分分析（PCA，Principal Component Analysis）

python基於openCV3的人臉識別

人臉識別技術原理與工程實踐（10個月人臉識別領域實戰總結）

[機器學習]PCA（principal component analysis）

dlib實現人臉識別（一)生成描述檔案和標籤檔案

java實現基於SeetaFaceEngine的人臉識別

基於mtcnn/facenet/tensorflow實現人臉識別登入系統

基於深度學習的人臉識別AI技術謎與思（十四）--臉型識別

OpenCV3.4.1 實現人臉識別

OpenCV3計算機視覺Python語言實現人臉識別筆記

樹莓派學習（三）基於OpenCv的人臉識別

【Caffe實踐】基於Caffe的人臉識別實現

使用python3+opencv3實現的識別答題卡的例子（01）

基於opencv3實現運動物體識別

利用python、tensorflow、opencv實現人臉識別（包會）！

openCV java（JFrame）實現人臉識別，人臉自動檢測，自動儲存裁剪後人臉

基於深度卷積神經網路進行人臉識別的原理是什麼？

python基於神經網路實現人臉識別

基於OpenCV3實現人臉識別（原理篇）---PCA（Principal Component Analysis）

實踐總結：

下面轉至知乎：很好很好，我看了，真的很容易明白！

1. 資料的向量表示及降維問題

2. 向量的表示及基變換

3. 內積與投影

4. 基

5. 基變換的矩陣表示

6. 協方差矩陣及優化目標

7. 方差

8. 協方差

9. 協方差矩陣

10. 協方差矩陣對角化

11. 演算法及例項

特徵臉演算法 EigenFaces

在低維空間中一張圖就是一個點，與原本每類做歐式距離，最近的即為該類！嗯，應該是這樣的。如果不是這樣，請與我留言聯絡，更正我的想法啊。

相關推薦