機器學習中的矩陣方法(附錄A）：病態矩陣與條件數

阿新 • • 發佈：2019-01-18

1. 病態系統

現在有線性系統： Ax = b，解方程

很容易得到解為： x1 = -100, x2 = -200. 如果在樣本採集時存在一個微小的誤差，比如，將 A 矩陣的係數 400 改變成 401：

則得到一個截然不同的解： x1 = 40000, x2 = 79800.

當解集 x 對 A 和 b 的係數高度敏感，那麼這樣的方程組就是病態的 (ill-conditioned).

2. 條件數

那麼，如何評價一個方程組是病態還是非病態的呢？在此之前，需要了解矩陣和向量的 norm，這裡具體是計算很簡單的 infinity norm，即找行絕對值之和最大，舉個例子：

infinity norm 具有三角性質：||x+y|| <=

||x|| + ||y||. 理解了這些概念，下面討論一下衡量方程組病態程度的條件數，首先假設向量 b 受到擾動，導致解集 x 產生偏差：

即有：

同時，由於

綜合上面兩個不等式：

即得到最終的關係：

如果是矩陣 A 產生誤差，同樣可以得到：

其中，條件數定義為：

一般來說，方程組解集的精度大概是個十進位制的位的誤差。比如，IEEE 標準表示的雙精度浮點數的有效位是 16 位，如果條件數是 1e+10, 那麼得到的結果中只有 6 位是精確的。所以，只有當方程組是良態時，殘差 R = Ax - b 才能準確指示解的精度。

3. 病態的由來

自己的看法：

線性系統 Ax = b 為什麼會病態？歸根到底是由於 A 矩陣列向量線性相關性過大，表示的特徵太過於相似以至於容易混淆所產生的。舉個例子, 現有一個兩個十分相似的列向量組成的矩陣 A：

在二維空間上，這兩個列向量夾角非常小。假設第一次檢測得到資料 b = [1000, 0]^T, 這個點正好在第一個列向量所在的直線上，解集是 [1, 0]^T。現在再次檢測，由於有輕微的誤差，得到的檢測資料是 b = [1000, 0.001]，這個點正好在第二個列向量所在的直線上，解集是 [0, 1]^T。兩次求得到了差別迥異的的解集。

4. 與特徵值和 SVD 的關係

特徵值

假設 A 的兩個單位特徵向量是 x1, x2, 根據特徵向量的性質：

$Ax_1 = \lambda _1x_1, Ax_2 = \lambda _2x_2$

上述矩陣 A 的特徵值和特徵向量分別為：

對於平面上的某一個向量 b，可以分解為兩個特徵向量的線性組合：

把上式帶入， $b = mx_1 + nx_2 = \frac{m}{\lambda _1}\lambda _1x_1 + \frac{n}{\lambda _2}\lambda _2x_2 = A(\frac{m}{\lambda _1}x_1 + \frac{n}{\lambda _2}x_2) = Ax$

如果 $\lambda _1$ 遠遠大於 $\lambda _2$ ，當 b 點在 x1 方向發生移動, m 值改變，解集 x 變化不明顯，反之，如果在 x2 方向移動， n 值改變，解集 x 變化非常大！可以看到，特徵值對解集起到了一個 scaling 的作用。反過來說，如果一個特徵值比其它特徵值在數量級上小很多，x在對應特徵向量 (x2) 方向上很大的移動才能產生b微小的變化.

2. SVD

SVD 分解：

聯絡上次學到的 SVD 知識，將 A 分解成三個矩陣的乘積，中間的對角線矩陣也起到了 scaling 的作用。我們按照正向思維來考慮這個問題，現在來了一個解集 x 向量，左乘 A 矩陣等價與左乘 USV^T, x 向量正好等於 V^T 最後一行向量，經過 S 矩陣的 scaling 縮小之後對 b 的影響非常小。也就是說，解集 x 在 V^T 最後一行的行向量方向自由度最大！自由度越大，越不穩定，極端情況是該方向奇異值為 0, 解集可以在該方向取任意值，這也正好對應了矩陣 A 有零特徵值， Ax 在對應特徵向量的方向上移動不改變 Ax 的值。

在不同的 norm 下，條件數又可以由最大奇異值與最小奇異值之間的比值，或者最大特徵值和最小特徵值之間比值的絕對值來表示，詳情請參考維基百科

最後， A 的條件數究竟等於多少呢？ cond(A) = 2e+06

5. 病態矩陣處理方法

真正的自由是建立在規範的基礎上的。病態矩陣解集的不穩定性是由於解集空間包含了自由度過大的方向，解決這個問題的關鍵就是將這些方向去掉，而保留 scaling 較大的方向，從而把解集侷限在一個較小的區域內。在上面的討論中， A 矩陣的特徵向量不一定正交，不適合做新基， SVD 分解正好分解出了正交基，可以選前 k 個 v^T 向量作為正交基。

比如，現在只選取前一個 (0.707, 0.707) 方向作為基，解集侷限咋 y = x 這條直線上。直觀的解釋就是， A 矩陣的兩個列向量過於類似，我們就可以將它們等同看待，第一次 b = (1000, 0), 解集是(0.5, 0.5), 第二次 b = (1000, 0.001), 解集還是 (0.5, 0.5).

總結起來，解決 A 病態就是將解集限定在一組正交基空間內，即對於座標 y，選擇 k 個正交基 Zk，解決問題：

這個就是 reduce-rank model. 具體方法有 truncated SVD 和 Krylov subspace method。

參考資料：

機器學習中的矩陣方法(附錄A）：病態矩陣與條件數

1. 病態系統

2. 條件數

3. 病態的由來

4. 與特徵值和 SVD 的關係

5. 病態矩陣處理方法

機器學習中的矩陣方法(附錄A）：病態矩陣與條件數

機器學習中模型的效能度量方式：混淆矩陣，F1-Score、ROC曲線、AUC曲線。

貝葉斯在機器學習中的應用（一）

【機器學習】人像分類（四）——灰度矩陣恢復成灰度圖

系統學習機器學習之引數方法（三）

ng機器學習視頻筆記（五） ——過擬合與正則化

《機器學習實戰》筆記（三）：樸素貝葉斯

《機器學習實戰》筆記（一）：K-近鄰演算法

機器學習筆記（二十一）：TensorFlow實戰十三（遷移學習）

機器學習導論（張志華）：概率PCA

機器學習導論（張志華）：EM演算法

機器學習導論（張志華）：基本概念

機器學習導論（張志華）：多項式分佈

機器學習導論（張志華）：正定核應用

機器學習實戰教程（十二）：線性迴歸提高篇之樂高玩具套件二手價預測

機器學習筆記（二十二）：TensorFlow實戰十四（影象風格遷移）

[學習筆記]機器學習——演算法及模型（五）：貝葉斯演算法

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

【機器學習】機器學習（十二、十三）：K-means演算法、高斯混合模型

機器學習入坑指南（三）：簡單線性迴歸

機器學習中的矩陣方法(附錄A）： 病態矩陣與條件數

1. 病態系統

2. 條件數

3. 病態的由來

4. 與特徵值和 SVD 的關係

5. 病態矩陣處理方法

相關推薦

機器學習中的矩陣方法(附錄A）：病態矩陣與條件數