1. 程式人生 > >深度學習-23:矩陣理論(L0/L1/L2範數)

深度學習-23:矩陣理論(L0/L1/L2範數)

深度學習-23:矩陣理論(L0/L1/L2範數)

深度學習原理與實踐(開源圖書)-總目錄, 建議收藏,告別碎片閱讀!

線性代數是數學的一個分支,廣泛應用於科學和工程領域。線性代數和矩陣理論是機器學習和人工智慧的重要數學基礎。有短板的請補課,推薦《The Matrix Cookbook》。線性代數主要涉及矩陣理論,本節圍繞矩陣理論展開。

1 標量、向量和張量

標量: 一個標量就是一個單獨的數字
向量: 一個向量就是一列數字。例如 x= [x1,x2,…xn]
矩陣:一個矩陣就是一個二維陣列 A = [[A11,A12], [A21,A22]]
張量: 一個數組中的元素分佈於若干座標的規則網格中,稱為張量

2 矩陣和矩陣的性質

矩陣乘積具有分配律: A(B+C)=AB+AC
矩陣乘積具有結合律: A(BC)=(AB)C
單位矩陣和逆矩陣
對角矩陣
線性相關

3 範數

衡量一個向量的大小,在機器學習中稱為範數。範數的定義為:
x

p = ( n = 1 N
x i p ) 1 / p ||x||_p = (\sum_{n=1}^N|x_i|^p)^1/p

L0範數: 向量中非0的元素的個數。如果我們用L0範數來規則化一個引數矩陣W的話,就是希望W的大部分元素都是0。換句話說,就是讓引數W是稀疏的。稀疏矩陣、稀疏編碼、稀疏網路可是機器學習中大火的概念哦。稀疏規則化一個最吸引人的特性是特徵的自動選擇,自動去掉沒有資訊的特性(把這些特徵對應的權重置為0)。

L1範數: 向量中各個元素絕對值之和,論文中集萬千寵愛的稀疏規則運算元(Lasso regularization)。L1範數會使權值稀疏。L1範數和L0範數可以實現稀疏,L1範數因具有比L0範數更好的優化求解特性而被廣泛應用。

L2 範數稱為歐幾里得範數。L2 範數的經典特性是權值衰減(Weight Decay)。在迴歸演算法中,使用L2 範數的迴歸稱為嶺迴歸(Ridge Regression)。L2範數可以限制模型空間,從而在一定程度上避免了過擬合。從學習理論的角度來說,L2範數可以防止過擬合,提升模型的泛化能力。

4 特徵分解

我們通過分解質因數可以發現部分整數的內在性質,同樣我們通過矩陣分解可以發現組成矩陣的數字元素的性質。特徵分解將矩陣分解成一組特徵向量和特徵值。

5 奇異值分解

奇異值分解顧名思義,將矩陣分解為奇異向量和奇異值。通過奇異值分解我們會得到與特徵分解相同型別的資訊。

系列文章

參考文獻

  • [1] Ian Goodfellow, Yoshua Bengio. Deep Learning. MIT Press. 2016.
  • [2] 焦李成等. 深度學習、優化與識別. 清華大學出版社. 2017.
  • [3] 佩德羅·多明戈斯. 終極演算法-機器學習和人工智慧如何重塑世界. 中信出版社. 2018.
  • [4] 雷.庫茲韋爾. 人工智慧的未來-揭示人類思維的奧祕. 浙江人民出版社. 2016.