矩陣求導（一）

矩陣求導術（上）

矩陣求導的技術，在統計學、控制論、機器學習等領域有廣泛的應用。鑑於我看過的一些資料或言之不詳、或繁亂無緒，本文來做個科普，分作兩篇，上篇講標量對矩陣的求導術，下篇講矩陣對矩陣的求導術。本文使用小寫字母x表示標量，粗體小寫字母x 表示向量，大寫字母X表示矩陣。

首先來琢磨一下定義，標量f對矩陣X的導數，定義為

∂f∂X:=[∂f∂Xij]即f對X逐元素求導排成與X尺寸相同的矩陣。然而，這個定義在計算中並不好用，實用上的原因是在對較複雜的函式難以逐元素求導；哲理上的原因是逐元素求導破壞了整體性。試想，為何要將f看做矩陣X而不是各元素Xij的函式呢？答案是用矩陣運算更整潔。所以在求導時不宜拆開矩陣，而是要找一個從整體出發的演算法。為此，我們來回顧，一元微積分中的導數（標量對標量的導數）與微分有聯絡：d

f=f′(x)dx；多元微積分中的梯度（標量對向量的導數）也與微分有聯絡：df=∑i∂f∂xidxi=∂f∂xTdx這裡第一個等號是全微分公式，第二個等號表達了梯度∂f∂x與微分的聯絡；受此啟發，我們將矩陣導數與微分建立聯絡：df=∑i,j∂f∂XijdXij=tr(∂f∂XTdX)這裡tr代表跡(trace)是方陣對角線元素之和，滿足性質：對尺寸相同的矩陣A,B，tr(ATB)=∑i,jAijBij，這用泛函分析的語言來說tr(ATB)是矩陣A,B的內積，因此上式與原定義相容。

然後來建立運演算法則。回想遇到較複雜的一元函式如f=log(2+sinx)ex√，我們是如何求導的呢？通常不是從定義開始求極限，而是先建立了初等函式求導和四則運算、複合等法則，再來運用這些法則。故而，我們來創立常用的矩陣微分的運演算法則：

加減法：d(X±Y)=dX±dY；矩陣乘法：d(XY)=dXY+XdY；轉置：d(XT)=(dX)T；跡：dtr(X)=tr(dX)。
逆：dX−1=−X−1dXX−1。此式可在XX−1=I兩側求微分來證明。
行列式：d|X|=tr(X#dX)，其中X#表示X的伴隨矩陣，在X可逆時又可以寫作d|X|=|X|tr(X−1dX)。此式可用Laplace展開來證明，詳見張賢達《矩陣分析與應用》第279頁。
逐元素乘法：d(X⊙Y)=dX⊙Y+X⊙dY，⊙表示尺寸相同的矩陣X,Y逐元素相乘。
逐元素函式：dσ(X)=σ′(X)⊙dX，σ(X)=[σ(Xij)

]是逐元素運算的標量函式。

我們試圖利用矩陣導數與微分的聯絡df=tr(∂f∂XTdX)，在求出左側的微分df後，該如何寫成右側的形式並得到導數呢？這需要一些跡技巧(trace trick)：

標量套上跡：a=tr(a)。
轉置：tr(AT)=tr(A)。
線性：tr(A±B)=tr(A)±tr(B)。
矩陣乘法交換：tr(AB)=tr(BA)。兩側都等於

矩陣求導（一）

矩陣求導（下）——矩陣對矩陣的求導

矩陣求導（上）——標量對矩陣的求導

(PAT乙級)一元多項式求導（Python）

矩陣基礎知識（一）

PAT——乙級1010 一元多項式求導（格式）

gemm() 與 gesvd() 到矩陣求逆（inverse）(根據 SVD 分解和矩陣乘法求矩陣的逆)

1010 一元多項式求導（~scanf）

用連結串列實現一元多項式加減、求導（Java）

基於Cuda的幾種並行稀疏矩陣乘法方法（一）

矩陣求導學習筆記（一）

矩陣求導術（上）

（Math）矩陣求導

Excel數據導入___你hold住麽（一）

Java導出txt模板——（一）

Spring思維導圖（一）

小程序思維導圖（一）

matlab矩陣（一）--如何控制矩陣中小數點的位數

PTA 數據結構一元多項式求導（僅供參考）

最短路徑算法（一）——求出路徑長度 (^__^) 嘻嘻……

矩陣求導（一）

相關推薦