神經網路中矩陣求導術的應用

阿新 • • 發佈：2018-12-14

序

本文假設讀者熟悉一元微積分，線性代數，並已經學習過矩陣求導術：知乎專欄. 在神經網路中，矩陣求導術發揮的最重要的作用便是求 $loss$ 對某個引數的梯度. 比如在多層神經網路(MLP)中，某一層的推導公式為 $a^{l+1}=g(Wa^l+b)$ ，我們就需要求 $loss$ 對 $W$ 和 $b$ 的導數以更新它們. 然而， $W$ 是矩陣， $b$ 是向量， $loss$ 是標量，用一元微積分的方式很難求得 $W$ 和 $b$ 的梯度，尤其是有矩陣乘法運算和多層連線存在的時候. 這就迫切的需要應用矩陣求導術在神經網路中. 本文所做的就是在矩陣求導術的基礎上新增一些常用公式，並對知乎專欄中涉及不足的方面加深討論.

記法約定

本文以 $a$ 表示標量，以 $\bm{a}$ 表示列向量，以 $A$ 表示矩陣.
- 特殊的，以 $J$ 表示神經網路輸出和真實值間的 $loss$ ，為標量.
- 特殊的，以 $\bm{1}$ 或者 $\vec \bm{1}$ 表示元素全是1的列向量，列向量的維數在某題目中第一次出現時標明. 如果在題目剩餘部分未再次提及維數，則預設該題目中所有的 $\bm{1}$ 向量維數均相同，都等於第一次提及的維數.
- 特殊的，以 $I$ 表示單位矩陣.
本文以 $AB$ 表示矩陣 $A$ 和矩陣 $B$ 做矩陣乘法，以 $A\odot B$ 表示矩陣element-wise的乘法，也稱為逐元素乘法或Hadamard product

.
逐元素乘法和矩陣乘法屬同優先順序運算，不加括號的情況下從左到右進行.
本文以括號上標的形式表示神經網路中第 $l$ 層的變數，如 $a^{(l)}$ 表示網路第 $l$ 層的輸出.
本文統一以 $x$ 表示神經網路的輸入，雖然網路的輸入可能是向量也可能是矩陣（資料特徵維數是1時網路的輸入是向量）. 這裡的 $x$ 是一個batch的資料，一個batch的資料量記為 $N$ ，每條資料的特徵維數記為 $D$ ，由於本文約定每條資料都是列向量，因此 $x \in\bm{R}^{D\times N}$
上述約定在常用公式和定理部分嚴格遵循，在舉例中有些許不遵循，但會清楚地說明每個符號的維度.

常用公式和定理

標量向量求導法則: $df=\frac {\partial f}{\partial \bm{x}}^Td\bm{x}=tr(\frac {\partial f}{\partial \bm{x}}^Td\bm{x})$
標量矩陣求導法則: $df=tr(\frac {\partial f}{\partial{X}}^TdX)$
常數: $d\bm{c}=0, dC=0$ ，這裡 $\bm{c}$ 和 $C$ 是相對於求導變數為常數的項.
加減法： $d(X \pm Y)=d(X)\pm d(Y)$
乘法： $d(XY)=dXY+XdY$ , $d(X \odot Y)=dX\odot Y+X\odot d(Y)$
轉置和跡： $d(X^T)=(dX)^T,dtr(X)=tr(dX)$
逐元素函式: $df(X)=f'(X)\odot d(X)$
跡技巧： $tr(AB)=tr(BA),tr(A^T(B\odot C))=tr(A^T \odot B^TC)$
矩陣求導的複合法則：假設 $f=f(Y),Y=Y(X)$ ，已求得 $\frac{\partial f}{\partial Y}$ ，則求 $\frac{\partial f}{\partial X}$ 的方式是，利用標量矩陣求導法則，能夠寫出 $df=tr(\frac {\partial f}{\partial{Y}}^TdY)=tr(\frac {\partial f}{\partial{X}}^TdX)$ ，然後把 $dY$ 用 $dX$ 表示出來，代入上式消去 $dY$ ，並進行比對，得出 $\frac {\partial f}{\partial{X}}$ . 注意，本方法在中間變數是向量或自變數是向量或中間變數和自變數都是向量的情況下依然適用.
多元函式運演算法則:假設 $f=f(U,V),U=U(X),V=V(X)$ ，則 $\frac {\partial f}{\partial{X}}$ 應該是兩部分的和，第一部分是通過 $df=tr(\frac {\partial f}{\partial{U}}^TdU)=tr(\frac {\partial f}{\partial{X}}^TdX)$ 得到的，第二部分是通過 $df=tr(\frac {\partial f}{\partial{V}}^TdV)=tr(\frac {\partial f}{\partial{X}}^TdX)$ 得到的. 當中間變數變多時，該法則依然適用.
向量重複：由於numpy中的矩陣加法和逐元素乘法有broadcast的功能，因此numpy的加法和逐元素乘法並不要求兩個矩陣有完全相同的形狀，為了嚴謹的用數學公式表達，通常我們需要進行一些向量重複的技巧來彌補程式碼和公式之間的差異.
$\vec \bm 1與加和$ $\vec \bm 1^T_{m\times 1} X_{m\times n}$ 表示把 $X$ 按行相加，得到 $1\times n$ 的矩陣，程式碼如下:
```
import numpy as np
np.sum(X,axis=0)
```
同理， $X_{m\times n}\vec \bm 1_{n\times 1}$ 表示把 $X$ 按列相加，得到 $m\times 1$ 的矩陣，程式碼如下:
```
import numpy as np
np.sum(X,axis=1)
```

舉例

多層神經網路(MLP)的梯度推導
在MLP中，每個單元(cell)的推導公式我們一般寫作： $a^{(l)}=g(W^{(l)} a^{(l-1)}+b^{(l)})$

神經網路中矩陣求導術的應用

序

記法約定

常用公式和定理

舉例

多層神經網路(MLP)的梯度推導

神經網路中矩陣求導術的應用

矩陣求導術（上）

神經網路的反向傳播演算法中矩陣的求導方法(矩陣求導總結)

神經網路中交叉熵代價函式求導

AI應用開發基礎傻瓜書系列2-神經網路中反向傳播與梯度下降的基本概念

矩陣標準差在神經網路中的反向傳播以及數值微分梯度驗證

反向傳播演算法中的矩陣求導

機器學習線性迴歸中，用矩陣求導方法求最小二乘法的方法

矩陣求導

矩陣求導法則

線性迴歸矩陣求導

矩陣求導（下）——矩陣對矩陣的求導

矩陣求導（上）——標量對矩陣的求導

傳統神經網路中常用的regularization方法

矩陣求導例項

神經網路中隱層數和隱層節點數問題的討論

變形卷積核、可分離卷積？卷積神經網路中十大拍案叫絕的操作

2013-2018卷積神經網路中十個最重要的概念與創新

神經網路中訓練資料集、驗證資料集和測試資料集的區別

神經網路中的非線性啟用函式

神經網路中矩陣求導術的應用

序

記法約定

常用公式和定理

舉例

多層神經網路(MLP)的梯度推導

相關推薦