正文

在大多數教程中, softmax 和 cross-entropy 總是一起出現, 求梯度的時候也是一起考慮. 我們來看看為什麼.

關於 softmax 和 cross-entropy 的梯度的求導過程, 已經在上面的兩篇文章中分別給出, 這裡將他們放在一起看看.

1. 題目

考慮一個輸入向量 X, 經 softmax 函式歸一化處理後得到向量 S 作為預測的概率分佈, 已知向量 Y 為真實的概率分佈, 由 cross-entropy 函式計算得出損失值 L (標量), 求 L 關於 X 的梯度. $X = (x_{1}, x_{2}, x_{3}, \dots , x_{k}) Y = (y_{1}, y$

2,y3,⋯ ,yk)S=(s1,s2,s3,⋯ ,sk)=softmax(X)si=exi∑t=1kextl=crossEntropy(S,Y)=−∑i=1kyilog(si) \quad\\ X = (x_1, x_2, x_3, \cdots, x_k)\\ \quad\\ Y = (y_1, y_2, y_3, \cdots, y_k)\\ \quad\\ S = (s_1, s_2, s_3, \cdots,s_k) = softmax(X)\\ \quad\\ s_{i} = \frac{e^{x_{i}}}{ \sum_{t = 1}^{k}e^{x_{t}}} \\ \quad\\ l = crossEntropy(S, Y) = -\sum_{i = 1}^{k}y_{i}log(s_{i})\\

X = (x_{1}, x_{2}, x_{3}, \dots, x_{k}) Y = (y_{1}, y_{2}, y_{3}, \dots, y_{k}) S = (s_{1}, s_{2}, s_{3}, \dots, s_{k}) = s o f t m a x (X) s_{i} = \sum _{t = 1}^{k} e ^{x_{t}} e ^{x_{i}} l = c r o s s E n t r o p y (S, Y) = - i = 1 \sum k y_{i} l o g (s_{i})

已知 :

\frac{\partial l}{\partial S} =(\frac{\partial l}{\partial s_{1}},\frac{\partial l}{\partial s_{2}}, \cdots, \frac{\partial l}{\partial s_{k}}) =( -\frac{y_1}{s_1}, -\frac{y_2}{s_2},\cdots,-\frac{y_k}{s_k}) \\ \quad\\ \triangledown S= \frac{\partial S}{\partial X}= \begin{pmatrix} \partial s_{1}/\partial x_{1}&amp;\partial s_{1}/\partial x_{2}&amp; \cdots&amp;\partial s_{1}/\partial x_{k}\\ \partial s_{2}/\partial x_{1}&amp;\partial s_{2}/\partial x_{2}&amp; \cdots&amp;\partial s_{2}/\partial x_{k}\\ \vdots &amp; \vdots &amp; \ddots &amp; \vdots \\ \partial s_{k}/\partial x_{1}&amp;\partial s_{k}/\partial x_{2}&amp; \cdots&amp;\partial s_{k}/\partial x_{k}\\ \end{pmatrix}= \begin{pmatrix} -s_{1}s_{1} + s_{1} &amp; -s_{1}s_{2} &amp; \cdots &amp; -s_{1}s_{k} \\ -s_{2}s_{1} &amp; -s_{2}s_{2} + s_{2} &amp; \cdots &amp; -s_{2}s_{k} \\ \vdots &amp; \vdots &amp; \ddots &amp; \vdots \\ -s_{k}s_{1} &amp; -s_{k}s_{2} &amp; \cdots &amp; -s_{k}s_{k} + s_{k} \end{pmatrix} \\ \quad\\ \triangledown S = (\triangledown S)^T

2. 求解過程 :

$\triangledown l = (\frac{\partial l}{\partial x_1},\frac{\partial l}{\partial x_2},\frac{\partial l}{\partial x_3}, \cdots ,\frac{\partial l}{\partial x_k}) \\ \quad\\ \frac{\partial l}{\partial x_i} = \frac{\partial l}{\partial s_1}\frac{\partial s_1}{\partial x_i} +\frac{\partial l}{\partial s_2}\frac{\partial s_2}{\partial x_i} +\frac{\partial l}{\partial s_3}\frac{\partial s_3}{\partial x_i} + \cdots +\frac{\partial l}{\partial s_k}\frac{\partial s_k}{\partial x_i}\\ \quad\\ \triangledown l = (\triangledown S)^T \cdot \frac{\partial l}{\partial S} = \triangledown S \cdot \frac{\partial l}{\partial S}$

softmax + cross-entropy交叉熵損失函式詳解及反向傳播中的梯度求導

相關

正文

1. 題目

2. 求解過程 :

softmax + cross-entropy交叉熵損失函式詳解及反向傳播中的梯度求導

Python和PyTorch對比實現多標籤softmax + cross-entropy交叉熵損失及反向傳播

softmax交叉熵損失函式求導

softmax交叉熵損失函式反向傳播求導過程分析

在深度學習中Softmax交叉熵損失函式的公式求導

softmax函式和交叉熵損失函式的理解

Softmax 以及交叉熵損失函式的求導

深度學習中softmax交叉熵損失函式的理解

Tensorflow 兩個交叉熵損失函式的區別

最大似然損失和交叉熵損失函式的聯絡

交叉熵損失函式及Tensorflow實現

【Kaggle-MNIST之路】CNN結構再改進+交叉熵損失函式（六）

TensorFlow學習筆記（二十三）四種Cross Entropy交叉熵演算法實現和應用

交叉熵損失函式

【深度學習原理】交叉熵損失函式的實現

簡單的交叉熵損失函式，你真的懂了嗎？

nerualnetworkanddeeplearning學習_交叉熵損失函式

談一談交叉熵損失函式

交叉熵損失函式和均方誤差損失函式

[ch03-02] 交叉熵損失函式

softmax + cross-entropy交叉熵損失函式詳解及反向傳播中的梯度求導

相關

正文

1. 題目

2. 求解過程 :

相關推薦