交叉熵損失與均方誤差損失

常規分類網路最後的softmax層如下圖所示，傳統機器學習方法以此類比，

一共有$K$類，令網路的輸出為$[\hat{y}_1,\dots, \hat{y}_K]$，對應每個類別的概率，令label為 $[y_1, \dots, y_K]$。對某個屬於$p$類的樣本，其label中$y_p=1$，$y_1, \dots, y_{p-1}, y_{p+1}, \dots, y_K$均為0。

對這個樣本，交叉熵（cross entropy）損失為
\[ \begin{aligned}L &= - (y_1 \log \hat{y}_1 + \dots + y_K \log \hat{y}_K) \\&= -y_p \log \hat{y}_p \\ &= - \log \hat{y}_p\end{aligned} \]
均方誤差損失（mean squared error，MSE）為
\[ \begin{aligned}L &= (y_1 - \hat{y}_1)^2 + \dots + (y_K - \hat{y}_K)^2 \\&= (1 - \hat{y}_p)^2 + (\hat{y}_1^2 + \dots + \hat{y}_{p-1}^2 + \hat{y}_{p+1}^2 + \dots + \hat{y}_K^2)\end{aligned} \]

則$m$個樣本的損失為
\[ \ell = \frac{1}{m} \sum_{i=1}^m L_i \]
對比交叉熵損失與均方誤差損失，只看單個樣本的損失即可，下面從兩個角度進行分析。

損失函式角度

損失函式是網路學習的指揮棒，它引導著網路學習的方向——能讓損失函式變小的引數就是好引數。

所以，損失函式的選擇和設計要能表達你希望模型具有的性質與傾向。

對比交叉熵和均方誤差損失，可以發現，兩者均在$\hat{y} = y = 1$時取得最小值0，但在實踐中$\hat{y}_p$只會趨近於1而不是恰好等於1，在$\hat{y}_p < 1$的情況下，

交叉熵只與label類別有關，$\hat{y}_p$越趨近於1越好

均方誤差不僅與$\hat{y}_p$有關，還與其他項有關，它希望$\hat{y}_1, \dots, \hat{y}_{p-1}, \hat{y}_{p+1}, \dots, \hat{y}_K$越平均越好，即在$\frac{1-\hat{y}_p}{K-1}$時取得最小值

分類問題中，對於類別之間的相關性，我們缺乏先驗。

雖然我們知道，與“狗”相比，“貓”和“老虎”之間的相似度更高，但是這種關係在樣本標記之初是難以量化的，所以label都是one hot。

在這個前提下，均方誤差損失可能會給出錯誤的指示，比如貓、老虎、狗的3分類問題，label為$[1, 0, 0]$，在均方誤差看來，預測為$[0.8, 0.1, 0.1]$要比$[0.8, 0.15, 0.05]$要好，即認為平均總比有傾向性要好，但這有悖我們的常識。

而對交叉熵損失，既然類別間複雜的相似度矩陣是難以量化的，索性只能關注樣本所屬的類別，只要$\hat{y}_p$越接近於1就好，這顯示是更合理的。

softmax反向傳播角度

softmax的作用是將$(-\infty, +\infty)$的幾個實數對映到$(0,1)$之間且之和為1，以獲得某種概率解釋。

令softmax函式的輸入為$z$，輸出為$\hat{y}$，對結點$p$有，
\[ \hat{y}_p = \frac{e^{z_p}}{\sum_{k=1}^K e^{z_k}} \]
$\hat{y}_p$不僅與$z_p$有關，還與$\{z_k | k\neq p\}$有關，這裡僅看$z_p $，則有
\[ \frac{\partial \hat{y}_p}{\partial z_p} = \hat{y}_p(1-\hat{y}_p) \]
$\hat{y}_p$為正確分類的概率，為0時表示分類完全錯誤，越接近於1表示越正確。根據鏈式法則，按理來講，對與$z_p$相連的權重，損失函式的偏導會含有$\hat{y}_p(1-\hat{y}_p)$這一因子項，$\hat{y}_p = 0$時分類錯誤，但偏導為0，權重不會更新，這顯然不對——分類越錯誤越需要對權重進行更新。

對交叉熵損失，
\[ \frac{\partial L}{\partial \hat{y}_p} = -\frac{1}{\hat{y}_p} \]
則有
\[ \frac{\partial L}{\partial \hat{z}_p} = \frac{\partial L}{\partial \hat{y}_p} \cdot \frac{\partial \hat{y}_p}{\partial z_p} = \hat{y}_p - 1 \]
恰好將$\hat{y}_p(1-\hat{y}_p)$中的$\hat{y}_p$消掉，避免了上述情形的發生，且$\hat{y}_p$越接近於1，偏導越接近於0，即分類越正確越不需要更新權重，這與我們的期望相符。

而對均方誤差損失，
\[ \frac{\partial L}{\partial \hat{y}_p} = -2(1-\hat{y}_p)=2(\hat{y}_p - 1) \]
則有，
\[ \frac{\partial L}{\partial \hat{z}_p} = \frac{\partial L}{\partial \hat{y}_p} \cdot \frac{\partial \hat{y}_p}{\partial z_p} = -2 \hat{y}_p (1 - \hat{y}_p)^2 \]
顯然，仍會發生上面所說的情況——$\hat{y}_p = 0$，分類錯誤，但不更新權重。

綜上，對分類問題而言，無論從損失函式角度還是softmax反向傳播角度，交叉熵都比均方誤差要好。

參考

Loss Functions
Why You Should Use Cross-Entropy Error Instead Of Classification Error Or Mean Squared Error For Neural Network Classifier Training

相關推薦

直觀理解為什麼分類問題用交叉熵損失而不用均方誤差損失?

目錄交叉熵損失與均方誤差損失損失函式角度 softmax反向傳播角度參考部落格：blog.shinelee.me | 部落格園 | CSDN 交叉熵損失與均方誤差損失常

交叉熵損失函式和均方誤差損失函式

交叉熵分類問題中，預測結果是（或可以轉化成）輸入樣本屬於n個不同分類的對應概率。比如對於一個4分類問題，期望輸出應該為 g0=[0,1,0,0] ，實際輸出為 g1=[0.2,0.4,0.4,0] ，計算g1與g0之間的差異所使用的方法，就是損失函式，分類問題中常用損

為何邏輯回歸的損失函式是用交叉熵而非均方誤差?

為何邏輯回歸的損失函式是用交叉熵而非均方誤差? 前言邏輯回歸的損失函式推導使用均方誤差，會出現多個區域性最小值? 圖形 CrossEntropyCost MeanSquareCost 其它例

分類問題為什麼選擇交叉熵二不使用均方差

通俗的說：一般我們使用平方差作為損失函式，（y^'-y）^2作為損失函式，這種損失函式在進行梯度下降計算的時候會出現梯度彌散，導致學習速率下降，使用交叉熵作為損失函式可以很好的解決這個問題。解釋：均方差正態分佈在訓練神經網路中，使用分類錯誤率或是均方差往往會丟

為什麼用交叉熵作為損失函式

交叉熵(cross entropy)經常用來做機器學習中的損失函式。要講交叉熵就要從最基本的資訊熵說起。 1.資訊熵資訊熵是消除不確定性所需資訊量的度量。（多看幾遍這句話）資訊熵就是資訊的不確定程度，資訊熵越小，資訊越確定。信息熵=∑x=1n(信息x發生

均方誤差和交叉熵損失函數比較

誤差針對很多部分 spa ror 反向傳播激活能夠一.前言在做神經網絡的訓練學習過程中，一開始，經常是喜歡用二次代價函數來做損失函數，因為比較通俗易懂，後面在大部分的項目實踐中卻很少用到二次代價函數作為損失函數，而是用交叉熵作為損失函數。為什麽？一直在

交叉熵以及為什麼用交叉熵作為代價函式

作者：知乎使用者來源：知乎著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。熵的本質是夏農資訊量()的期望。現有關於樣本集的2個概率分佈p和q，其中p為真實分佈，q非真實分佈。按照真實分佈p來衡量識別一個樣本的所需要的編碼長度的期望(即平均編碼長度)為：H(

神經網路經典損失函式-交叉熵和均方誤差

在神經網路中，如何判斷一個輸出向量和期望的向量有多接近呢？交叉熵（cross entropy）是常用的方法之一，刻畫了兩個概率分佈之間的距離，是分類問題中使用較多的一種損失函式。給定兩個概率分佈p和q，通過q來表示p的交叉熵為：如何將神經網路前向傳播

為什麽用微信聊天而不用QQ

讓其微信公眾原因手機吸引個人就會發送不想有一部分歷史原因：從幾年前就開始用微信聊天了，同時那時也被微信公眾號和裏面的各種文章吸引，所以一般也習慣用微信了；另外QQ是自己最早開始用的，那時剛開始上網，什麽都不懂，加好友時亂加一氣。在網上看到過一句話：不怕神一

談談用SQLite和FMDB而不用Core Data

憑良心講，我不能告訴你不去使用Core Data。它不錯，而且也在變好，並且它被很多其他Cocoa開發者所理解，當有新人加入你的組或者需要別人接手你的專案的時候，這點很重要。更重要的是，不值得花時間和精力去寫自己的系統去代替它。真的，使用Core Data吧。

經典損失函式——均方誤差(MSE)

與分類問題不同，迴歸問題解決的是對具體數值的預測，eg：房價預測，銷量預測，流量預測等均方誤差的定義：均方誤差#y代表輸出答案，y_代表標準答案 mse=tf.reduce_mean(tf.square(y_-y))但在實際問題中往往均方誤差並不能很好的表達問題，比如預測銷量

[ch03-01] 均方差損失函式

系列部落格，原文在筆者所維護的github上：https://aka.ms/beginnerAI，點選star加星不要吝嗇，星越多筆者越努力。 3.1 均方差函式 MSE - Mean Square Error。該函式就是最直觀的一個損失函數了，計算預測值和真實值之間的歐式距離。預測值和真實值越接近，兩者

softmax函式和交叉熵損失函式的理解

Softmax函式背景與定義在Logistic regression二分類問題中，我們可以使用sigmoid函式將輸入Wx+bWx+b對映到(0,1)(0,1)區間中，從而得到屬於某個類別的概率。將這個問題進行泛化，推廣到多分類問題中，我們可以使用softmax函式，對輸出的

神經網路多分類任務的損失函式——交叉熵

神經網路解決多分類問題最常用的方法是設定n個輸出節點，其中n為類別的個數。對於每一個樣例，神經網路可以得到的一個n維陣列作為輸出結果。陣列中的每一個維度（也就是每一個輸出節點）對應一個類別。在理想情況下，如果一個樣本屬於類別k，那麼這個類別所對應的輸出節點的輸出值應該為1，而其他節點的輸出都為0。

理解交叉熵作為損失函式在神經網路中的作用

交叉熵的作用通過神經網路解決多分類問題時，最常用的一種方式就是在最後一層設定n個輸出節點，無論在淺層神經網路還是在CNN中都是如此，比如，在AlexNet中最後的輸出層有1000個節點：而即便是ResNet取消了全連線層，也會在最後有一個1000個節

2線性分類器基本原理-2.3線性分類器之SoftMax和交叉熵損失(Cross-Entropy)

影象分類器模型的整體結構：交叉熵（Cross-Entropy）損失和 SoftMax SVM是最常用的兩個分類器之一，而另一個就是Softmax分類器，它的損失函式與SVM損失函式不同。對於學習過二元邏輯迴歸分類器的讀者來說，SoftMax分類器就可

理解交叉熵(cross_entropy)作為損失函式在神經網路中的作用

交叉熵的作用通過神經網路解決多分類問題時，最常用的一種方式就是在最後一層設定n個輸出節點，無論在淺層神經網路還是在CNN中都是如此，比如，在AlexNet中最後的輸出層有1000個節點：而即便是ResNet取消了全連線層，也會在最後有一個1000個節點的輸出層：一般情況下

理解交叉熵損失（Cross-Entropy）

理解交叉熵損失字符集編碼字符集編碼的意義在於將資料集進行有效壓縮。假設在一個文件中只出現了a、b、c、d、e 5種字元，其佔比如下表：字元 a b c d e 佔比 0.1 0.1 0.2

深度學習中softmax交叉熵損失函式的理解

1. softmax層的作用通過神經網路解決多分類問題時，最常用的一種方式就是在最後一層設定n個輸出節點，無論在淺層神經網路還是在CNN中都是如此，比如，在AlexNet中最後的輸出層有1000個節點，即便是ResNet取消了全連線層，但1000個節點的輸出

自己動手實現深度學習框架-4 使用交叉熵損失函式支援分類任務

程式碼倉庫: https://github.com/brandonlyg/cute-dl 目標增加交叉熵損失函式，使框架能夠支援分類任務的模型。構建一個MLP模型, 在mnist資料集上執行分類任務準確率達到91%。實現交叉熵損失函式數學原理分解交叉熵損失函式 &n

直觀理解為什麼分類問題用交叉熵損失而不用均方誤差損失?

交叉熵損失與均方誤差損失

損失函式角度

softmax反向傳播角度

參考

相關推薦