均方誤差和交叉熵損失函數比較

阿新 • • 發佈：2018-09-15

誤差針對很多部分 spa ror 反向傳播激活能夠

一.前言

在做神經網絡的訓練學習過程中，一開始，經常是喜歡用二次代價函數來做損失函數，因為比較通俗易懂，後面在大部分的項目實踐中卻很少用到二次代價函數作為損失函數，而是用交叉熵作為損失函數。為什麽？一直在思考這個問題，這兩者有什麽區別，那個更好？下面通過數學的角度來解釋下。思考：我們希望我們損失函數能夠做到，當我們預測的值跟目標值越遠時，在修改參數時候，減去一個更大的值，做到更加快速的下降。

二.兩種代價函數的表達式

二次代價損失函數：

交叉熵損失函數：

針對二分類來說，其中：技術分享圖片

ai第Xi個樣本經過前向傳播之後到達最後一個節點的值

三.收斂速度比較

兩個函數反向傳播梯度比較 1.二次代價函數為了方便只取一個樣本，那麽損失為: 技術分享圖片

那麽w,b的梯度為：技術分享圖片

2.交叉熵為了方便只取一個樣本,損失為：技術分享圖片

計算w,b的梯度：

分析和結論由此可看出，在做後向傳播時 1.對於square mean在更新w，b時候，w,b的梯度跟激活函數的梯度成正比，激活函數梯度越大，w,b調整就越快，訓練收斂就越快，但是Simoid函數在值非常高時候，梯度是很小的，比較平緩。 2.對於cross entropy在更新w,b時候，w,b的梯度跟激活函數的梯度沒有關系了，bz已經表抵消掉了，其中bz-y表示的是預測值跟實際值差距，如果差距越大，那麽w,b調整就越快，收斂就越快。

四.兩個損失函數的函數圖像

square mean：技術分享圖片

交叉熵：

(這兩個圖是從吳恩達課程中截取出來的)可以看出，二次代價函數存在很多局部最小點，而交叉熵就不會。附錄： simoid函數的導數：技術分享圖片

參考： 1.https://blog.csdn.net/qikaihuting/article/details/78518263 2.https://stackoverflow.com/questions/36515202/why-is-the-cross-entropy-method-preferred-over-mean-squared-error-in-what-cases

均方誤差和交叉熵損失函數比較

誤差針對很多部分 spa ror 反向傳播激活能夠一.前言在做神經網絡的訓練學習過程中，一開始，經常是喜歡用二次代價函數來做損失函數，因為比較通俗易懂，後面在大部分的項目實踐中卻很少用到二次代價函數作為損失函數，而是用交叉熵作為損失函數。為什麽？一直在

均方誤差和交叉熵損失函數比較

一.前言

二.兩種代價函數的表達式

三.收斂速度比較

四.兩個損失函數的函數圖像

均方誤差和交叉熵損失函數比較

談談交叉熵損失函數

最大似然損失和交叉熵損失函式的聯絡

softmax函式和交叉熵損失函式的理解

svm損失和交叉熵損失

2線性分類器基本原理-2.3線性分類器之SoftMax和交叉熵損失(Cross-Entropy)

神經網路經典損失函式-交叉熵和均方誤差

交叉熵損失函式和均方誤差損失函式

為何邏輯回歸的損失函式是用交叉熵而非均方誤差?

直觀理解為什麼分類問題用交叉熵損失而不用均方誤差損失?

損失函數之交叉熵

TensorFlow筆記-06-神經網絡優化-損失函數,自定義損失函數,交叉熵

Python和PyTorch對比實現多標籤softmax + cross-entropy交叉熵損失及反向傳播

迴歸評價指標：均方誤差根（RMSE）和R平方（R2）

經典損失函式——均方誤差(MSE)

均方誤差(MSE)和均方根誤差(RMSE)和平均絕對誤差(MAE)

『cs231n』限制性分類器損失函數和最優化

激活函數和損失函數

Minimum Mean Squared Error (MMSE)最小均方誤差

機器學習損失函數(Loss/Error Function)、代價函數(Cost Function)和目標函數(Objective function)

均方誤差和交叉熵損失函數比較

一.前言

二.兩種代價函數的表達式

三.收斂速度比較

四.兩個損失函數的函數圖像

相關推薦