【深度學習】一文讀懂機器學習常用損失函數（Loss Function）

阿新 • • 發佈：2018-06-23

back and 們的 wiki 導出歐氏距離 classes 自變量關於

最近太忙已經好久沒有寫博客了，今天整理分享一篇關於損失函數的文章吧，以前對損失函數的理解不夠深入，沒有真正理解每個損失函數的特點以及應用範圍，如果文中有任何錯誤，請各位朋友指教，謝謝~

　　損失函數（loss function）是用來估量模型的預測值f(x)與真實值Y的不一致程度，它是一個非負實值函數,通常使用L(Y, f(x))來表示，損失函數越小，模型的魯棒性就越好。損失函數是經驗風險函數的核心部分，也是結構風險函數重要組成部分。模型的結構風險函數包括了經驗風險項和正則項，通常可以表示成如下式子：

技術分享圖片

　　其中，前面的均值函數表示的是經驗風險函數，L代表的是損失函數，後面的 $Φ$

是正則化項（regularizer）或者叫懲罰項（penalty term），它可以是L1，也可以是L2，或者其他的正則函數。整個式子表示的意思是找到使目標函數最小時的 $θ$ 。下面主要列出幾種常見的損失函數。

$Φ$

一、LogLoss對數損失函數（邏輯回歸，交叉熵損失

）

　　有些人可能覺得邏輯回歸的損失函數就是平方損失，其實並不是。平方損失函數可以通過線性回歸在假設樣本是高斯分布的條件下推導得到，而邏輯回歸得到的並不是平方損失。在邏輯回歸的推導中，它假設樣本服從伯努利分布（0-1分布），然後求得滿足該分布的似然函數，接著取對數求極值等等。而邏輯回歸並沒有求似然函數的極值，而是把極大化當做是一種思想，進而推導出它的經驗風險函數為：最小化負的似然函數（即max F(y, f(x)) —> min -F(y, f(x)))。從損失函數的視角來看，它就成了log損失函數了。

log損失函數的標準形式：

技術分享圖片

　　剛剛說到，取對數是為了方便計算極大似然估計，因為在MLE（最大似然估計）中，直接求導比較困難，所以通常都是先取對數再求導找極值點。損失函數L(Y, P(Y|X))表達的是樣本X在分類Y的情況下，使概率P(Y|X)達到最大值（換言之，就是利用已知的樣本分布，找到最有可能（即最大概率）導致這種分布的參數值；或者說什麽樣的參數才能使我們觀測到目前這組數據的概率最大

）。因為log函數是單調遞增的，所以logP(Y|X)也會達到最大值，因此在前面加上負號之後，最大化P(Y|X)就等價於最小化L了。

　　邏輯回歸的P(Y=y|x)表達式如下（為了將類別標簽y統一為1和0，下面將表達式分開表示）：

技術分享圖片

　　將它帶入到上式，通過推導可以得到logistic的損失函數表達式，如下：

技術分享圖片

　　邏輯回歸最後得到的目標式子如下：

J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \log h_{θ} (x^{(i)}) + (1 - y^{(i)}) \log (1 - h_{θ} (x^{(i)}))]

　　上面是針對二分類而言的。這裏需要解釋一下：之所以有人認為邏輯回歸是平方損失，是因為在使用梯度下降來求最優解的時候，它的叠代式子與平方損失求導後的式子非常相似，從而給人一種直觀上的錯覺。

這裏有個PDF可以參考一下：Lecture 6: logistic regression.pdf.

　　註意：softmax使用的即為交叉熵損失函數，binary_cossentropy為二分類交叉熵損失，categorical_crossentropy為多分類交叉熵損失，當使用多分類交叉熵損失函數時，標簽應該為多分類模式，即使用one-hot編碼的向量。

二、平方損失函數（最小二乘法, Ordinary Least Squares ）

　　最小二乘法是線性回歸的一種，最小二乘法（OLS）將問題轉化成了一個凸優化問題。在線性回歸中，它假設樣本和噪聲都服從高斯分布（為什麽假設成高斯分布呢？其實這裏隱藏了一個小知識點，就是中心極限定理，可以參考【central limit theorem】），最後通過極大似然估計（MLE）可以推導出最小二乘式子。最小二乘的基本原則是：最優擬合直線應該是使各點到回歸直線的距離和最小的直線，即平方和最小。換言之，OLS是基於距離的，而這個距離就是我們用的最多的歐幾裏得距離。為什麽它會選擇使用歐式距離作為誤差度量呢（即Mean squared error， MSE），主要有以下幾個原因：

簡單，計算方便；
歐氏距離是一種很好的相似性度量標準；
在不同的表示域變換後特征性質不變。

平方損失（Square loss）的標準形式如下：

L (Y, f (X)) = (Y - f (X))^{2}

當樣本個數為n時，此時的損失函數變為：

技術分享圖片

Y-f(X)表示的是殘差，整個式子表示的是殘差的平方和，而我們的目的就是最小化這個目標函數值（註：該式子未加入正則項），也就是最小化殘差的平方和（residual sum of squares，RSS）。

而在實際應用中，通常會使用均方差（MSE）作為一項衡量指標，公式如下：

M S E = \frac{1}{n} \sum_{i = 1}^{n} (\tilde{Y_{i}} - Y_{i})^{2}

上面提到了線性回歸，這裏額外補充一句，我們通常說的線性有兩種情況，一種是因變量y是自變量x的線性函數，一種是因變量y是參數 $α$

三、指數損失函數（Adaboost）

學過Adaboost算法的人都知道，它是前向分步加法算法的特例，是一個加和模型，損失函數就是指數函數。在Adaboost中，經過m此叠代之後，可以得到 $f_{m} (x)$

技術分享圖片

Adaboost每次叠代時的目的是為了找到最小化下列式子時的參數 $α$

技術分享圖片

而指數損失函數（exp-loss）的標準形式如下

技術分享圖片

可以看出，Adaboost的目標式子就是指數損失，在給定n個樣本的情況下，Adaboost的損失函數為：

技術分享圖片

關於Adaboost的推導，可以參考Wikipedia：AdaBoost或者《統計學習方法》P145.

四、Hinge損失函數（SVM）

在機器學習算法中，hinge損失函數和SVM是息息相關的。在線性支持向量機中，最優化問題可以等價於下列式子：

技術分享圖片

下面來對式子做個變形，令：

技術分享圖片

於是，原式就變成了：

技術分享圖片

如若取 $λ = \frac{1}{2 C}$

$λ = \frac{1}{2 C}$

前半部分中的 $l$

Hinge 損失函數的標準形式

$α$

更多內容，參考Hinge-loss。

補充一下：在libsvm中一共有4中核函數可以選擇，對應的是-t參數分別是：

0-線性核；
1-多項式核；
2-RBF核；
3-sigmoid核。

五、其它損失函數

除了以上這幾種損失函數，常用的還有：

0-1損失函數

技術分享圖片

絕對值損失函數

技術分享圖片

下面來看看幾種損失函數的可視化圖像，對著圖看看橫坐標，看看縱坐標，再看看每條線都表示什麽損失函數，多看幾次好好消化消化。

技術分享圖片

六、Keras / TensorFlow 中常用 Cost Function 總結

mean_squared_error或mse
mean_absolute_error或mae
mean_absolute_percentage_error或mape
mean_squared_logarithmic_error或msle
squared_hinge
hinge
categorical_hinge
binary_crossentropy（亦稱作對數損失，logloss）
logcosh
categorical_crossentropy：亦稱作多類的對數損失，註意使用該目標函數時，需要將標簽轉化為形如(nb_samples, nb_classes)的二值序列
sparse_categorical_crossentrop：如上，但接受稀疏標簽。註意，使用該函數時仍然需要你的標簽與輸出值的維度相同，你可能需要在標簽數據上增加一個維度：np.expand_dims(y,-1)
kullback_leibler_divergence:從預測值概率分布Q到真值概率分布P的信息增益,用以度量兩個分布的差異.
poisson：即(predictions - targets * log(predictions))的均值
cosine_proximity：即預測值與真實標簽的余弦距離平均值的相反數

　　需要記住的是：參數越多，模型越復雜，而越復雜的模型越容易過擬合。過擬合就是說模型在訓練數據上的效果遠遠好於在測試集上的性能。此時可以考慮正則化，通過設置正則項前面的hyper parameter，來權衡損失函數和正則項，減小參數規模，達到模型簡化的目的，從而使模型具有更好的泛化能力。

【深度學習】一文讀懂機器學習常用損失函數（Loss Function）

back and 們的 wiki 導出歐氏距離 classes 自變量關於最近太忙已經好久沒有寫博客了，今天整理分享一篇關於損失函數的文章吧，以前對損失函數的理解不夠深入，沒有真正理解每個損失函數的特點以及應用範圍，如果文中有任何錯誤，請各位朋友指教，謝謝~

【深度學習】一文讀懂機器學習常用損失函數（Loss Function）

一、LogLoss對數損失函數（邏輯回歸，交叉熵損失

）

二、平方損失函數（最小二乘法, Ordinary Least Squares ）

三、指數損失函數（Adaboost）

四、Hinge損失函數（SVM）

五、其它損失函數

六、Keras / TensorFlow 中常用 Cost Function 總結

【深度學習】一文讀懂機器學習常用損失函數（Loss Function）

【機器學習】一文讀懂機器學習常用損失函式

【機器學習】一文讀懂分類演算法常用評價指標

【智慧物流】一文讀懂自動化立體倉庫

【Java基本功】一文讀懂String及其包裝類的實現原理

【Java基本功】一文讀懂final關鍵字的用法

一文讀懂機器學習、資料科學、深度學習和統計學之間的區別

一文讀懂機器學習大殺器XGBoost原理

[轉]機器學習科普文章：“一文讀懂機器學習，大資料/自然語言處理/演算法全有了”

獨家總結 | 一文讀懂機器學習的“發展歷程” (時間歷程，詳細又充實！)

一文讀懂機器學習，大資料/自然語言處理/演算法全有了……

一文讀懂如何用python呼叫matlab函式（windows環境）

一文讀懂執行緒池的工作原理（故事白話文）

【支付】一文讀懂支付清算

【CNN】一文讀懂卷積神經網路CNN

【晶片】一文讀懂：真實的中國晶片產業

一文讀懂監督學習、無監督學習、半監督學習、強化學習這四種深度學習方式

【乾貨合集】一文讀懂特徵工程

獨家 | 一文讀懂整合學習（附學習資源）

【科普雜談】一文看懂大資料的技術生態圈，Hadoop，hive，spark都有了

【深度學習】一文讀懂機器學習常用損失函數（Loss Function）

一、LogLoss對數損失函數（邏輯回歸，交叉熵損失 ）

二、平方損失函數（最小二乘法, Ordinary Least Squares ）

三、指數損失函數（Adaboost）

四、Hinge損失函數（SVM）

五、其它損失函數

六、Keras / TensorFlow 中常用 Cost Function 總結

相關推薦

一、LogLoss對數損失函數（邏輯回歸，交叉熵損失

）