1. 程式人生 > >【深度學習】一文讀懂機器學習常用損失函數(Loss Function)

【深度學習】一文讀懂機器學習常用損失函數(Loss Function)

back and 們的 wiki 導出 歐氏距離 classes 自變量 關於

最近太忙已經好久沒有寫博客了,今天整理分享一篇關於損失函數的文章吧,以前對損失函數的理解不夠深入,沒有真正理解每個損失函數的特點以及應用範圍,如果文中有任何錯誤,請各位朋友指教,謝謝~

  損失函數(loss function)是用來估量模型的預測值f(x)與真實值Y的不一致程度,它是一個非負實值函數,通常使用L(Y, f(x))來表示,損失函數越小,模型的魯棒性就越好。損失函數是經驗風險函數的核心部分,也是結構風險函數重要組成部分。模型的結構風險函數包括了經驗風險項和正則項,通常可以表示成如下式子:

技術分享圖片

  其中,前面的均值函數表示的是經驗風險函數,L代表的是損失函數,後面的Φ

是正則化項(regularizer)或者叫懲罰項(penalty term),它可以是L1,也可以是L2,或者其他的正則函數。整個式子表示的意思是找到使目標函數最小時的θ。下面主要列出幾種常見的損失函數。

  理解:損失函數旨在表示出logit和label的差異程度,不同的損失函數有不同的表示意義,也就是在最小化損失函數過程中,logit逼近label的方式不同,得到的結果可能也不同。

一般情況下,softmax和sigmoid使用交叉熵損失(logloss),hingeloss是SVM推導出的,hingeloss的輸入使用原始logit即可。

一、LogLoss對數損失函數(邏輯回歸,交叉熵損失

  有些人可能覺得邏輯回歸的損失函數就是平方損失,其實並不是。平方損失函數可以通過線性回歸在假設樣本是高斯分布的條件下推導得到,而邏輯回歸得到的並不是平方損失。在邏輯回歸的推導中,它假設樣本服從伯努利分布(0-1分布),然後求得滿足該分布的似然函數,接著取對數求極值等等。而邏輯回歸並沒有求似然函數的極值,而是把極大化當做是一種思想,進而推導出它的經驗風險函數為:最小化負的似然函數(即max F(y, f(x)) —> min -F(y, f(x)))。從損失函數的視角來看,它就成了log損失函數了。

log損失函數的標準形式

技術分享圖片

  剛剛說到,取對數是為了方便計算極大似然估計,因為在MLE(最大似然估計)中,直接求導比較困難,所以通常都是先取對數再求導找極值點。損失函數L(Y, P(Y|X))表達的是樣本X在分類Y的情況下,使概率P(Y|X)達到最大值(換言之,就是利用已知的樣本分布,找到最有可能(即最大概率)導致這種分布的參數值;或者說什麽樣的參數才能使我們觀測到目前這組數據的概率最大

)。因為log函數是單調遞增的,所以logP(Y|X)也會達到最大值,因此在前面加上負號之後,最大化P(Y|X)就等價於最小化L了。

  邏輯回歸的P(Y=y|x)表達式如下(為了將類別標簽y統一為1和0,下面將表達式分開表示):

技術分享圖片

  將它帶入到上式,通過推導可以得到logistic的損失函數表達式,如下:

技術分享圖片

  邏輯回歸最後得到的目標式子如下:

技術分享圖片

  上面是針對二分類而言的。這裏需要解釋一下:之所以有人認為邏輯回歸是平方損失,是因為在使用梯度下降來求最優解的時候,它的叠代式子與平方損失求導後的式子非常相似,從而給人一種直觀上的錯覺

這裏有個PDF可以參考一下:Lecture 6: logistic regression.pdf.

  註意:softmax使用的即為交叉熵損失函數,binary_cossentropy為二分類交叉熵損失,categorical_crossentropy為多分類交叉熵損失,當使用多分類交叉熵損失函數時,標簽應該為多分類模式,即使用one-hot編碼的向量。

二、平方損失函數(最小二乘法, Ordinary Least Squares )

  最小二乘法是線性回歸的一種,最小二乘法(OLS)將問題轉化成了一個凸優化問題。在線性回歸中,它假設樣本和噪聲都服從高斯分布(為什麽假設成高斯分布呢?其實這裏隱藏了一個小知識點,就是中心極限定理,可以參考【central limit theorem】),最後通過極大似然估計(MLE)可以推導出最小二乘式子。最小二乘的基本原則是:最優擬合直線應該是使各點到回歸直線的距離和最小的直線,即平方和最小換言之,OLS是基於距離的,而這個距離就是我們用的最多的歐幾裏得距離。為什麽它會選擇使用歐式距離作為誤差度量呢(即Mean squared error, MSE),主要有以下幾個原因:

  • 簡單,計算方便;
  • 歐氏距離是一種很好的相似性度量標準;
  • 在不同的表示域變換後特征性質不變。

平方損失(Square loss)的標準形式如下:

技術分享圖片

當樣本個數為n時,此時的損失函數變為:

技術分享圖片

Y-f(X)表示的是殘差,整個式子表示的是殘差的平方和,而我們的目的就是最小化這個目標函數值(註:該式子未加入正則項),也就是最小化殘差的平方和(residual sum of squares,RSS)

而在實際應用中,通常會使用均方差(MSE)作為一項衡量指標,公式如下:

技術分享圖片

上面提到了線性回歸,這裏額外補充一句,我們通常說的線性有兩種情況,一種是因變量y是自變量x的線性函數,一種是因變量y是參數α的線性函數。在機器學習中,通常指的都是後一種情況。

三、指數損失函數(Adaboost)

學過Adaboost算法的人都知道,它是前向分步加法算法的特例,是一個加和模型,損失函數就是指數函數。在Adaboost中,經過m此叠代之後,可以得到fm(x):

技術分享圖片

Adaboost每次叠代時的目的是為了找到最小化下列式子時的參數α 和G:

技術分享圖片

而指數損失函數(exp-loss)的標準形式如下

技術分享圖片

可以看出,Adaboost的目標式子就是指數損失,在給定n個樣本的情況下,Adaboost的損失函數為:

技術分享圖片

關於Adaboost的推導,可以參考Wikipedia:AdaBoost或者《統計學習方法》P145.

四、Hinge損失函數(SVM)

在機器學習算法中,hinge損失函數和SVM是息息相關的。在線性支持向量機中,最優化問題可以等價於下列式子:

技術分享圖片

下面來對式子做個變形,令:

技術分享圖片

於是,原式就變成了:

技術分享圖片

如若取λ=1/(2C),式子就可以表示成:

技術分享圖片

可以看出,該式子與下式非常相似:

技術分享圖片

前半部分中的 l 就是hinge損失函數,而後面相當於L2正則項。

Hinge 損失函數的標準形式

技術分享圖片

可以看出,當|y|>=1時,L(y)=0。

更多內容,參考Hinge-loss。

補充一下:在libsvm中一共有4中核函數可以選擇,對應的是-t參數分別是:

  • 0-線性核;
  • 1-多項式核;
  • 2-RBF核;
  • 3-sigmoid核。

五、其它損失函數

除了以上這幾種損失函數,常用的還有:

0-1損失函數

技術分享圖片

絕對值損失函數

技術分享圖片

下面來看看幾種損失函數的可視化圖像,對著圖看看橫坐標,看看縱坐標,再看看每條線都表示什麽損失函數,多看幾次好好消化消化。

技術分享圖片

六、Keras / TensorFlow 中常用 Cost Function 總結

  • mean_squared_error或mse

  • mean_absolute_error或mae

  • mean_absolute_percentage_error或mape

  • mean_squared_logarithmic_error或msle

  • squared_hinge

  • hinge

  • categorical_hinge

  • binary_crossentropy(亦稱作對數損失,logloss)

  • logcosh

  • categorical_crossentropy:亦稱作多類的對數損失,註意使用該目標函數時,需要將標簽轉化為形如(nb_samples, nb_classes)的二值序列

  • sparse_categorical_crossentrop:如上,但接受稀疏標簽。註意,使用該函數時仍然需要你的標簽與輸出值的維度相同,你可能需要在標簽數據上增加一個維度:np.expand_dims(y,-1)

  • kullback_leibler_divergence:從預測值概率分布Q到真值概率分布P的信息增益,用以度量兩個分布的差異.

  • poisson:即(predictions - targets * log(predictions))的均值

  • cosine_proximity:即預測值與真實標簽的余弦距離平均值的相反數

  需要記住的是:參數越多,模型越復雜,而越復雜的模型越容易過擬合。過擬合就是說模型在訓練數據上的效果遠遠好於在測試集上的性能。此時可以考慮正則化,通過設置正則項前面的hyper parameter,來權衡損失函數和正則項,減小參數規模,達到模型簡化的目的,從而使模型具有更好的泛化能力。

【深度學習】一文讀懂機器學習常用損失函數(Loss Function)