1. 程式人生 > >【機器學習】常用損失函式

【機器學習】常用損失函式

損失函式一般用作機器學習的目標函式,訓練引數的目的是使損失最小化。一般的方法是求導得0。先介紹一下經驗風險和結構風險。假設一個樣本的損失函式為 l ( y i , f (

x i ) ) l(y_i,f(x_i)) , 那麼在大小為N的資料集上的損失為:

L e

( y , f ( x ) ) = 1
N
i = 1 N l ( y i , f ( x i ) ) L_{e}(y,f(x))=\frac{1}{N}\sum_{i=1}^{N}l(y_i,f(x_i)) ,

也稱之為經驗風險。而當在經驗風險後面加一項懲罰項(正則項) λ J ( f ) \lambda J(f) , 其中J(f)表示模型的複雜度,因此,結構風險為:

L s ( y , f ( x ) ) = 1 N i = 1 N l ( y i , f ( x i ) ) + λ J ( f ) L_{s}(y,f(x))=\frac{1}{N}\sum_{i=1}^{N}l(y_i,f(x_i)) + \lambda J(f)

可以理解為若只是最小化經驗風險,則可能會導致模型的複雜度越來越高,從而導致過擬合,但是一旦加入了懲罰項,最小化結構風險需要既儘量減小經驗風險同時又要保證模型複雜度不會太高。

下面介紹幾種損失函式及與之對應的演算法。

1. 平方誤差

最小化平方誤差,最小二乘法。 適用於:迴歸,GBDT(也屬於迴歸範疇)。

l ( y i , f ( x i ) ) = ( y i f ( x i ) ) 2 l(y_i, f(x_i)) = (y_i-f(x_i))^2
L ( y , f ( x i ) ) = 1 N i = 1 N l ( y i , f ( x i ) ) L(y, f(x_i)) =\frac{1}{N}\sum_{i=1}^{N}l(y_i, f(x_i))

2. 絕對值誤差

最小化絕對值誤差。適用於:迴歸。
l ( y i , f ( x i ) ) = y i f ( x i ) l(y_i, f(x_i)) = |y_i-f(x_i)|
L ( y , f ( x i ) ) = 1 N i = 1 N l ( y i , f ( x i ) ) L(y, f(x_i)) =\frac{1}{N}\sum_{i=1}^{N}l(y_i, f(x_i))

3. 對數誤差

最大化似然估計->最小化負對數似然估計->最小化交叉熵。 適用於:分類問題,比如:邏輯迴歸(二分類),神經網路(二分類,多分類)。
邏輯迴歸
最大化似然函式:

max i = 1 N P ( y ^ i x i ) = i = 1 N f ( x i ) y i ( 1 f ( x i ) ) 1 y i \max\prod_{i=1}^{N}P(\hat{y}_i|x_i) =\prod_{i=1}^{N}f(x_i)^{y_i}(1-f(x_i))^{1-{y_i}}

最小化負對數似然:

L ( y , f ( x ) ) = l o g ( i = 1 N f ( x i ) y i ( 1 f ( x i ) ) 1 y i ) = i = 1 N ( y i f ( x i ) + ( 1 y i ) f ( x i ) ) L(y, f(x)) =-log(\prod_{i=1}^{N}f(x_i)^{y_i}(1-f(x_i))^{1-{y_i}})=-\sum_{i=1}^{N}(y_if(x_i) +(1-y_i)f(x_i))

相關推薦

機器學習常用損失函式

損失函式一般用作機器學習的目標函式,訓練引數的目的是使損失最小化。一般的方法是求導得0。先介紹一下經驗風險和結構風險。假設一個樣本的損失函式為 l (

機器學習各種損失函式

2.平方損失函式(quadratic loss function) L(Y,f(X))=(Y−f(X))2 L(Y,f(X))=(Y−f(X))2   該損失函式的意義也很簡單,就是取預測差距的平方。 3.絕對值損失函式(absolute loss function)

機器學習常用損失函式

1. 損失函式 損失函式(Loss function)是用來估量你模型的預測值 f(x)f(x)值。 2. 常用損失函式 常見的損失誤差有五種: 1. 鉸鏈損失(Hinge Loss):主要用於支援向量機(SVM) 中

機器學習交叉熵函式的使用及推導

前言 說明:本文只討論Logistic迴歸的交叉熵,對Softmax迴歸的交叉熵類似。 minist手寫數字識別就是用交叉熵作為代價函式。   1.從方差代價函式說起   代價函式經常用方差代價函式(即採用均方誤差MSE),比如對於一個神經元(單輸入單輸出,s

機器學習SVM核函式的計算

J=∑iαi−12∑i∑jαiαjdidjk(xi)Tk(xj)=∑iαi−12∑i∑jαiαjdidjK(xi,xj)subjectto∑αidi=0,0≤αi≤C 在優化好αi拉格朗日量後,我們得

機器學習常用聚類演算法原型

1. 聚類簡介 在機器學習中,分為監督學習、無監督學習和半監督學習。前一篇部落格中提到的迴歸和分類都屬於監督學習,本文著重探討無監督學習中的聚類演算法。 博主之前看過一些資料,這兩天也翻閱了網上的各大部落格後,也想總結一下,寫一寫聚類相關的知識點,對

機器學習一文讀懂機器學習常用損失函式

損失函式(loss function)是用來估量模型的預測值f(x)與真實值Y的不一致程度,它是一個非負實值函式,通常使用L(Y, f(x))來表示,損失函式越小,模型的魯棒性就越好。損失函式是經驗風險函式的核心部分,也是結構風險函式重要組成部分。模型的結構風險函式包括了經驗風險項和正則項,通常可以

機器學習先驗概率、似然函式、後驗概率、對數似然函式等概念的理解

1)先驗:統計歷史上的經驗而知當下發生的概率; 2)後驗:當下由因及果的概率; 2、網上有個例子說的透徹: 1)先驗——根據若干年的統計(經驗)或者氣候(常識),某地方下雨的概率; 2)似然——看到了某種結果,對產生結果的原因作出假設:是颳風了?還是有烏雲?還是

機器學習為什麼負梯度方向是目標函式下降最快的方向

在機器學習中,我們的目標是最小化損失函式: J ( θ

機器學習視覺化Matplotlib的scatter函式用法

本文出處:http://blog.csdn.net/u013634684/article/details/49646311 最近開始學習Python程式設計,遇到scatter函式,感覺裡面的引數不知道什麼意思於是查資料,最後總結如下: 1、scatter函式原型 2、

機器學習tensorflow: GPU求解帶核函式的SVM二分類支援向量機

SVM本身是一個最優化問題,因此理所當然可以用簡單的最優化方法來求解,比如SGD。2007年pegasos就發表了一篇文章講述簡單的求解SVM最優化的問題。其求解形式簡單,但是並沒有解決核函式計算量巨大的問題。這裡給出了一個tensorflow的帶核函式的SVM

機器學習先驗概率、後驗概率、貝葉斯公式、 似然函式

Original url: http://m.blog.csdn.net/article/details?id=49130173 一、先驗概率、後驗概率、貝葉斯公式、 似然函式 在機器學習中,這些概念總會涉及到,但從來沒有真正理解透徹他們之間的聯絡。下面打算好好從

機器學習支援向量機(4)——非線性支援向量機(核函式

前言 當訓練資料集線性可分或者近似線性可分時,前面我們在文一以及文二已經介紹了線性可分支援向量機和線性支援向量機。但是有時訓練資料集是非線性的,這時就可以使用非線性支援向量機。 非線性支援向量機的主要特點就是利用了核技巧。 非線性分類問題 如

基於Logistic迴歸和Sigmoid函式的分類機器學習

(一)認識Logistic迴歸(LR)分類器 首先,Logistic迴歸雖然名字裡帶“迴歸”,但是它實際上是一種分類方法,主要用於兩分類問題,利用Logistic函式(或稱為Sigmoid函式),自變數取值範圍為(-INF, INF),自變數的取值範圍為(0,1),函式形式

機器學習一文讀懂分類演算法常用評價指標

評價指標是針對將相同的資料,輸入不同的演算法模型,或者輸入不同引數的同一種演算法模型,而給出這個演算法或者引數好壞的定量指標。 在模型評估過程中,往往需要使用多種不同的指標進行評估,在諸多的評價指標中,大部分指標只能片面的反應模型的一部分效能,如果不能合理的運用評估指標,不僅不能發現模型本身的問題,而且會得出

機器學習隨機森林 Random Forest 得到模型後,評估參數重要性

img eas 一個 increase 裏的 sum 示例 增加 機器 在得出random forest 模型後,評估參數重要性 importance() 示例如下 特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量 比如 X1

機器學習主成分分析PCA(Principal components analysis)

大小 限制 總結 情況 pca 空間 會有 ges nal 1. 問題 真實的訓練數據總是存在各種各樣的問題:  1、 比如拿到一個汽車的樣本,裏面既有以“千米/每小時”度量的最大速度特征,也有“英裏/小時”的最大速度特征,

機器學習1 監督學習應用與梯度下降

例如 tla ges 機器 fprintf lns 找到 輸入 style 監督學習 簡單來說監督學習模型如圖所示 其中 x是輸入變量 又叫特征向量 y是輸出變量 又叫目標向量 通常的我們用(x,y)表示一個樣本 而第i個樣本 用(x(i),y(i))表示 h是輸出函

機器學習EM的算法

log mea www 優化 問題 get href ive 路線 EM的算法流程: 初始化分布參數θ; 重復以下步驟直到收斂: E步驟:根據參數初始值或上一次叠代的模型參數來計算出隱性變量的後驗概率,其實就是隱性變量的期望。作為隱藏變量的

機器學習DBSCAN Algorithms基於密度的聚類算法

多次 使用 缺點 有效 結束 基於 需要 att 共享 一、算法思想: DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基於密度的聚