TensorFlow損失函式（loss function）

阿新 • • 發佈：2019-01-29

神經網路模型的效果及優化的目標是通過損失函式來定義的。

1、經典損失函式

分類問題和迴歸問題是監督學習的兩大種類。

分類問題

常用方法：交叉熵（cross_entropy），它描述了兩個概率分佈之間的距離，當交叉熵越小說明二者之間越接近。它是分類問題中使用比較廣的一種損失函式。
給定兩個概率分佈p和q，通過q來表示p的交叉熵為：

H (p, q) = - \sum_{x} p (x) \log q (x)

交叉熵刻畫的是兩個概率分佈之間的距離，但是神經網路的輸出卻不一定是一個概率分佈。概率分佈刻畫了不同事件發生的概率。當事件總數是有限的情況下，概率分佈函式p(X=x)滿足：

\forall x p (X = x) \in [0, 1] 且 \sum_{x} p (X = x) = 1

如何將神經網路前向傳播得到的結果變成概率分佈,Softmax迴歸就是一個非常常用的辦法。
Softmax迴歸本身可以作為一個學習演算法來優化分類結果，但在TensorFlow中，Softmax迴歸的引數被去掉了，它只是一層額外的處理層，將神經網路的輸出變成一個概率分佈。下圖展示了加上Softmax迴歸的神經網路結構圖。

交叉熵作為神經網路的損失函式時，p代表的是正確答案，q代表的是預測值。交叉熵刻畫的是兩個概率分佈的距離，交叉熵值越小，兩個概率分佈越接近。

案例：
有個三分類問題，樣例正確答案(1,0,0)。
某模型經過Softmax迴歸之後的預測答案是(0.5,0.4,0.1)，那麼這個預測和正確答案之間的交叉熵為：

H ((1, 0, 0), (0.5, 0.4, 0.1)) = - (1 \times l o g 0.5 + 0 \times l o g 0.4 + 0 \times l o g 0.1) \approx 0.3

另一個模型的預測是(0.8,0.1,0.1)，那麼這個預測和真實值之間的交叉熵是：

H ((1, 0, 0), (0.8, 0.1, 0.1)) = - (1 \times l o g 0.8 + 0 \times l o g 0.1 + 0 \times l o g 0.1) \approx 0.1

從直觀上可以很容易地知道第二個預測答案要優於第一個。通過交叉熵計算得到的結果也是一致的（第二個交叉熵的值更小）。

TensorFlow實現交叉熵，程式碼如下：

cross_entropy = -tf.reduce_mean(y_ * tf.log(tf.clip_by_value(y, 1e-10, 1.0)))

tf.clip_by_value函式可以將一個張量中的數值限制在一個範圍內，這樣就避免了一些運算錯誤（比如log0是無效的）。

y_：正確結果
y ：預測結果

TensorFlow對交叉熵和softmax迴歸進行了統一封裝，我們可以直接使用如下程式碼實現使用softmax迴歸後的交叉熵損失函式：

cross_entropy = tf.nn.softmax_cross_entropy_with_logits(y,y_)

迴歸問題

迴歸問題解決的是對具體數值的預測。比如房價預測、銷量預測等都是迴歸問題。這些問題需要預測的不是一個事先定義好的類別，而是一個任意實數。解決回顧問題的神經網路一般只有一個輸出節點，這個節點的輸出值就是預測值。對於迴歸問題，最常用的損失函式是均方誤差（MSE，mean squared error ）。它的定義如下：

M S E (y, y^{'}) = \frac{\sum_{i = 1}^{n} (y_{i} - y_{i}^{^{'}})^{2}}{n}

其中

y_{i}

為一個batch中第i個數據的正確答案，而

y_{i}^{'}

為神經網路給出的預測值。
如下程式碼展示瞭如何通過TensorFlow實現均方誤差損失函式：

mse = tf.reduce_sum(tf.square(y_ -  y))

其中y代表了神經網路的輸出答案，y_代表了標準答案。

2、自定義損失函式

例：如果一個商品的成本是1元，但是利潤是10元，那麼少預測一個就少賺10元，而多預測一個少賺1元。
為了最大化預期利潤，需要將損失函式和利潤直接聯絡起來。下面公式給出了一個當預測多於真實值和預測少於真實值時有不同損失係數的損失函式：

L o s s (y, y^{^{'}}) = \sum_{i = 1}^{n} f (y_{i}, y_{i}^{^{'}}), f (x, y) = {\begin{cases} a (x - y) x > y \\ b (y - x) x \leq y \end{cases}

$y_{i}$ 為一個batch中第i個數據的正確答案， $y_{i}^{^{'}}$ 為神經網路得到的預測值，

$a (x - y) x > y$ 表示正確答案多於預測答案的情況
$b (y - x) x \leq y$ 表示正確答案少於預測答案的情況

TensorFlow實現這個損失函式：

a= 10
b= 1
loss = tf.reduce_sum(tf.where(tf.greater(y, y_), (y - y_) * a, (y_ - y) * b))

（tf.select已被捨棄，使用tf.where替代）

再看一個tf.where和tf.greater使用的例子

import tensorflow as tf

v1 = tf.constant([1.0,2.0,3.0,4.0])
v2 = tf.constant([4.0,3.0,2.0,1.0])

sess = tf.InteractiveSession()
print(tf.greater(v1,v2).eval())
print(tf.where(tf.greater(v1,v2),v1,v2).eval())

輸出：

[False False  True  True]
[ 4.  3.  3.  4.]

損失函式對訓練結果的影響

下面通過一個簡單的神經網路程式來講解損失函式對模型訓練結果的影響。下面程式碼實現了一個擁有兩個輸入節點、一個輸出節點，沒有隱藏層的神經網路。

import tensorflow as tf
from numpy.random import RandomState

1.定義神經網路的相關引數和變數。

batch_size = 8
#兩個輸入節點
x = tf.placeholder(tf.float32, shape=(None, 2), name="x-input")
#迴歸問題一般只有一個輸出節點
y_ = tf.placeholder(tf.float32, shape=(None, 1), name='y-input')
#定義了一個單層的神經網路前向傳播過程，這裡就是簡單加權和
w1= tf.Variable(tf.random_normal([2, 1], stddev=1, seed=1))
y = tf.matmul(x, w1)

2.設定自定義的損失函式。

#定義損失函式使得預測少了的損失大，於是模型應該偏向多的方向預測。
loss_less = 10
loss_more = 1
loss = tf.reduce_sum(tf.where(tf.greater(y, y_), (y - y_) * loss_more, (y_ - y) * loss_less))
train_step = tf.train.AdamOptimizer(0.001).minimize(loss)

3.生成模擬資料集。

#通過隨機數生成一個模擬資料集
rdm = RandomState(1)
X = rdm.rand(128,2)
#設定迴歸的正確值為兩個輸入的和加上一個隨機量。之所以要加上一個隨機量是為了加入不可預測的噪音，否則不同#損失函式的意義就不大了，因為不同損失函式都會在能完全預測正確的時候最低。一般來說噪音為一個均值為0的小#量，所以這裡的噪音設定為-0.05 ~ 0.05的隨機數
Y = [[x1+x2+(rdm.rand()/10.0-0.05)] for (x1, x2) in X]

4.訓練模型。

with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    STEPS = 5000
    for i in range(STEPS):
        start = (i*batch_size) % 128
        end = (i*batch_size) % 128 + batch_size
        sess.run(tra

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    TensorFlow損失函式（loss function）
      
							
							
							神經網路模型的效果及優化的目標是通過損失函式來定義的。



1、經典損失函式

分類問題和迴歸問題是監督學習的兩大種類。



分類問題

常用方法：交叉熵（cross_entropy），它描述了兩個概率分佈之間的距離，當交叉熵越小說明二者之間越接近。它是分類 

  
 

    

    
    常用損失函式（Loss Function）
       
 
 【深度學習】一文讀懂機器學習常用損失函式（Loss Function） 
  
  最近太忙已經好久沒有寫部落格了，今天整理分享一篇關於損失函式的文章吧，以前對損失函式的理解不夠深入，沒有真正理解每個損失函式的特點以及應用範圍，如果文中有任何錯誤，請各位朋友指教，謝謝~ 
  
 　　損失函式（lo 

  
 

    

    
    損失函式（loss function）
      
                
通常而言，損失函式由損失項(loss term)和正則項(regularization term)組成。發現一份不錯的介紹資料：


一、損失項

對迴歸問題，常用的有：平方損失(for linear regression)，絕對值損失；對分類問題，常用的有：hinge l 

  
 

    

    
    logistic迴歸詳解(二）：損失函式（cost function）詳解
      
							
							
							有監督學習

機器學習分為有監督學習，無監督學習，半監督學習，強化學習。對於邏輯迴歸來說，就是一種典型的有監督學習。 
既然是有監督學習，訓練集自然可以用如下方式表述： 
{(x1,y1),(x2,y2),⋯,(xm,ym)}

對於這m個訓練樣本，每個樣本本身 

  
 

    

    
    【深度學習】一文讀懂機器學習常用損失函數（Loss Function）
      back   and   們的   wiki   導出   歐氏距離   classes   自變量   關於   
最近太忙已經好久沒有寫博客了，今天整理分享一篇關於損失函數的文章吧，以前對損失函數的理解不夠深入，沒有真正理解每個損失函數的特點以及應用範圍，如果文中有任何錯誤，請各位朋友指教，謝謝~

 

  
 

    

    
    型別函式（type function）
       
 
 
 在C和C++中，我們常見的是值函式（value function），即函式接收的引數是某些值，而且函式的返回結果也是值。 
 至於型別函式（type function），即函式接收某些型別的實參，並生成一個型別作為函式的返回結果。 
 例子： 
 1、內建函式sizeof就是一個型別函式，它返回 

  
 

    

    
    高斯函式（Gaussian function）的詳細分析
       
 
 摘要 
     論文中遇到很重要的一個元素就是高斯核函式，但是必須要分析出高斯函式的各種潛在屬性，本文首先參考相關材料給出高斯核函式的基礎，然後使用matlab自動儲存不同引數下的高斯核函式的變化gif動圖，同時分享出原始碼，這樣也便於後續的論文寫作。 
 高斯函式的基礎 
  

  
 

    

    
    pytorch系列12 --pytorch自定義損失函式custom loss function
       
 
  
  
 本文主要內容： 
  
  nn.Module 和 nn.Functional 區別和聯絡 
  自定義損失函式 
  
 1. 關於nn.Module與nn.Functional的區別： 
 https://discuss.pytorch.org/t/whats-the-differe 

  
 

    

    
    吳恩達深度學習筆記（7）--邏輯迴歸的代價函式（Cost Function）
       
  
  
 邏輯迴歸的代價函式（Logistic Regression Cost Function） 在上一篇文章中，我們講了邏輯迴歸模型，這裡，我們講邏輯迴歸的代價函式（也翻譯作成本函式）。  吳恩達讓我轉達大家：這一篇有很多公式，做好準備，睜大眼睛！代價函式很重要！ 
 為什麼需要代價函式： 
 為 

  
 

    

    
    [深度學習] 神經網路中的啟用函式（Activation function）
      
							
							
							
20180930 在研究調整FCN模型的時候，對啟用函式做更深入地選擇，記錄學習內容

啟用函式（Activation Function），就是在人工神經網路的神經元上執行的函式，負責將神經元的輸入對映到輸出端。


線性啟用函式：最簡單的linear fun 

  
 

    

    
    自動文摘（Automatic document summarization）方法綜述（三）——基於次模函式（submodular function）最大化的方法
      
							
							
							自動文摘（Automatic document summarization）方法綜述的第一篇文章（一）總結了基於中心的（Centroid-based）方法和基於圖的（graph-based）方法，第二篇文章（二）總結了基於最優化的（optimization-ba 

  
 

    

    
    統計學習方法：核函式（Kernel function）
      作者：桂。
時間：2017-04-26  12:17:42



前言

之前分析的感知機、主成分分析（Principle component analysis, PCA）包括後面看的支撐向量機（Support vector machines, SVM），都有用到核函式。核函式是將訊號對映到高維 

  
 

    

    
    分位數（quantile）與分位函式（quantile function）
      
                

分位函式
對於一個連續且單調的的分佈函式，例如關於隨機變數X的累計分佈函式F，設有一概率p（0<=p<=1），分位函式Q返回閾值x使得

亦即。

當分佈函式F是連續函式時，更有。

分位數

分位數，也即分佈函式中的分位點，是分位函式返回的值。


【轉載請 

  
 

    

    
    似然函式（Likelihood function）是什麼
      
                上次在尋找線性迴歸最小化函式時，又引出一個新的地雷，一個新的不知道，我們繼續上路，開足馬車繼續尋找“似然函式”，它到底是什麼呢？先來到WIKI上看看定義：In statistics, a likelihood function (often simply the likeli 

  
 

    

    
    可重入函式（reentrant function）
      
                由於用到了strtok函式，順便搜了一下reentrant，看這篇講的不錯，貼來~~
原帖地址：http://blog.chinaunix.net/u/27708/showart_322733.html

可重入函式這一概念早有接觸，但一直未有系統的理解，最近閱讀《
APUE 

  
 

    

    
    啟用函式（Activation function）
      

神經網路中使用啟用函式來加入非線性因素，提高模型的表達能力。


ReLU(Rectified Linear Unit,修正線性單元)


f(x)={0,x,x≤0x>0f(x)={0,x≤0x,x>0

詳細公式ReLU:

f(x)其中σ(z)=∑i=1infσ(x−i+0.5)≈log 

  
 

    

    
    機器學習（一）：啟用函式（Activation Function）
      
								
								            
							
							
							0. 啟用函式




上圖為wiki上的定義：啟用函式定義了每個節點（神經元）的輸出和輸入關係的函式。
下表：常用啟用函式





  編號
  函數
  公式



  1)
  sigmoid( 

  
 

    

    
    為什麼神經網路中需要啟用函式（activation function）？
      
                在看tensorflow的時候，發現書中程式碼提到，使用ReLU啟用函式完成去線性化為什麼需要啟用函式去線性化？查了一下quaro，覺得這個回答能看明白（順便問一句，截圖算不算引用？？）--------------------------------------------- 

  
 

    

    
    神經網路中的啟用函式（activation function）-Sigmoid, ReLu, TanHyperbolic(tanh), softmax, softplus
      
							
							
							　　不管是傳統的神經網路模型還是時下熱門的深度學習，我們都可以在其中看到啟用函式的影子。所謂啟用函式，就是在神經網路的神經元上執行的函式，負責將神經元的輸入對映到輸出端。常見的啟用函式包括Sigmoid、TanHyperbolic(tanh)、ReLu、 sof 

  
 

    

    
    罰函式（penalty function）的設計
      
								
								            
							
							
							1. encourage sparsity


ℓ0 範數： non-differentiable and difficult to optimize in general
ℓ1 範數：
對數約束，lo