為何邏輯回歸的損失函式是用交叉熵而非均方誤差?

前言
邏輯回歸的損失函式推導
使用均方誤差，會出現多個區域性最小值?

圖形

CrossEntropyCost
MeanSquareCost

其它例子
理論證明

凸函式
CrossEntropyCost
MeanSquaredError

結論
參考連結

前言

本文是筆者在學習吳恩達的深度學習課程時所碰到的問題。
課程中雖然有提及將均方誤差用於邏輯回歸可能會造成多個區域性最小值

，但是並未給出具體例子。
而本篇文章將嘗試給出幾個例子，並說明其背後的原因。

在進入正文以前，必須先澄清一點：
loss function(損失函式)指的是單一個樣本的誤差。
而cost function(代價函式，成本函式)指的是資料集中所有樣本誤差的均值。

邏輯回歸的損失函式推導

邏輯回歸的輸出值 $\hat{y}$

\overset{y}{^}

表示的是當前輸入 $x$ 是屬於 $y=1$ 這個類別的機率，用數學的語言來說明的話，就是：

P(y=1|x) = \hat{y}

而輸入x是屬於y=0這個類別的機率則是:

P(y=0|x) = 1-\hat{y}

我們可以將上面這兩個式子可以合併，代表正確地將 $x$ 分到它所屬的類別 $y$ 的機率，變成：

P(y|x) = \hat{y}^{y}(1-\hat{y})^{1-y}

我們希望這個機率越大越好。

為了簡化計算，在等式兩邊取log：
$\log(P(y|x)) = y\log(\hat{y})+(1-y)\log(1-\hat{y})$

我們原來的目標是希望最大化 $P(y|x)$ ，經過變換後，目標變成最大化 $\log(P(y|x))$ 。

log是嚴格遞增函式，如果輸入 $x_1>$ 輸入 $x_2$ ，則輸出 $\log(x_1)>$ 輸出 $\log(x_2)$ 。即兩數在對應前後的大小關係不會被改變。
因為log函式有這種特性，所以我們可以說最大化 $P(y|x)$ 與最大化 $\log(P(y|x))$ 這兩個目標是一致的。

我們希望 $\log(P(y|x))$ 最大化，等義地，即是 $-\log(P(y|x))$ 最小化。因此我們可以將這個值當成loss，作為要優化的目標。

以下就是推匯出來的交叉熵損失函式：
$CrossEntropyLoss = -[y\log(\hat{y})+(1-y)\log(1-\hat{y})]$

而交叉熵代價函式則是所有交叉熵損失函式的平均：
$CrossEntropyCost = -\frac{1}{m}\sum_{i=1}^{m} [y^{(i)}\log(\hat{y}^{(i)})+(1-y^{(i)})\log(1-\hat{y}^{(i)})]$

使用均方誤差，會出現多個區域性最小值?

吳恩達在課程中有提到如果使用均方誤差，就會出現多個區域性最小值，導致收斂困難。
讓我們來看個具體例子：

為了後續計算方便，此處假設 $b=0$ 。因此 $\hat{y}=wx$ 。

我們先來看看使用交叉熵損失函式的情況：
$CrossEntropyLoss \\= -[ylog(\hat{y})+(1-y)log(1-\hat{y})] \\= -[ylog(\frac{1}{1+e^{-xw}})+(1-y)log(1-\frac{1}{1+e^{-xw}})]$

為何邏輯回歸的損失函式是用交叉熵而非均方誤差?

為何邏輯回歸的損失函式是用交叉熵而非均方誤差? 前言邏輯回歸的損失函式推導使用均方誤差，會出現多個區域性最小值? 圖形 CrossEntropyCost MeanSquareCost 其它例

深度學習基礎--loss與啟用函式--sigmiod與softmax；對數損失函式與交叉熵代價函式

sigmiod與softmax sigmiod就是邏輯迴歸（解決二分類問題）；softmax是多分類問題的邏輯迴歸雖然邏輯迴歸能夠用於分類，不過其本質還是線性迴歸。它僅線上性迴歸的基礎上，在特徵到結果的對映中加入了一層sigmoid函式（非線性）對映，即先把特徵線性求和，然後使

《TensorFlow實戰Google深度學習框架》——4.2.1 經典損失函式（交叉熵、均方差）

目錄 1、交叉熵 1、交叉熵交叉熵是分類問題中使用比較廣的一種損失函式，刻畫了兩個概率分佈之間的距離。給定兩個概率分佈p和q，通過q來表示p的交叉熵為：交叉熵刻畫的是兩個概率分佈之間的距離，然而神經網路的輸出卻不一定是一個概率分佈。Softmax迴歸就

深度學習裡的損失函式與交叉熵

1.MSE損失函式損失函式是機器學習與深度學習裡面的重要概念。從名字上就可以看出，損失函式(Loss Function)反應的是模型對資料的擬合程度。一般來說，損失函式越小，說明模型對資料的擬合也越好。同時我們還希望當損失函式比較大的時候，對應的梯度也會比較大，這樣梯度下降的時候更

機器學習經典損失函式之交叉熵和均方差

技術交流qq群： 659201069損失函式是用來評估預測模型效果的，即model的預測值與實真實值的差距。不用的機器學習模型有不同的損失函式來評估。本篇博文主要講用於分類問題的交叉熵和迴歸問題的均方差。先來說下分類和迴歸的區別。機器學習或深度學習領域常見的就是分類和迴歸，通

直觀理解為什麼分類問題用交叉熵損失而不用均方誤差損失?

目錄交叉熵損失與均方誤差損失損失函式角度 softmax反向傳播角度參考部落格：blog.shinelee.me | 部落格園 | CSDN 交叉熵損失與均方誤差損失常

詳解機器學習損失函式之交叉熵

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天這篇文章和大家聊聊機器學習領域的熵。我在看paper的時候發現對於交叉熵的理解又有些遺忘，複習了一下之後，又有了一些新的認識。故寫下本文和大家分享。熵這個概念應用非常廣泛，我個人認為比較經典的一個應用是在熱力學當中，反應一個系統的混亂程度。

21-城裏人套路深之用python實現邏輯回歸算法

rom 成功基礎知識壓力 dvp ilb nbsp html 感覺如果和一個人交流時，他的思想像彈幕一樣飄散在空中，將是怎樣的一種景象？我想大概會毫不猶豫的點關閉的。生活為啥不能簡單明了？因為太直白了令人乏味。保留一些不確定性反而撲朔迷離，引人入勝。我們學習了線性回歸

機器學習：邏輯回歸（損失函數）

梯度模型分享圖片 com info 而且機器學習邏輯分類 # # 由於邏輯回歸解決的是分類問題，而且是二分類，因此定義損失函數時也要有兩類　　# 1）如果 y = 1（p ≥ 0.5），p 越小，損失函數越大；　　# 2）如果 y = 0（p ≤ 0.5），

為何說邏輯回歸是線性模型?

為何說邏輯回歸是線性模型? 前言邏輯回歸簡介邏輯回歸的決策邊界前言邏輯回歸的公式中有使用到sigmoid函式，為何仍說邏輯回歸是線性模型呢? 本篇會從數學的角度來看邏輯回歸模型。我們在最後會發現，這跟邏輯回歸模型的決策邊界有關。

為什麼用交叉熵作為損失函式

交叉熵(cross entropy)經常用來做機器學習中的損失函式。要講交叉熵就要從最基本的資訊熵說起。 1.資訊熵資訊熵是消除不確定性所需資訊量的度量。（多看幾遍這句話）資訊熵就是資訊的不確定程度，資訊熵越小，資訊越確定。信息熵=∑x=1n(信息x發生

機器學習筆記（六）邏輯回歸

邏輯回歸 alt 表示結果不變改變最小值 nbsp 可能性一、邏輯回歸問題二分類的問題為是否的問題，由算出的分數值，經過sign函數輸出的是（+1，-1），想要輸出的結果為一個幾率值，則需要改變函數模型，其中，，則邏輯回歸的函數為二、邏輯回歸錯誤評價線性

Machine Learning — 邏輯回歸

url home mage 簡化 bsp 線性 alt 邏輯回歸 sce 現實生活中有很多分類問題，比如正常郵件/垃圾郵件，良性腫瘤/惡性腫瘤，識別手寫字等等，這些可以用邏輯回歸算法來解決。一、二分類問題所謂二分類問題，即結果只有兩類，Yes or No，這樣結果｛0，

SparkMLlib學習分類算法之邏輯回歸算法

spl sca class put net lac gradient map ica SparkMLlib學習分類算法之邏輯回歸算法（一），邏輯回歸算法的概念（參考網址：http://blog.csdn.net/sinat_33761963/article/details

邏輯回歸的正則化

正則 .com logistic 可能 cnblogs 技術技術分享 img 規範我們可以規範logistic回歸以類似的方式，我們對線性回歸。作為一個結果，我們可以避免過擬合。下面的圖像顯示了正則化函數，用粉紅色的線顯示出來，是不太可能過度擬合非正則的藍線表示功能：

統計學習方法[6]——邏輯回歸模型

算法 ima 題解問題回歸統計學習同步轉換步長統計學習方法由三個要素組成：方法=模型+策略+算法模型是針對具體的問題做的假設空間，是學習算法要求解的參數空間。例如模型可以是線性函數等。策略是學習算法學習的目標，不同的問題可以有不同的學習目標，例如經驗風險最

邏輯回歸（Logistic Regression）

方差 %d pan transpose pos mit int gre cost import numpy as np import random def genData(numPoints,bias,variance):#實例偏好方差 x = np.zer

2.2 logistic回歸損失函數（非常重要，深入理解）

問題好的為知得出 cnblogs 回歸算法很多將他深入上一節當中，為了能夠訓練logistic回歸模型的參數w和b，需要定義一個成本函數使用logistic回歸訓練的成本函數為了讓模型通過學習來調整參數，要給出一個含有m和訓練樣本的訓練集很自然的，希望通過

分類和邏輯回歸(Classification and logistic regression)，廣義線性模型(Generalized Linear Models) ，生成學習算法(Generative Learning algorithms)

line learning nbsp ear 回歸 logs http zdb del 分類和邏輯回歸(Classification and logistic regression) http://www.cnblogs.com/czdbest/p/5768467.html

關於邏輯回歸和感知器一些基礎知識的理解

最大基礎知識 tro 分類函數學習分類概率深入顯式 1.貝葉斯學派和頻率學派在數理統計領域，貝葉斯學派和頻率學派兩派爭論已久，關於兩派的具體思想不做深入研究，僅探討它們在機器學習中的一點粗淺的應用。機器學習中的樸素貝葉斯

為何邏輯回歸的損失函式是用交叉熵而非均方誤差?

為何邏輯回歸的損失函式是用交叉熵而非均方誤差?

前言

邏輯回歸的損失函式推導

使用均方誤差，會出現多個區域性最小值?

相關推薦