交叉熵與softmax函式

阿新 • • 發佈：2018-11-03

交叉熵與softmax函式

在神經網路中，在對超引數進行優化過程當中，需要有一個優化的目標值，也就是真實值與預測值之間的差距要儘量小，差距越小說明預測越精確。這個差距往往用loss表示

在分類問題當中，我們用交叉熵來表示這個loss值。

1. 熵的概念

熵是物理學中的一個名詞，表示體系混亂的程度，越混亂熵越大。在神經網路中，交叉熵越大說明預測的越不準確，越混亂。

2. 交叉熵的計算公式

$H_{y}$

′ ( y ) = − ∑ i

= 0 n y i ′ l

o g ( y i ) H_{y'}(y) = -\sum_{i=0}^n{y'_ilog(y_i)}

H_{y^{'}} (y) = - i = 0 \sum n y_{i}^{'} l o g (y_{i})

其中 $y'_i$ 就是真實值， $y_i$ 為預測的結果概率

3. 二分類問題

假設真實結果：

A’ 發生的概率為0
B’ 的概率為1

方法一：預測的結果為：

A發生的概率為0.4
B發生的概率為0.6

則他們的交叉熵就為：

$-(0*log0.4) - 1*log0.6 = 0.222$

方法二：預測的結果為：

A發生的概率為0.1
B發生的概率為0.9

則他們的交叉熵就為：

$-(0*log0.1) - 1*log0.9 = 0.046$

經過計算，方案二的交叉熵比方案一的小，這也和我們預期的一樣，方案二的預測結果的確更加精確

4. 多分類問題

在多分類問題當中，我們假設5分類，真實結果為：

A’ 發生的概率為 0
B’ 發生的概率為 0
C’ 發生的概率為 0
D’ 發生的概率為 0
E’ 發生的概率為 1

在計算交叉熵前，我們要確保預測的所有結果滿足概率和為1，但是往往，我們通過神經網路計算出來的結果並不滿足這樣的條件。這時候就需要softmax函式幫忙了。

4.1. softmax函式

softmax能夠計算出每個值在所有值中的大小比重，得出該事件的概率
並且保證所有事件的概率和為1

4.1.1. softmax公式

$S_i=\frac{e^i}{\sum_{j=0}^n e^j}$

其中，i為第i個事件對應的神經網路計算出的值， $S_i$ 就是第i個事件在所有事件中的概率了

4.1.2. 簡單應用

在多分類問題當中，我們假設5分類，計算出的結果為：

A 預測的概率為 1
B 預測的概率為 4
C 預測的概率為 0.6
D 預測的概率為 0.1
E 預測的概率為 9

很顯然這5個事件的概率和並不為1，不能直接使用交叉熵進行計算，先通過softmax函式進行適當的縮放，使得他們的概率和為1

$\sum_{j=0}^n e^j = e^1 + e^4 + e^{0.6} + e^{0.1} + e^9 = 8163.33\\ S_A = \frac{e^1}{8163.33}=0.0003\\ S_B = \frac{e^4}{8163.33}=0.0067\\ S_C = \frac{e^{0.6}}{8163.33}=0.0002\\ S_D = \frac{e^{0.1}}{8163.33}=0.0001\\ S_E = \frac{e^9}{8163.33}=0.9923\\ 顯然S_A+S_B+S_C+S_D+S_E=1,softmax函式成功實現功能$

4.2. 求交叉熵

有了softmax函式的轉換，多分類問題求交叉熵就容易了，和二分類別無二致。

$-(0*log0.0003) - 0*log0.0067 - 0*log0.0002 - 0*log0.0001 - 1 * log0.9923= 0.0034$

這個計算結果已經很小了，說明系統預測的這個結果還是很精確的。並且系統預測E的概率0.9923，實際E的概率為1，也的確很精確了。

交叉熵與softmax函式

交叉熵與softmax函式在神經網路中，在對超引數進行優化過程當中，需要有一個優化的目標值，也就是真實值與預測值之間的差距要儘量小，差距越小說明預測越精確。這個差距往往用loss表示在分類問題當中，我們用交叉熵來表示這個loss值。 1. 熵的概念熵是物理學中的一個名詞

深度學習框架TensorFlow學習與應用（三）——使用交叉熵作為代價函式

二次代價函式（quadratic cost）：其中，C表示代價函式，x表示樣本，y表示實際值，a表示輸出值，n表示樣本的總數。例如：假如我們使用梯度下降法（Gradient descent）來調整權值引數的大小，權值w和偏置b的梯

資訊量，熵，交叉熵，相對熵與代價函式

1. 資訊量資訊的量化計算：解釋如下：資訊量的大小應該可以衡量事件發生的“驚訝程度”或不確定性：如果有⼈告訴我們⼀個相當不可能的事件發⽣了，我們收到的資訊要多於我們被告知某個很可能發⽣的事件發⽣時收到的資訊。如果我們知道某件事情⼀定會發⽣，那麼我們就不會接收到資訊。也就是說，

KL散度、交叉熵與極大似然的友誼

ood 進行映射滿足變量 rac 生成 ack kl散度一. 信息論背景　　信息論的研究內容，是對一個信號包含信息的多少進行量化。所采用的量化指標最好滿足兩個條件：（1）越不可能發生的事件包含的信息量越大；（2）獨立事件有增量的信息（就是幾個獨立事件同時發生的

通俗的解釋交叉熵與相對熵

其中函數 tar 大小四種表示 static nbsp 如果原文　　如何通俗的解釋交叉熵與相對熵? 相關公式：假設現在有一個樣本集中兩個概率分布 p,q，其中 p 為真實分布，q 為非真實分布。假如，按照真實分布 p 來衡量識別一個樣本所需要的編碼長度的期望為：

交叉熵與KL散度

Welcome To My Blog 老遇到交叉熵作為損失函式的情況,於是總結一下 KL散度交叉熵從KL散度(相對熵)中引出,KL散度(Kullback-Leibler Divergence)公式為: KL散度是衡量兩個分佈之間的差異大小的,KL散度大於等於0,並且越接

為什麼用交叉熵作為損失函式

交叉熵(cross entropy)經常用來做機器學習中的損失函式。要講交叉熵就要從最基本的資訊熵說起。 1.資訊熵資訊熵是消除不確定性所需資訊量的度量。（多看幾遍這句話）資訊熵就是資訊的不確定程度，資訊熵越小，資訊越確定。信息熵=∑x=1n(信息x發生

交叉熵在loss函式中使用的理解

交叉熵（cross entropy）是深度學習中常用的一個概念，一般用來求目標與預測值之間的差距。以前做一些分類問題的時候，沒有過多的注意，直接呼叫現成的庫，用起來也比較方便。最近開始研究起對抗生成網路（GANs），用到了交叉熵，發現自己對交叉熵的理解有些模糊，不夠深入。遂花了幾天的時間從頭梳理了一下相關

理解交叉熵作為損失函式在神經網路中的作用

交叉熵的作用通過神經網路解決多分類問題時，最常用的一種方式就是在最後一層設定n個輸出節點，無論在淺層神經網路還是在CNN中都是如此，比如，在AlexNet中最後的輸出層有1000個節點：而即便是ResNet取消了全連線層，也會在最後有一個1000個節

交叉熵以及為什麼用交叉熵作為代價函式

作者：知乎使用者來源：知乎著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。熵的本質是夏農資訊量()的期望。現有關於樣本集的2個概率分佈p和q，其中p為真實分佈，q非真實分佈。按照真實分佈p來衡量識別一個樣本的所需要的編碼長度的期望(即平均編碼長度)為：H(

使用交叉熵作為代價函式

二次代價函式（quadratic cost）：其中，C表示代價函式，x表示樣本，y表示實際值，a表示輸出值，n表示樣本的總數。例如：假如我們使用梯度下降法（Gradient descent）來調整權值引數的大小，權值w和偏置b的梯度推導如下：

資訊熵、交叉熵與相對熵(KL散度)的關係，還介紹了聯合資訊熵和條件熵、互資訊（資訊增益）的概念

@(關於機器學習的其他)[KL散度][資訊熵][交叉熵] 1、資訊量資訊量用一個資訊所需要的編碼長度來定義,而一個資訊的編碼長度跟其出現的概率呈負相關,因為一個短編碼的代價也是巨大的,因為會放棄所有以其為字首的編碼方式,比如字母”a”用單一個

熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢？詳細解讀這裡有！

熵是一個很常見的名詞，在物理上有重要的評估意義，自然語言處理的預備知識中，熵作為資訊理論的基本和重點知識，在這裡我來記錄一下學習的總結，並以此與大家分享。資訊理論基本知識 1、熵 2、聯和熵與條件熵 3、互資訊 4、交叉熵與相對熵 5、困惑度 6、總結 1、熵熵也被稱為自資訊，描述一個隨機變數的不確定性