理解交叉熵損失

字符集編碼

字符集編碼的意義在於將資料集進行有效壓縮。
假設在一個文件中只出現了a、b、c、d、e 5種字元，其佔比如下表：

字元	a	b	c	d	e
佔比	0.1	0.1	0.2	0.2	0.4

最容易想到的編碼方式，5個字元，需要3個bit位，故：

字元	a	b	c	d	e	單個字元編碼長度期望值
編碼	000	001	010	011	100	3

但是這並不是最優的編碼方式，例如：

字元	a	b	c	d	e	單個字元編碼長度期望值
編碼	1111	1110	110	10	0	2.2

這種編碼方式的特點就在於，佔比高的字元編碼長度儘可能短，同時要滿足不能出現歧義的限制條件。
那麼給定一個數據集之後，究竟每個字元編碼是什麼，編碼應該多長呢？
給定字符集X={x}, 滿足p(x)的概率分佈，設字元x的最優編碼長度為l(x)，設H(X)為字元編碼長度期望，則根據夏農資訊理論，最優編碼情況下有以下結論：

l(x)=log1p(x)
H(X)=∑xp(x)log1p(x)
字符集編碼先介紹這麼多，一會兒會用到。

相對熵

相對熵是一種用來評價兩種概率分佈差異程度的方法。
給定字符集X

={x}，你通過某種方法預測其概率分佈為q(x)，但是其真實的概率分佈為p(x)，那麼怎麼評價二者的差異呢？如何評價q(x)偏離真實分佈p(x)的程度呢？
可以通過字符集編碼長度與最優編碼方案下的編碼長度的差來度量。
最優編碼方案下的字元編碼長度為：

l(x)=log1p(x)
根據預測概率分佈q(x)進行編碼，字元編碼長度為：
l(x)=log1q(x)
最優編碼方案下字元編碼長度期望為：
H(X)=∑xp(x)log1p(x)
根據預測概率分佈q(x)進行編碼，實際獲得的編碼長度期望為：
H′(X)=∑xp(x)log1q(x)
很顯然：
H′(X)>H(X)
因為最優編碼是編碼長度期望最短的；
定義：
D

KL(P||Q)=H′(X)−H(X)
可得：
DKL(P||Q)=∑xp(x)log(p(x))−∑xp(x)log(q(x))
DKL(P||Q)就是相對熵，從公式可以看出，相對熵是不對稱的。

交叉熵

交叉熵是從相對熵而來的。
在機器學習領域，多分類問題很常見，在很多深度學習模型當中，網路的輸出層就是一個softmax層，對於N分類問題，輸出是一個N維的向量，向量元素介於[0,1]之間，且元素累加和為1（這是softmax性質所決定的）；
將softmax層輸出向量視為預測類別的概率分佈q(x)，用真實類別標籤構造真實的類別概率分佈p(x)（例如，令真實類別概率為1，其餘類別概率為0），那麼相對熵DKL(P||Q)就可以評價預測結果q(x)的好壞了，我們只需要最小化它就好了。
既然可以用相對熵作為代價函式，那為什麼還要引出交叉熵？
因為在DKL(P||Q)的公式中：

DKL(P||Q)=∑xp(x)log(p(x))−∑xp(x)log(q(x))
∑xp(x)log(p(x))不涉及預測結果q(x)，是一個常數項，可以把這一項去掉簡化模型。
於是只剩下：
−

理解交叉熵損失（Cross-Entropy）

理解交叉熵損失

字符集編碼

相對熵

交叉熵

理解交叉熵損失（Cross-Entropy）

【聯絡】二項分佈的對數似然函式與交叉熵（cross entropy）損失函式

二項分佈的對數似然函式與交叉熵（cross entropy）損失函式的聯絡

Tensorflow中的交叉熵（Cross Entropy）

機器學習基礎（六）—— 交叉熵代價函式（cross-entropy error）

交叉熵代價函式（cross-entropy cost function）

【Kaggle-MNIST之路】CNN結構再改進+交叉熵損失函式（六）

深度學習基礎系列（五）| 深入理解交叉熵函式及其在tensorflow和keras中的實現

softmax + cross-entropy交叉熵損失函式詳解及反向傳播中的梯度求導

Python和PyTorch對比實現多標籤softmax + cross-entropy交叉熵損失及反向傳播

《TensorFlow實戰Google深度學習框架》——4.2.1 經典損失函式（交叉熵、均方差）

2線性分類器基本原理-2.3線性分類器之SoftMax和交叉熵損失(Cross-Entropy)

瑞麗熵（renyi entropy）

關於對比損失（contrasive loss）的理解（相似度越大越相似的情況）：

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：多引數尋優

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：單一引數尋優

交叉驗證（Cross-validation）

【機器學習】交叉驗證（cross-validation）

[轉載] 交叉驗證（Cross Validation）簡介

模型評估和超引數調整（二）——交叉驗證（cross validation）

理解交叉熵損失（Cross-Entropy）

理解交叉熵損失

字符集編碼

相對熵

交叉熵

相關推薦