機器學習中你需要了解的各種熵

阿新 • • 發佈：2019-01-19

1前言

資訊熵是資訊理論和機器學習中非常重要的概念，資訊是一個很抽象的概念，如何量化資訊呢？夏農提出了‘資訊熵’概念來解決了這個問題。本篇部落格主要是詳細記錄資訊熵中的一些概念 (自資訊，熵，交叉熵，相對熵，互資訊，決策樹中相關的熵)，以方便自己日後回顧，所以不免從書上或者各篇部落格中收集了素材，但是本著尊重原創，後面都列出了參考連結，在此也感謝參考連結上的作者。

2各種熵的詳細介紹

2.1自資訊

自資訊表示某一事件發生時所帶來的資訊量的多少。但是什麼才是資訊量呢？簡單點說就是我能從一件事情發生得到的資訊多少。如果一件事很大概率的發生，對於這件事的發生我們並不會很奇怪，於是我們從這件事發生獲取的資訊量就比較少，如果比較小概率的事件發生發了，我們接收到的資訊就比較多。>換句話說就是，某一事件發生的概率非常小，但是實際上卻發生了(觀察結果)，則此時的自資訊非常大；某一事件發生的概率非常大，並且實際上也發生了，則此時的自資訊較小。

>**說明：** 1.圖中I(P)表示某件事情發生獲取到的資訊量，其中P表示事件發生的概率分佈。I(p_i)表示該事件發生的第i種情況下獲取到的資訊量。 2.等式中其中負號是用來保證資訊量是正數或者零。而log函式基的選擇是任意的（資訊理論中基常常選擇為2，因此資訊的單位為位元bits；而機器學習中基常常選擇為自然常數，因此單位常常被稱為奈特nats）

2.2資訊熵

自資訊中的某件事情，我們可以定義為一個隨機變數X。其中P表示隨機變數的概率分佈。資訊熵H(X)被稱為隨機變數X的熵,它表示隨機變數不確定的度量，是對所有可能發生的事件產生的資訊量的期望。可以理解為該事件上能獲取到的平均資訊量。

說明:
1.從上述公式可以看出，熵只依賴於X的分佈，與X的取值無關。
2.令0log0=0(因為某個取值概率可能為0)
3.熵越大,隨機變數的不確定性就越大(事件發生越是不確定，資訊量就越大,平均資訊量越大，那麼也可以代表這個變數的不確定性越大)

2.3條件熵和聯合熵

**a.**條件熵H(Y|X)表示在已知隨機變數X的條件下隨機變數Y的不確定性。條件熵H(Y|X)定義為X給定條件下Y的條件概率分佈的熵對X的數學期望.

**b.**其中聯合熵為隨機變數X與隨機變數Y同時發生的概率分佈的熵。

**c.**聯合熵與條件熵之間的關係為：

2.4交叉熵

交叉熵常常被用於機器學習的代價函式，多用於分類模型的代價函式。其主要是用於度量兩個分佈之間的差異性。話不多說先給出交叉熵的公式:

說明：
1.p(x)和q(x)為樣本集的兩個概率分佈，也就是機器學習中的樣本x為各個類別label的概率分佈.其中p(x) 為真實分佈,q(x)非真實分佈-預測的概率分佈。logq(x)表示的是q的資訊量。
2.交叉熵是如何衡量概率分佈p,q之間的差異的？真實的樣本概率分佈是p(x),H(p,q)表示的是用q(x)進行對真實的樣本進行編碼得到的熵的大小，交叉熵熵越大，越不確定，差異越大。

2.5相對熵

使用非真實分佈q(x)對樣本x發生的概率進行編碼得到的平均碼長H(p,q)比真實分佈p(x)對樣本x發生的概率進行編碼得到的平均碼長(H§)多出的位元數就是相對熵也稱KL散度.給出公式：

說明：
1.交叉熵和相對熵兩種熵度量兩個概率分佈之間的差異是等價的。從公式上來看，兩者之間相差一個H§為真實樣本的概率分佈，在機器學習中，訓練資料分佈是固定的，最小化相對熵D_KL(p||q)等價於最小化交叉熵H(p,q)也等價於最大化似然估計。
2.D_KL是非負性的。
3.非對稱的，公式中可以看出，KL散度是衡量兩個分佈的不相似性，不相似性越大，則值越大，當完全相同時，取值為0。

2.6互資訊

一個隨機變數由於已知另一個隨機變數而減少的不確定性，或者說從貝葉斯角度考慮，由於新的觀測資料y到來而導致x分佈的不確定性下降程度。列出公式：
圖10

說明：
1.互資訊其在特性選擇、分佈的距離評估中應用非常廣泛。
2.其實互資訊和相對熵也存在聯絡，如果說相對熵不能作為距離度量，是因為其非對稱性，那麼互資訊的出現正好彌補了該缺陷，使得我們可以計算任意兩個隨機變數之間的距離，或者說兩個隨機變數分佈之間的相關性、獨立性。

決策樹中相關的熵的使用

包括【資訊增益、資訊增益比、gini係數】。筆者在其他博文中已經介紹

3總結

1.自資訊是衡量隨機變數中的某個事件發生時所帶來的資訊量的多少，越是不可能發生的事情發生了，那麼自資訊就越大；
2.資訊熵是衡量隨機變數分佈的混亂程度，是隨機分佈各事件發生的資訊量的期望值，隨機變數的取值個數越多，狀態數也就越多，資訊熵就越大，混亂程度就越大。當隨機分佈為均勻分佈時，熵最大；資訊熵是傳輸一個隨機變數狀態值所需的位元位下界（最短平均編碼長度)
3.自資訊，資訊熵都是針對一個隨機變數的，而交叉熵、相對熵和互資訊可以衡量兩個隨機變數之間的關係。相對熵是指用q來表示分佈p額外需要的編碼長度。交叉熵是指用分佈 q 來表示本來表示分佈 p 的平均編碼長度。
交叉熵一般用在神經網路和邏輯迴歸中作為損失函式，相對熵一般用在生成模型中用於評估生成的分佈和真實分佈的差距，而互資訊是純數學的概念，作為一種評估兩個分佈之間相似性的數學工具，其三者的關係是：最大化似然函式，等價於最小化負對數似然，等價於最小化交叉熵，等價於最小化KL散度，互資訊相對於相對熵區別就是互資訊滿足對稱性；
4.對於決策樹中的資訊增益、資訊增益比、gini係數主要是用於特徵選擇。資訊增益中的兩個隨機變數是把一個變數看成是減少另一個變數不確定度的手段。資訊增益率主要是克服資訊增益存在的在某種特徵上分類特徵細，但實際上無意義取值時候導致的決策樹劃分特徵失誤的問題。(特徵取值多，資訊增益比較大的問題)。gini係數主要考慮的是計算快速性、高效性。基尼係數主要是度量資料劃分對訓練資料集D的不純度大小，基尼係數越小，表明樣本的純度越高。

機器學習中你需要了解的各種熵

1前言

2各種熵的詳細介紹

2.1自資訊

2.2資訊熵

2.3條件熵和聯合熵

2.4交叉熵

2.5相對熵

2.6互資訊

決策樹中相關的熵的使用

3總結

4參考連結

機器學習中你需要了解的各種熵

0基礎學習大數據你需要了解的學習路線和方向

粵嵌怎樣學習嵌入式？準備前期你需要了解的這些內容

【廣州服務器回收】服務器維護過程中，你需要了解的5個小常識

關於深度學習優化器 optimizer 的選擇，你需要了解這些

關於深度學習，這些知識點你需要了解一下

你需要了解深度學習和神經網路這項技術嗎？

學習 webpack 前，你需要了解的那些概念

0基礎學習大資料你需要了解的學習路線和方向

Spring Cloud Config 配置中心實踐過程中，你需要了解這些細節！

如何在 Spring/Spring Boot 中做引數校驗？你需要了解的都在這裡！

你需要了解的 C++ 17 Top 19 新特性（附精彩評論）

你需要了解的HTTP知識都在這裏了！

關於驗證碼，你需要了解這些

微服務架構盛行的時代，你需要了解點 Spring Boot

.NET Core部署中你不了解的框架依賴與獨立部署

學習大資料-需要了解RAID

學習rest_framework之前需要了解的

身為前端開發工程師，你需要了解的搜尋引擎優化SEO.

身為前端開發工程師，你需要了解的搜索引擎優化SEO.

機器學習中你需要了解的各種熵

1前言

2各種熵的詳細介紹

2.1自資訊

2.2資訊熵

2.3條件熵和聯合熵

2.4交叉熵

2.5相對熵

2.6互資訊

決策樹中相關的熵的使用

3總結

4參考連結

相關推薦