【轉】通俗理解條件熵

阿新 • • 發佈：2018-12-24

前面我們總結了資訊熵的概念通俗理解資訊熵 - 知乎專欄,這次我們來理解一下條件熵。

我們首先知道資訊熵是考慮該隨機變數的所有可能取值，即所有可能發生事件所帶來的資訊量的期望。公式如下：

我們的條件熵的定義是：定義為X給定條件下，Y的條件概率分佈的熵對X的數學期望

這個還是比較抽象，下面我們解釋一下：

設有隨機變數（X,Y），其聯合概率分佈為

條件熵H（Y|X）表示在已知隨機變數X的條件下隨機變數Y的不確定性。隨機變數X給定的條件下隨機變數Y的條件熵H(Y|X)

公式

下面推導一下條件熵的公式：

注意

注意，這個條件熵，不是指在給定某個數（某個變數為某個值）的情況下，另一個變數的熵是多少，變數的不確定性是多少？

因為條件熵中X也是一個變數，意思是在一個變數X的條件下（變數X的每個值都會取），另一個變數Y熵對X的期望。

這是最容易錯的！

例子

下面通過例子來解釋一下：

假如我們有上面資料：

設隨機變數Y={嫁，不嫁}

我們可以統計出，嫁的個數為6/12 = 1/2

不嫁的個數為6/12 = 1/2

那麼Y的熵，根據熵的公式來算，可以得到H（Y） = -1/2log1/2 -1/2log1/2

為了引出條件熵，我們現在還有一個變數X，代表長相是帥還是帥，當長相是不帥的時候，統計如下紅色所示：

可以得出，當已知不帥的條件下，滿足條件的只有4個數據了，這四個資料中，不嫁的個數為1個，佔1/4

嫁的個數為3個，佔3/4

那麼此時的H（Y|X = 不帥） = -1/4log1/4-3/4log3/4

p(X = 不帥) = 4/12 = 1/3

同理我們可以得到：

當已知帥的條件下，滿足條件的有8個數據了，這八個資料中，不嫁的個數為5個，佔5/8

嫁的個數為3個，佔3/8

那麼此時的H（Y|X = 帥） = -5/8log5/8-3/8log3/8

p(X = 帥) = 8/12 = 2/3

計算結果

有了上面的鋪墊之後，我們終於可以計算我們的條件熵了，我們現在需要求：

H（Y|X = 長相）

也就是說，我們想要求出當已知長相的條件下的條件熵。

根據公式我們可以知道，長相可以取帥與不帥倆種

條件熵是另一個變數Y熵對X（條件）的期望。

公式為：

H（Y|X=長相） = p(X =帥)*H（Y|X=帥）+p(X =不帥)*H（Y|X=不帥）

然後將上面已經求得的答案帶入即可求出條件熵！

這裡比較容易錯誤就是忽略了X也是可以取多個值，然後對其求期望！！

總結

其實條件熵意思是按一個新的變數的每個值對原變數進行分類，比如上面這個題把嫁與不嫁按帥，不帥分成了倆類。

然後在每一個小類裡面，都計算一個小熵，然後每一個小熵乘以各個類別的概率，然後求和。

我們用另一個變數對原變數分類後，原變數的不確定性就會減小了，因為新增了Y的資訊，可以感受一下。不確定程度減少了多少就是資訊的增益。

後面會講資訊增益的概念，資訊增益也是決策樹演算法的關鍵。

致謝：

德川，皓宇，繼豪，施琦

【轉】通俗理解條件熵

前面我們總結了資訊熵的概念通俗理解資訊熵 - 知乎專欄,這次我們來理解一下條件熵。我們首先知道資訊熵是考慮該隨機變數的所有可能取值，即所有可能發生事件所帶來的資訊量的期望。公式如下：我們的條件熵的定義是：定義為X給定條件下，Y的條件概率分佈的熵對X的數學期望

【轉】通俗理解資訊熵

前段時間德川和我講解了決策樹的相關知識，裡面德川說了一下熵，今天整理了一下，記錄下來希望對大家理解有幫助~ 資訊熵的公式先丟擲資訊熵公式如下：其中代表隨機事件X為的概率，下面來逐步介紹資訊熵的公式來源！資訊量資訊

【轉】深入理解margin

盒模型 mbed 推理日誌 onf cap limited textarea 效果由淺入深漫談margin屬性 2007-3-18 上午 - HTML/CSS/XML/XSL - CSS - margin margin 在中文中我們翻譯成外邊距或者外補白（

【轉】如何理解雲計算？很簡單，就像吃貨想吃披薩了

公司如果 pan 雲技術 cit 分類本地應用 style 分發你一定聽說過雲計算中的三個“高大上”的概念：IaaS、PaaS和SaaS。這幾個術語並不好理解。不過，如果你是個吃貨，還喜歡披薩，這個問題就好解決了!好吧，其實你根本不是一個吃貨，之所以自我標榜為

【轉】深入淺出理解決策樹演算法（二）-ID3演算法與C4.5演算法

從深入淺出理解決策樹演算法（一）-核心思想 - 知乎專欄文章中，我們已經知道了決策樹最基本也是最核心的思想。那就是其實決策樹就是可以看做一個if-then規則的集合。我們從決策樹的根結點到每一個都葉結點構建一條規則。並且我們將要預測的例項都可以被一條路徑或者一條規則所覆蓋。如下例：假設我

【轉】深入淺出理解決策樹演算法（一）-核心思想

演算法思想決策樹（decision tree）是一個樹結構（可以是二叉樹或非二叉樹）。其每個非葉節點表示一個特徵屬性上的測試，每個分支代表這個特徵屬性在某個值域上的輸出，而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始，測試待分類項中相應的特徵屬性，並按照其值選擇

【轉】深入理解定位父級offsetParent及偏移大小

　偏移量(offset dimension)是javascript中的一個重要的概念。涉及到偏移量的主要是offsetLeft、offsetTop、offsetHeight、offsetWidth這四個屬性。當然，還有一個偏移參照——定位父級offsetParent。本文將詳細介紹該部分內容

【轉】深入理解C++的動態繫結和靜態繫結

為了支援c++的多型性，才用了動態繫結和靜態繫結。理解他們的區別有助於更好的理解多型性，以及在程式設計的過程中避免犯錯誤。需要理解四個名詞： 1、物件的靜態型別：物件在宣告時採用的型別。是在編譯期確定的。 2、物件的動態型別：目前所指物件的型別。是在執行期決定的。物件的

【轉】深入理解JDBC的超時設定

恰當的JDBC超時設定能夠有效地減少服務失效的時間。本文將對資料庫的各種超時設定及其設定方法做介紹。真實案例：應用伺服器在遭到DDos攻擊後無法響應在遭到DDos攻擊後，整個服務都垮掉了。由於第四層交換機不堪重負，網路變得無法連線，從而導致業務系統也無法正常運轉。安全組很快遮蔽了所有的DDos攻擊，並恢復了網

【轉】深入理解Linux的系統呼叫

　　一、什麼是系統呼叫　　　　在Linux的世界裡，我們經常會遇到系統呼叫這一術語，所謂系統呼叫，就是核心提供的、功能十分強大的一系列的函式。這些系統呼叫是在核心中實現的，再通過一定的方式把系統呼叫給使用者，一般都通過門(gate)陷入(trap)實現。系統呼叫是使用

【轉】深入理解Java：註解（Annotation）--註解處理器

display 枚舉 lec con null cto run toolbar int https://www.cnblogs.com/peida/archive/2013/04/26/3038503.html 　　如果沒有用來讀取註解的方法和工作，那麽註解也就

【轉】深入理解javascript中的立即執行函數(function(){…})()

但是不可模仿不同之處調用函數 title 指定作用 () javascript和其他編程語言相比比較隨意，所以javascript代碼中充滿各種奇葩的寫法，有時霧裏看花，當然，能理解各型各色的寫法也是對javascript語言特性更進一步的深入理解。 ( fun

【轉】java提高篇(二)-----理解java的三大特性之繼承

logs 了解向上轉型 one 調用 adding nbsp eight 基礎【轉】java提高篇(二)-----理解java的三大特性之繼承原文地址：http://www.cnblogs.com/chenssy/p/3354884.html 在《Thi

【轉】$.ajax({});的各個參數的理解

roc ipa 代碼參數傳遞 lba tty get請求數據類型函數名 ajax---Asynchronous JavaScript And XML-------異步JavaScript和XML-------(萬一你不知道這幾個字符啥意思呢)

理解javascript中的回調函數(callback)【轉】

自己實現需要 his tab 定義函數 copy 輸入 mil 幹什麽在JavaScrip中，function是內置的類對象，也就是說它是一種類型的對象，可以和其它String、Array、Number、Object類的對象一樣用於內置對象的管理。因為function

【轉】理解Callable 和 Spring DeferredResult

控制 defer -a word int https .html getc when http://www.cnblogs.com/aheizi/p/5659030.html 1-介紹 Servlet 3中的異步支持為在另一個線程中處理HTTP請求提供了可能性。當

【轉】深度學習基礎概念理解

器）好處網站 water weight tar 直觀 str view 原文鏈接神經網絡基礎 1）神經元（Neuron）——就像形成我們大腦基本元素的神經元一樣，神經元形成神經網絡的基本結構。想象一下，當我們得到新信息時我們該怎麽做。當我們獲取信息時，我們一般會處

我理解的樸素貝葉斯模型【轉】

package 規則 dia div href 重要源代碼容易計算轉自：http://www.cnblogs.com/nxld/p/6607943.html 我想說：“任何事件都是條件概率。”為什麽呢？因為我認為，任何事件的發生都不是完全偶然的，它都會以其他事件的

【轉】編寫高質量代碼改善C#程序的157個建議——建議28：理解延遲求值和主動求值之間的區別

ons ati rgs 理解問題效率 sele 而不是 reac 建議28：理解延遲求值和主動求值之間的區別要理解延遲求值（lazy evaluation）和主動求值（eager evaluation），先看個例子： List<in

【轉】編寫高質量代碼改善C#程序的157個建議——建議44：理解委托中的協變

關鍵字 man 常常 manage count () leg temp res 建議44：理解委托中的協變委托中的泛型變量天然是部分支持協變的。為什麽是“部分支持協變”？看下面示例： class Program { public del

【轉】通俗理解條件熵

公式

注意

例子

計算結果

總結

相關推薦