1. 程式人生 > >熵(entropy)的定義

熵(entropy)的定義

 

熵的概念最早起源於物理學,用於度量一個熱力學系統的無序程度。在資訊理論裡面,熵是對不確定性的測量。
1.1 熵的引入

    事實上,熵的英文原文為entropy,最初由德國物理學家魯道夫·克勞修斯提出,其表示式為:

    它表示一個繫系統在不受外部干擾時,其內部最穩定的狀態。後來一中國學者翻譯entropy時,考慮到entropy是能量Q跟溫度T的商,且跟火有關,便把entropy形象的翻譯成“熵”。

    我們知道,任何粒子的常態都是隨機運動,也就是"無序運動",如果讓粒子呈現"有序化",必須耗費能量。所以,溫度(熱能)可以被看作"有序化"的一種度量,而"熵"可以看作是"無序化"的度量。

    如果沒有外部能量輸入,封閉系統趨向越來越混亂(熵越來越大)。比如,如果房間無人打掃,不可能越來越乾淨(有序化),只可能越來越亂(無序化)。而要讓一個系統變得更有序,必須有外部能量的輸入。
    1948年,夏農Claude E. Shannon引入資訊(熵),將其定義為離散隨機事件的出現概率。一個系統越是有序,資訊熵就越低;反之,一個系統越是混亂,資訊熵就越高。所以說,資訊熵可以被認為是系統有序化程度的一個度量。
    若無特別指出,下文中所有提到的熵均為資訊熵。

1.2 熵的定義
    下面分別給出熵、聯合熵、條件熵、相對熵、互資訊的定義。
    熵:如果一個隨機變數X的可能取值為X = {x1, x2,…, xk},其概率分佈為P(X = xi) = pi(i = 1,2, ..., n),則隨機變數X的熵定義為:

                

    把最前面的負號放到最後,便成了:


    上面兩個熵的公式,無論用哪個都行,而且兩者等價,一個意思(這兩個公式在下文中都會用到)。

    聯合熵:兩個隨機變數X,Y的聯合分佈,可以形成聯合熵Joint Entropy,用H(X,Y)表示。
    條件熵:在隨機變數X發生的前提下,隨機變數Y發生所新帶來的熵定義為Y的條件熵,用H(Y|X)表示,用來衡量在已知隨機變數X的條件下隨機變數Y的不確定性。

    且有此式子成立:H(Y|X) = H(X,Y) – H(X),整個式子表示(X,Y)發生所包含的熵減去X單獨發生包含的熵。至於怎麼得來的請看推導:

   簡單解釋下上面的推導過程。整個式子共6行,其中

    第二行推到第三行的依據是邊緣分佈p(x)等於聯合分佈p(x,y)的和;
    第三行推到第四行的依據是把公因子logp(x)乘進去,然後把x,y寫在一起;
    第四行推到第五行的依據是:因為兩個sigma都有p(x,y),故提取公因子p(x,y)放到外邊,然後把裡邊的-(log p(x,y) - log p(x))寫成- log (p(x,y)/p(x) ) ;
    第五行推到第六行的依據是:條件概率的定義p(x,y) = p(x) * p(y|x),故p(x,y) / p(x) =  p(y|x)。

    相對熵:又稱互熵,交叉熵,鑑別資訊,Kullback熵,Kullback-Leible散度等。設p(x)、q(x)是X中取值的兩個概率分佈,則p對q的相對熵是:

    在一定程度上,相對熵可以度量兩個隨機變數的“距離”,且有D(p||q) ≠D(q||p)。另外,值得一提的是,D(p||q)是必然大於等於0的。

    互資訊:兩個隨機變數X,Y的互資訊定義為X,Y的聯合分佈和各自獨立分佈乘積的相對熵,用I(X,Y)表示:

    且有I(X,Y)=D(P(X,Y) || P(X)P(Y))。下面,咱們來計算下H(Y)-I(X,Y)的結果,如下:

    通過上面的計算過程,我們發現竟然有H(Y)-I(X,Y) = H(Y|X)。故通過條件熵的定義,有:H(Y|X) = H(X,Y) - H(X),而根據互資訊定義展開得到H(Y|X) = H(Y) - I(X,Y),把前者跟後者結合起來,便有I(X,Y)= H(X) + H(Y) - H(X,Y),此結論被多數文獻作為互資訊的定義。
---------------------
作者:刺客五六柒
來源:CSDN
原文:https://blog.csdn.net/qq_39521554/article/details/80559531
版權宣告:本文為博主原創文章,轉載請附上博文連結!