1. 程式人生 > >深度學習中的資訊理論

深度學習中的資訊理論

  • 本文首發自公眾號:RAIS,歡迎關注。

前言

本系列文章為 《Deep Learning》 讀書筆記,可以參看原書一起閱讀,效果更佳。

資訊理論

資訊理論是數學上一個分支,非常重要,包括你能看到這篇文章資訊的傳輸資訊理論在其中都發揮了極其重要的作用,我就不贅述了,我們還是討論更學術更專業性的知識。

量化資訊

  • 非常可能的事情包含較少的資訊;
  • 較不可能的事情包含更高的資訊;
  • 獨立的事件具有增量的資訊。

自資訊

\[ I(x)=-\ln{P(x)} \]

夏農熵

本是熱力學中的概念,被夏農引入到資訊理論中,因此也被稱為資訊熵或夏農熵。不準確點說,熵是用來衡量混亂程度的。越混亂,熵越大,要弄清楚情況所需要的資訊越多。

\[ H(X)=E[I(X)]=E[-\ln(P(X))]=\sum_iP(x_i)I(x_i)=-\sum_iP(x_i)\log_bP(x_i) \]

其中 P 為 X 的概率質量函式,上一篇文章中介紹過。其中的 b 不同時對應的結果單位不同(機器學習中,用自然對數 e 為底,單位為 奈特)。對於連續變數則被稱為 微分熵。

相對熵

也叫 KL 散度,具有非負的特性。可以用來衡量兩個分佈之間的差異,用 p 分佈近似 q 的分佈,相對熵可以計算這個中間的損失,但是不對稱(p 對 q 和 q 對 p 不相等),因此不能表示兩個分佈之間的距離。

\[ 離散:D_{KL}(P||Q)=-\sum_iP(i)\ln\frac{Q(i)}{P(i)}=\sum_iP(i)\ln\frac{P(i)}{Q(i)} \]

\[ 連續:D_{KL}(P||Q)=\int_{-\infty}^{\infty}p(x)\ln\frac{p(x)}{q(x)}dx \]

交叉熵

用來度量兩個概率分佈之間的差異。從下面的公式可以看出,因為 H(p) 不變,因此交叉熵的變化可以反映出相對熵的變化,在機器學習或神經網路中,就可以用交叉熵來作為損失函式(不必用相對熵)。

\[ H(p,q)=E_p[\log q]=H(p)+D_{KL}(p||q) \]

結構化概率模型

因為深度學習或機器學習的演算法經常會涉及非常多的隨機變數的概率分佈,而且這些概率分佈中相互關聯的的變數並不是特別多,所以把所有的變數都相互關聯起來是沒有必要也是非常低效的,因此我們可以把概率分佈分解成許多部分概率的乘積的形式,這樣就可以把沒什麼關係的變數之間相互分割開,可以用有向圖表示。這種模型稱作 圖模型 或 結構化概率模型。舉個例子如:

\[ p(a,b,c)=p(a)p(b|a)p(c|b) \]

有有向圖就有無向圖,對於無向圖型別的,表示的是之間有函式關係,但不是一種概率關係,無法用很好的概率分佈去描述,相互之間有關係的我們稱作為一團,於是就有另外一種情況了。舉個例子如,其中 Z 為歸一化常數:

\[ p(a,b,c,d,e)=\frac{1}{Z}\phi^{(1)}(a,b,c)\phi^{(2)}(b,d)\phi^{(3)}(c,e) \]

總結

資訊理論是一種基礎,越靠近底層,演算法等,需要的越多,做上層應用的可能根本不關心,但這更像一塊基石,牢固的地基是在上面築高臺的基礎。

  • 本文首發自公眾號:RAIS,歡迎關注。