1. 程式人生 > >資訊理論小結

資訊理論小結

資訊理論小結

joey 周琦

某個事件x發生的概率為p(x),那麼該事件的資訊量 h(x)=logP(x)

  • 該定義滿足h(x)>=0
  • 若事件x,y相互獨立,那麼

h(x,y)=logp(x,y)=logp(x)p(y)=h(x)+h(y)

熵:可以表示某個隨機事件包含的資訊量的期望

  • 熵= ipilogp
    i
  • 條件熵: H[y|x]=p(y,x)logp(y|x)
  • 互資訊: I(x,y)=H(x)H(x|y)=H(y)H(y|x)
  • 決策樹中的,information gain也就是互資訊,即假設有資料集D,某特徵A, IG(D,A)=H(D)H(D|A)

KL散度(kl divergence)

  • 若有一個未知分佈 p(x) , 假設我們利用 q(x) 來逼近該分佈,那麼 q(x) 逼近 p(x) 的程度可以用KL divergence表示
  • KL(p||q)=p(x)logq(x)(p(x)logp(x))=p(x)logq(x)p(x)
  • 可以證明:KL散度不對稱,>=0
  • 可以證明: I(x,y)=KL(p(x,y)||p(x)p(y))