資訊理論小結
阿新 • • 發佈:2018-12-17
資訊理論小結
joey 周琦
某個事件x發生的概率為p(x),那麼該事件的資訊量
h(x)=−logP(x)
- 該定義滿足h(x)>=0
- 若事件x,y相互獨立,那麼
熵:可以表示某個隨機事件包含的資訊量的期望
- 熵=
−∑ipilogp - 條件熵:
H[y|x]=−∑p(y,x)logp(y|x) - 互資訊:
I(x,y)=H(x)−H(x|y)=H(y)−H(y|x) - 決策樹中的,information gain也就是互資訊,即假設有資料集D,某特徵A,
IG(D,A)=H(D)−H(D|A)
KL散度(kl divergence)
- 若有一個未知分佈
p(x) , 假設我們利用q(x) 來逼近該分佈,那麼q(x) 逼近p(x) 的程度可以用KL divergence表示 -
KL(p||q)=−∫p(x)logq(x)−(−∫p(x)logp(x))=−∫p(x)logq(x)p(x) - 可以證明:KL散度不對稱,>=0
- 可以證明:
I(x,y)=KL(p(x,y)||p(x)p(y))