1. 程式人生 > >深入解析最大熵模型

深入解析最大熵模型

不要把雞蛋放到一個籃子裡

理解了這句話其實已經理解了最大熵模型的精髓了,不過這句話還是有點含蓄,下面講一下我的理解,歡迎交流。
“不要把雞蛋放到一個籃子裡”,這樣可以降低風險。

為啥不放到一個籃子裡就可以降低風險啊?如果有人告訴你就算世界毀滅這個籃子也不會破也不會摔倒地上,那麼就永遠不會有風險(雞蛋永遠不會摔破)
遺憾的是,沒有人告訴過你(暗含我們沒有足夠的知識做出這樣的推理),既然有風險就說明籃子是有可能破掉的,但是我們又無法準確知道到底哪個籃子會破掉,那麼我們怎麼做呢?那麼好吧我們認命承認自己一無所知,不作出任何假設(比如假設某個籃子不會破),把雞蛋隨機的放入多個籃子裡面,這樣風險最小。
有些東西寫出來就和想的不一樣,湊合看吧,這個應該可以數學上給予證明,我不會啊,哎

熵和條件熵

這個在決策樹的部落格裡面已經介紹過了,這裡再簡單說下
熵在資訊理論和概率統計中,用來表示隨機變數的不確定。是用來度量不確定的,(最大熵模型說白了就是最大不確定模型,最大不確定性模型不是最不靠譜模型,恰恰相反是最靠譜的模型,後面會介紹為什麼?
熵的定義:
X ( x 1

, x 2 , x n )
X∈(x_1,x_2,……x_n) 為一個離散隨機變數,其概率分佈為 P ( X = x i ) = p i , i = 1 , 2 n P(X=x_i)=p_i,i=1,2……n ,則 X X 的熵為
H ( X ) = i = 1 n p i l o g p i , p i = 0 , 0 l o g 0 = 0 H(X)=-\displaystyle\sum_{i=1}^{n}p_ilogp_i,其中若p_i=0,定義0log0=0
H ( X ) H(X) 僅依賴於 X X 的分佈,而與 X X 的具體取值無關。 H ( X ) H(X) 的值越大,表示 X X 的不確定性越大。
**條件熵:**設 X ( x 1 , x 2 , x n ) Y ( y 1 , y 2 , y m ) X∈(x_1,x_2,……x_n),Y∈(y_1,y_2,……y_m) 為離散隨機變數。在已知X的條件下,Y的條件熵可定義為:
H ( Y X ) = i = 1 n p ( x i ) H ( Y X = x i ) = i = 1 n p ( x i ) j = 1 m p ( y j x i ) l o g p ( y j x i ) H(Y|X)=\displaystyle\sum_{i=1}^{n}p(x_i)H(Y|X=x_i)=-\displaystyle\sum_{i=1}^{n}p(x_i)\displaystyle\sum_{j=1}^{m}p(y_j|x_i)logp(y_j|x_i)
它表示已知 X X 的條件下,Y的條件概率分佈的熵對X的數學期望。

似然與最大似然估計

在數理統計學中,似然函式是一種關於統計模型中引數的函式(似然函式中的未知數是模型引數,理解一下),在統計推斷中有重大作用。
似然性與概率的區別:
1)概率用於在已知一些引數的情況下,預測接下來的觀測所得到的結果。(其實就是模型已知了即模型引數都知道了,利用這個已有模型預測下觀測結果)

2)似然性則是用於在已知某些觀測所得到的結果時,對有關實物的性質的引數進行估計(觀測結果已經呈現在眼前了,你給說說是什麼樣的引數才最大可能會出現目前的結果)

最大似然估計是似然函式最初也是最自然的應用,似然函式取得最大值表示相應的引數能夠使得統計模型最為合理(醍醐灌頂,該賞)
從這樣一個想法出發,最大似然估計的做法是:首先選取似然函式(一般是概率密度函式),整理之後求最大值。

設X為離散隨機變數,其概率分佈為 p ( x : θ ) , θ X N x 1 , x 2 , x n : p(x:θ),θ為引數,則X的N個**獨立同分布**的樣本x_1,x_2,……x_n的聯合概率分佈為:

p ( x 1 , x 2 x N θ ) = p ( x i ; θ ) , i = 1 , 2 N p(x_1,x_2……x_N;θ)=∏p(x_i;θ),其中i=1,2……N

1)當引數 θ θ 固定時,上式表示 x 1 , x 2 , x n x_1,x_2,……x_n 的概率
2)當 x 1 , x 2 , x n x_1,x_2,……x_n 固定時,它是 θ θ 的函式,把它記作 L ( θ ; x ) L(θ;x)並稱其為似然函式