1. 程式人生 > >統計學習方法 6-邏輯斯諦迴歸與最大熵模型

統計學習方法 6-邏輯斯諦迴歸與最大熵模型

邏輯斯諦迴歸模型

邏輯斯諦分佈

二元邏輯斯諦迴歸模型

模型引數估計

多元邏輯斯諦迴歸

最大熵模型

最大熵原理

最大熵原理認為,學習概率模型時,在所有可能的概率模型(分佈)中,熵最大的模型是最好的模型。通常用約束條件來確定概率模型的集合,所以,最大熵原理也可以表述為在滿足約束條件的模型集合中選取熵最大的模型。

H(P)=xP(x)logP(x)
0H(P)log|X|,當 X 服從均勻分佈時,熵最大。

最大熵模型的定義

假設滿足所有約束條件的模型集合為

ζ{PP|Ep(fi)=Ep~(fi),i=1,2,,n}
定義在條件概率分佈P(Y|X)上的條件熵為H
(P)=x,yP~(x)P(y|x)logP(y|x)

則模型集合ζ中條件熵H(P)最大的模型稱為最大熵模型。

最大熵模型的學習

最大熵模型的學習過程就是求解最大熵模型的過程。
約束最優化問題:
maxPCH(P)=x,yP~(x)P(y|x)logP(y|x)
s.t.
Ep(fi)=EP~(fi),i=1,2,,n
yP(y|x)=1$

最大熵模型:
Pω(y|x)=1Zω(x)exp(ni=1ωifi(x,y))
其中,
Zω=yexp(ni=1ωifi(x,y))

極大似然估計

對偶函式的極大化等價於最大熵模型的極大似然估計。

模型學習的最優化演算法

常用的方法有改進的迭代尺度法、梯度下降法、牛頓法或擬牛頓法。牛頓法或擬牛頓法一般收斂速度更快。

改進的迭代尺度法

最大熵模型的對數似然函式:
L(ω)=x,yP~(x,y)ni=1ωifi(x,y)xP~(x,y)logZomega(x)
目標是通過極大似然估計學習模型引數,即求對數似然函式的極大值ω~

IIS的想法是:假設最大熵模型當前的引數向量是w(w1,w2,,wn)T,我們希望找到一個新的引數向量w+δ(w1+δ1,w2+δ2,,wn+δn)T,使得模型的對數似然函式值增大。如果能有這樣一種引數向量更新的方法(w):ww+δ ,那麼就可以重複使用這一方法,直至找到對數似然函式的最大值。

L(ω+δ)L(ω)x,yP~(