1. 程式人生 > >邏輯斯蒂迴歸,最大熵模型及其等價性

邏輯斯蒂迴歸,最大熵模型及其等價性

首先推導二類分類訓練集上的邏輯斯蒂迴歸模型(Logistic Regression), 然後推導最大熵模型(Maximum Entropy Model), 最後給出給出最大熵模型等價於邏輯斯蒂迴歸模型的條件.

1. 邏輯斯蒂迴歸

訓練集T={(xi,yi)|i=1,2,...,N},xRn,y{0,1}.

我們假設特徵X與輸出Y之間具有某種相關關係: X,Y是隨機變數, 且X的取值決定了Y的分佈, 即Y=Y(x).

為了預測Y的取值,我們建立模型擬合YX給定時的條件概率:

P(Y=1|X=x)=P{Y(x)=1}=f(x;β),其中f(x;β)是用來擬合這個條件概率的引數模型
.

我們希望引數模型 f(x;β) 滿足這樣的性質:

  1. f(x;β)[0,1].
  2. f應該至少是個連續函式. 這是因為我們希望模型f的輸出能夠隨 x平滑地變化.
  3. f應該儘可能簡單.

幸運的是, 恰好存在一個函式完美滿足上述所有條件,即sigmoid函式:

f(x;β)=11+e(β0+βT1x)

於是,我們的模型變成:

P(Y=1|X=x)=11+e(β0+βT1x)

我們使用最大似然估計來求解模型引數β:

maxβL(β)L(β)=lni=1nf(xi;β)yi(1f(xi;β))1yi

為什麼選擇sigmoid函式

保留訓練集T以及X,Y的相關關係不變,現在我們使用廣義線性模型(GLM)

對訓練集建模:

L(η(EY))=β0+βT1x.

現在我們來細化上述模型:一方面,考慮到Y{0,1}, 不妨假設Y服從二項分佈:

Y(x)B(p(x)); 另一方面, 我們使用Y的期望來預測Y的取值, 這樣我們有:η(EY)=η(EY(x))=EY(x)=p(x).

考慮到二項分佈的連線函式L通常取logit函式:

logit(x)=lnx1x,於是, 上述模型變為:lnp(x)1p(x)=β0+βT1x,解得p(x)=11+e(β0+βT1)