1. 程式人生 > >指數分佈族 和 廣義線性模型

指數分佈族 和 廣義線性模型

本節主要是我看了網易公開課上的Andrew Ng的機器學習公開課第四節所做的筆記加上自己的一些整理,將它發上來供參考,由於水平有限,可能有錯誤。

這節視訊中,Andrew Ng主要講了三個方面,分別是牛頓法,指數分佈家族和廣義線性迴歸(GLMS)。

本節介紹的指數分佈函式主要是為廣義線性迴歸所服務的。廣義線性迴歸對迴歸值是隨機變數(這主要是因為誤差導致實際值y是隨機變數)的情況下的建模提供了一種可行的建模方式。我認為,廣義線性模型一個重要的應用就是對迴歸值是隨機變數情況對迴歸值進行建模。

一 牛頓法

牛頓法與梯度法一樣,是一種常見的迭代優化方法。牛頓法在接近收斂值時呈指數收斂,表現性質很優良,但是在遠離收斂值的地方則收斂慢甚至不收斂。在二維矩陣下用Hessian矩陣的逆與梯度的乘積做變化步長。關於Hessian矩陣的理解,網上有很多,它也不是本節重點,這裡不贅述了。

二 指數分佈

指數分佈家族是定義的一組分散式,伯努利分佈及高斯分佈等分佈都可以看做指數分佈的特殊形式。指數分佈的公式如下:

p(y;η)=b(y)exp(ηTT(y)a(η))
p(y;η)表示y在η下概率,但是它不是條件概率,因為η不是隨機變數。而對於ηT 我認為是轉置的意思。上式還表示為:
p(y;η)=1Z(η)b(y)exp(ηTT(y)),a(η)=logZ(η)

Z(η)=yb(y)exp[ηTT(y)]dy,y 表示歸一化項。 T(y) 表示的是未知分佈P的引數y的充分統計量。(統計量是樣本資料的函式,充分統計量的意思是當且僅當T

(y)可以提供 y的全部資訊。一般情況下,把統計值轉化為統計量是會有一定的資訊丟失的)常用的T(y)=y. 確定a,b,T就可以得到一種具體非分佈。那麼為什麼要用這個指數分佈家族的形式呢?

  • 指數家族是唯一的充分統計量是有限大小的分佈家族
  • 指數家族是唯一存在共軛先驗的分佈家族
  • 指數家族為認為選定限制下作的假設最少的分佈家族
  • 指數家族是廣義線性模型的核心內容
  • 指數家族是變分推斷(variational inference)的核心內容

下面,帶入兩個具體的例子(伯努利分佈和高斯分佈)

1.伯努利分佈

首先,我們假設p(y=1;ϕ)=ϕ;p(y=0;ϕ)=1ϕ

p
(y;ϕ)=ϕy(1ϕ)(1y)
=exp[ylnϕ+(1y)ln(1ϕ)]=exp[ylnϕ1ϕ+ln(1ϕ)]y=0||y=1

那麼我們做下列轉化

η=lnϕ(1ϕ),ϕ=11+eη自然引數和均值引數之間的轉化正好滿足sigmoid函式b(y)=1T(y)=ya(η)=ln(1ϕ)=ln11+eη

最後,可以得到例子是:

p(y;η)=exp[ηyln11+eη]

2.高斯分佈

由於方差對我們最終選擇的θhθ(x)無影響,因此我們可以令方差為1。(此處是在之前最小二乘法與極大似然的推導中得證方差與結果無影響)

p(y;μ)=1