機器學習演算法之:指數族分佈與廣義線性模型
阿新 • • 發佈:2019-01-06
> 翻譯總結By joey周琦
參考NG的lecture note1 part3
本文將首先簡單介紹指數族分佈,然後介紹一下廣義線性模型(generalized linear model, GLM), 最後解釋了為什麼邏輯迴歸(logistic regression, LR) 是廣義線性模型的一種。
指數族分佈
指數族分佈 (The exponential family distribution),區別於指數分佈(exponential distribution)。在概率統計中,若某概率分佈滿足下式,我們就稱之屬於指數族分佈。
其中是natural parameter, 是充分統計量, 是起到歸一化作用。 確定了,我們就可以確定某個引數為的指數族分佈.
統計中很多熟悉的概率分佈都是指數族分佈的特定形式,如伯努利分佈,高斯分佈,多項分佈(multionmal), 泊松分佈等。下面介紹其中的伯努利分佈和高斯分佈。
- 伯努利分佈
把伯努利分佈可以寫成指數族分佈的形式,且
同時我們可以看到, 居然是logistic sigmoid的形式,後面在討論LR是廣義線性模型時,也會用到。
高斯分佈
高斯分佈也可以寫為指數族分佈的形式如下:
我們假設方差為1,當然不為1的時候也是可以推導的。上述我們就把高斯分佈寫為了指數族分佈的形式,對應的
廣義線性模型 (Generalized linear model, GLM)
本節將講述廣義線性模型的概念,以及LR,最小二乘為何也屬於廣義線性模型。
考慮一個分類或迴歸問題,我們就是想預測某個隨機變數, 是某些特徵(feature)的函式。為了推導廣義線性模式,我們必須做出如下三個假設
- 服從指數族分佈
- 給了