機器學習（十）——指數族（The exponential family）

阿新 • • 發佈：2019-01-03

為了達到廣義線性模型，我們首先定義指數族分佈。我們說如果一個分佈是指數族分佈，那麼它可以用以下形式表示：

這裡，η被稱為分佈的自然引數（也稱為規範引數）；T(y)是充分統計量（對於我們所考慮的分佈，通常情況下有T(y)=y）；a(η)被稱為對數劃分函式。這一項本質上是起到了正則化常數的作用，確保了分佈p(y;η)的總和或是積分在y到1上。

固定T，a和b，我們定義一族以η為引數的分佈；隨著η的變化，我們可以在這個族中得到不同的分佈。

我們現在以Bernoulli分佈和Gauss分佈為例，來說明它們屬於指數族分佈。均值為φ的Bernoulli分佈，可以寫成Bernoulli(φ),指定y∈ {0,1}的分佈，使得p(y=1;φ)=φ;p(y=1;φ)=1-φ。隨著φ的變化，我們得到了不同均值的Bernoulli分佈。我們現在來證明這類由變化的φ得到的bernoulli分佈，屬於指數族分佈。也就是說，有一個T，a和b的選擇，使方程(6)完全成為Bernoulli分佈的一類。

我們可以將bernoulli分佈寫成如下的形式：

因此，自然引數由η=log(φ/(1−φ))給出。有趣的是，如果我們把η的這個定義轉化為用η來求解φ，我們可以得到φ=，這不就是大家熟悉的 sigmoid 函式！當我們將Logistic迴歸作為GLM時，這將再次出現。為了完成Bernoulli分佈作為指數族分佈的公式，我們也有

這表明，使用適當的T、a和b的選擇，Bernoulli分佈可以用方程(6)的形式寫成。

現在讓我們繼續考慮高斯分佈。回想一下，當匯出線性迴歸時，的值對我們最終選擇θ和沒有影響。因此，我們可以為選擇任意值，而無需更改任何內容。為了簡化下面的推導，我們讓=1。然後，我們有：

因此，我們可以得到 Gaussian 也是指數族，其中：

還有許多其他分佈也是指數族的成員。例如，多項式分佈，泊松分佈， gamma 分佈，指數分佈，beta分佈， Dirichlet 分佈。

機器學習（十）——指數族（The exponential family）

機器學習（十）——指數族（The exponential family）

機器學習之十大經典演算法（八） PageRank演算法

機器學習演算法之：指數族分佈與廣義線性模型

細思恐極的星座分析（上） ——用大資料和機器學習揭開十二星座的真實面目！

機器學習第十週（一）--隨機梯度下降

【機器學習】主成分分析PCA（Principal components analysis）

Java基礎學習筆記十六集合框架（二）

《機器學習》 --周誌華版（西瓜書）--課後參考答案

機器學習之SVM初解與淺析（一）:最大距離

機器學習之SVM初解與淺析（一）:

機器學習實戰精讀--------奇異值分解（SVD）

機器學習數學基礎之矩陣理論（三）

【機器學習】支持向量機（SVM）

機器學習之支持向量機（三）：核函數和KKT條件的理解

機器學習之支持向量機（一）：支持向量機的公式推導

斯坦福大學公開課機器學習：Neural network-model representation（神經網絡模型及神經單元的理解）

Spark2.0機器學習系列之7： MLPC（多層神經網絡）

Go語言學習筆記十一：切片（slice）

吳恩達機器學習第5周Neural Networks（Cost Function and Backpropagation）

《機器學習》周誌華版（西瓜書）--課後參考答案

機器學習（十）——指數族（The exponential family）

相關推薦