廣義線性模型 - Andrew Ng機器學習公開課筆記1.6

阿新 • • 發佈：2017-08-05

sans luci art 能夠 tro ron 便是 import grand

技術分享

在分類問題中我們如果：

技術分享

他們都是廣義線性模型中的一個樣例，在理解廣義線性模型之前須要先理解指數分布族。

指數分布族（The Exponential Family）

假設一個分布能夠用例如以下公式表達，那麽這個分布就屬於指數分布族：

技術分享

公式中y是隨機變量；h(x)稱為基礎度量值（base measure）；

η稱為分布的自然參數（natural parameter），也稱為標準參數（canonical parameter）；

T(y)稱為充分統計量，通常T(y)=y；

a(η)稱為對數切割函數（log partition function）；

技術分享本質上是一個歸一化常數。確保概率和為1。

當T(y)被固定時，a(η)、b(y)就定義了一個以η為參數的一個指數分布。我們變化η就得到這個分布的不同分布。

伯努利分布屬於指數分布族。伯努利分布均值為φ，寫為Bernoulli(φ)。是一個二值分布，y ∈ {0, 1}。所以p(y = 1; φ) = φ; p(y = 0; φ) = 1 ? φ。當我們變化φ就得到了不同均值的伯努利分布。伯努利分布表達式轉化為指數分布族表達式步驟例如以下：

技術分享

當中，

技術分享

技術分享

再舉一個高斯分布的樣例。高斯分布也屬於指數分布族。由高斯分布能夠推導出線性模型（推導過程將在EM算法中解說）。由星型模型的如果函數能夠得知，高斯分布的方差技術分享與如果函數無關，因而為了計算簡便，我們設方差=1。

高斯分布轉化為指數分布族形式的推導步驟例如以下：

技術分享

當中

技術分享

更多分部也屬於指數分布族。比如：伯努利分布（Bernoulli）、高斯分布（Gaussian）、多項式分布（Multinomial）、泊松分布（Poisson）、伽馬分布（Gamma）、指數分布（Exponential）、β分布、Dirichlet分布、Wishart分布。

構建廣義線性模型（Constructing GLMs）

在分類和回歸問題中，我們通過構建一個關於x的模型來預測y。這樣的問題能夠利用廣義線性模型（Generalized linear models，GMLs）來解決。構建廣義線性模型我們基於三個如果。也能夠理解為我們基於三個設計決策。這三個決策幫助我們構建廣義線性模型：

,如果滿足一個以為參數的指數分布。比如，給定了輸入x和參數θ。那麽能夠構建y關於的表達式。
給定x。我們的目標是要確定T(y)。即。
大多數情況下T(y)=y，那麽我們實際上要確定的是。即給定x，如果我們的目標函數是。（在邏輯回歸中期望值是。因此目標函數h是φ。在線性回歸中期望值是μ，而高斯分布中，因此線性回歸中目標函數）。
如果自然參數η和x是線性相關，即如果：

如果有一個預測問題：基於特征商店促銷活動、近期的廣告、天氣、星期幾等特征x。來預測商店在任一小時內的顧客數目y。

依據概率知識可知，x、y符合泊松分布。泊松分布屬於指數分布族。我們能夠利用上面的3個如果。構建一個廣義線性模型來進行構建預測模型。

GLMs構建最小二模型

線性回歸中的優化目標y（損失函數）是由最小二乘法得到的。能夠使用廣義線性模型構建最小二乘模型。三個如果：

最小二乘法得到的目標變量y是一個連續值，我們如果給定x下y的分布符合高斯分布。
如果1中的ExponentialFamily(η)就是高斯分布。
在高斯分布中。目標函數
如果：

推導步驟例如以下：

技術分享

第一步變換依據如果2：技術分享

第二步變換依據y|x; θ ∼ N(μ, σ2)，高斯分布的期望值是μ

第三步依據如果1：高斯分布中技術分享

第四步依據如果3：技術分享

如今已經使用廣義線性模型構建出了最小二乘模型。接下來的工作就是利用梯度下降、牛頓方法來求解θ。梯度下降、牛頓方法的內容請參考之前的講義。

GLMs構建邏輯回歸

邏輯回歸能夠用於解決二分類問題，而分類問題目標函數y是二值的離散值，技術分享。依據統計知識。二分類問題能夠選擇伯努利分布來構建模型。

在伯努利分布的指數分布族表達式中我們已知：技術分享，從而得到。

構建廣義線性模型的三個如果：

如果符合伯努利分布，
。伯努利分布中

推導步驟例如以下：

技術分享

同最小二乘模型一樣。接下來的工作就由梯度下降或牛頓方法來完畢。

註意一下上面的推到結果技術分享，回顧一下，在邏輯回歸中。我們選用Sigmoid函數。

之所以在邏輯回歸中選用這個g(z)作為Sigmoid函數是由一套理論作支持的。這個理論便是廣義線性模型。

廣義線性模型 - Andrew Ng機器學習公開課筆記1.6

廣義線性模型 - Andrew Ng機器學習公開課筆記1.6

sans luci art 能夠 tro ron 便是 import grand 在分類問題中我們如果：他們都是廣義線性模型中的一個樣例，在理解廣義線性模型之前須要先理解指數分布族。指數分

【Andrew NG 機器學習公開課】CS229：Introduction、Linear Regression

這份筆記來源於Andrew NG在Coursera上的公開課和講義。 Introduction 機器學習問題（一）有監督學習（Supervised Learning）基本思想是：given the right answer for each example i

機器學習公開課筆記(1)：機器學習簡介及一元線性迴歸

初步介紹監督式學習: 給定資料集並且知道其正確的輸出應該是怎麼樣的，即有反饋（feedback），分為迴歸（Regressioin）: map輸入到連續的輸出值。分類（Classification）：map輸出到離散的輸出值。非監督式學習: 給定資料集，並不知道其正確的輸出是什麼，

機器學習公開課筆記(2)：多元線性迴歸

多元線性迴歸一元線性迴歸只有一個特徵$x$，而多元線性迴歸可以有多個特徵$x_1, x_2, \ldots, x_n$ 假設 (Hypothesis)：$h_\theta(x)=\theta^Tx=\theta_0x_0+\theta_1x_1+\ldots+\theta_nx_n$ 引數 (Para

斯坦福機器學習公開課筆記(一)--單變數線性迴歸

授課老師：Andrew Ng 1、model representation(建立模型) 考慮一個問題，如果給定一些房屋售價和房屋面積的資料，現在要預測給定其他面積時的房屋售價，那該怎麼辦？其實這是一個線性迴歸問題，給定的資料作為訓練樣本，用其訓練得到一個表示售價和麵積關

機器學習公開課筆記第九周之大數據梯度下降算法

機器學習 nbsp gradient min 三種依次再看獲得 mini 一，隨機梯度下降法(Stochastic Gradient Descent) 當訓練集很大且使用普通梯度下降法(Batch Gradient Descent)時，因為每一次\(\theta\)

斯坦福機器學習公開課筆記十三推薦系統

也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！授課老師：Andrew Ng1、problem formulation(問題產生)在平時購物的時候我們都會看到網站把向我們推薦的商品放在醒目位置，其實這就是推薦

斯坦福機器學習公開課筆記(十五)--[應用]照片OCR技術

1、problem description and pipeline(問題描述和流水線) OCR是optical character recognition的縮寫，翻譯過來就是光學字元辨識。照片中的OCR技術其實就是識別中照片中存在的字元，例如下面這幅圖：關於過程

斯坦福機器學習公開課筆記(十三)--推薦系統

授課老師：Andrew Ng 1、problem formulation(問題產生) 在平時購物的時候我們都會看到網站把向我們推薦的商品放在醒目位置，其實這就是推薦系統。現在考慮一個電影推薦系統的例子，我們擁有一些使用者對於一些電影的評分，如下：從上面可以看到，使

機器學習公開課筆記(8)：k-means聚類和PCA降維

K-Means演算法非監督式學習對一組無標籤的資料試圖發現其內在的結構，主要用途包括：市場劃分（Market Segmentation）社交網路分析（Social Network Analysis）管理計算機叢集（Organize Computer Clusters）天文學資料分析（A

機器學習公開課筆記(7)：支援向量機

支援向量機(Support Vector Machine, SVM) 考慮logistic迴歸，對於$y=1$的資料，我們希望其$h_\theta(x) \approx 1$，相應的$\theta^Tx \gg 0$; 對於$y=0$的資料，我們希望$h_\theta(x) \approx 0$，相應的$\

機器學習公開課筆記(6)：應用機器學習的建議

應用機器學習的建議 1. 評估學習演算法在實際中應用學習演算法時，如何評估一個學習演算法的好壞？進一步地，如果學習的演算法的效果不太好，如何改進學習演算法？例如，對於一個簡單的線性擬合模型，改進演算法效果的策略包括：採用更多的訓練例項訓練模型採用更小的特徵集合增加額外的特徵嘗試高次項

機器學習公開課筆記(10)：大規模機器學習

批梯度下降 (Batch Gradient Descent) 以線性迴歸為例，用梯度下降演算法進行引數更新的公式為$$\theta_j=\theta_j-\alpha\frac{1}{m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$$可

機器學習公開課筆記(9)：異常檢測和推薦系統

異常檢測(Anomaly Detection) 基本假設：多數情況下資料點落入正常的取值範圍，但是當異常行為發生時，資料點的取值落入正常取值範圍之外（如圖1所示）。所以可以利用高斯分佈，計算行為發生的概率，如果是概率小於給定閾值，則認為發生了異常行為。基本過程是利用訓練資料點建立模型$p(x)$，對於新的資

機器學習公開課筆記(5)：神經網路(Neural Network)——學習

這一章可能是Andrew Ng講得最不清楚的一章，為什麼這麼說呢？這一章主要講後向傳播(Backpropagration, BP)演算法，Ng花了一大半的時間在講如何計算誤差項$\delta$，如何計算$\Delta$的矩陣，以及如何用Matlab去實現後向傳播，然而最關鍵的問題——為什麼要這麼計算？前面計算

機器學習公開課筆記(4)：神經網路(Neural Network)——表示

動機(Motivation) 對於非線性分類問題，如果用多元線性迴歸進行分類，需要構造許多高次項，導致特徵特多學習引數過多，從而複雜度太高。神經網路(Neural Network) 一個簡單的神經網路如下圖所示，每一個圓圈表示一個神經元，每個神經元接收上一層神經元的輸出作為其輸入，同時其輸出訊號到下一

Andrew Ng機器學習第一章——單變量線性回歸

梯度 tex 回歸同步常常最好可能機器 http 監督學習算法工作流程　　　　h代表假設函數，h是一個引導x得到y的函數　　如何表示h函數是監督學習的關鍵問題　　線性回歸：h函數是一個線性函數代價函數　　在線性回歸問題中，常常需要解決最小化問題。代

非監督學習之混合高斯模型和EM演算法——Andrew Ng機器學習筆記（十）

0、內容提要這篇博文主要介紹： - 混合高斯模型（mixture of Gaussians model） - EM演算法（Expectation-Maximization algorithm） 1、引入假設給定一個訓練集{x(1),...,x(m)

Andrew Ng機器學習課程筆記（十六）之無監督學習之因子分析模型與EM演算法

Preface Marginals and Conditionals of Gaussians（高斯分佈的邊緣分佈與條件分佈） Restrictions of ΣΣ（限制協方差矩陣） Factor Analysis（因子分析模型） EM Alg

學習理論之模型選擇——Andrew Ng機器學習筆記（八）

內容提要這篇部落格主要的內容有： 1. 模型選擇 2. 貝葉斯統計和規則化（Bayesian statistics and regularization）最為核心的就是模型的選擇，雖然沒有那麼多複雜的公式，但是，他提供了更加巨集觀的指導，而且很多時候