機器學習cs229——（三）區域性加權迴歸、邏輯迴歸、感知器、牛頓方法、廣義線性模型

首先，我們先來討論一下欠擬合（underfitting）和過擬合（overfitting）問題。比如我們同樣採用線性迴歸來對一組房屋價格和房屋大小的資料進行擬合，第一種情況下我們只選取一個數據特徵(比如房屋大小 x)採用直線進行擬合。第二種情況下選取兩個資料特徵(比如房屋大小 x ,以及房屋大小的平方 $\small x^{2}$ )採用二次函式擬合。第三種情況由於只有七個資料樣本所以最多隻能選取六個資料特徵(x、 $\small x^{2}$ ... )進行最高6次多項式的擬合。擬合效果如下圖：

如圖1所示，由於選取的特徵太少，使得資料偏離曲線較遠，擬合的效果並不能很好的體現資料的變化趨勢，我們稱之為欠擬合。而如圖3所示，另一種情況下由於選取的特徵過多

，使得擬合所得曲線雖然精確的穿過了每一個數據樣本，但卻僅僅反映了所給的特定資料的特點，而不是隱藏在其中的房屋價格隨房屋大小變換的一般規律。這種情況我們稱之為過擬合。

引數學習演算法（Parametric learning algorithm）

是指一類有固定數量的引數以進行資料擬合的演算法。

非引數學習演算法（Non-parametric learning algorithm）

是指引數數量會隨著訓練集合的大小線性增長的演算法。即演算法的每次執行是基於整個訓練集合的，即使在訓練學習之後。區域性加權迴歸就是一個非引數學習演算法。

區域性加權迴歸（Locally weighted regression）

由於歷史原因，也被稱為 Loess/lowess 。這個演算法可以讓我們不用擔心特徵的選擇。演算法的模型不是固定的，且引數大小不是固定的，而是根據訓練樣本點與預測點的距離建立起臨時模型。每次預測都需要重新計算一組引數值並建立新的臨時模型，因此計算代價很大，不適合大規模的資料集。

例如，對下圖的資料集做區域性加權線性迴歸：

對於區域性加權線性迴歸，我們為每一個樣本資料的預測損失新增一個權值，然後對加權後的損失值求和得到樣本集合總的預測代價。然後調整引數向量 $\small \Theta$ 使得代價最小：

即最小化下式

$\small \sum_{i}\omega ^{\left ( i \right )}\left ( y^{\left ( i \right )}-\Theta ^{T}x^{\left ( i \right )} \right )^{2}$

其中， $\small \omega ^{\left ( i \right )}$ 表示訓練集合中第 i 個數據在擬合過程中所佔的權值，即貢獻度。定義如下：

$\small \sum_{i}\omega ^{\left ( i \right )}=e^{-\frac{\left ( x^{\left ( i \right )} -x\right )^{2}}{2\tau^{2} }}$

其中 $\small \tau$

稱為波長引數，它控制著權值隨距離變化的速率。 越大遠距離樣本的權值下降更快。

觀察權值函式形式易得，樣本資料越靠近待預測點權值越大(接近於1)，相反樣本資料越遠離待預測點權值越小(接近於0)，相當於在待預測點鄰域內構成區域性線性迴歸。如下圖

需要注意，區域性加權迴歸並不能避免欠擬合和過擬合的問題，關鍵就在於設定的波長引數是否合適。

對於線性迴歸演算法，一旦擬合出適合訓練資料的引數向量 $\small \Theta$ ，就儲存這些引數，對於之後的預測，不需要再使用原始訓練資料集，所以是引數學習演算法。

對於區域性加權線性迴歸演算法，每次進行預測都需要全部的訓練資料（每次進行的預測得到不同的引數向量 $\small \Theta$ ），沒有固定的引數，所以是非引數演算法。

線性迴歸的概率解釋

利用高斯概率分佈（即正態分佈）進行推導，最終可以得出線性迴歸代價函式採用最小二乘形式的原因。

假設：

$\small y^{\left ( i \right )}=\Theta ^{T}x^{\left ( i \right )}+\varepsilon ^{\left ( i \right )}$

其中， $\small \varepsilon ^{\left ( i \right )}$ 為誤差項，它是對未利用的其他特徵的補充(比如房子有沒有花園、壁爐之類的特徵)或者將其看成隨機噪聲(比如賣家當天的心情等)，總之誤差項捕獲了未建模的效應。

假設誤差項服從正態分佈： $\small \varepsilon ^{\left ( i \right )}\sim N\left ( 0,\sigma ^{2} \right )$ 即：

$\small P\left ( \varepsilon ^{\left ( i \right )}\right )=\frac{1}{\sqrt{2\pi }\sigma } e^{\left ( -\frac{\left ( \varepsilon ^{\left ( i \right )} \right )^{2}}{2\sigma ^{2}} \right )}$

這意味著在給定樣本特徵 x 和引數 $\small \Theta$ 時房價也服從高斯分佈，其概率密度函式：

$\small P\left ( y^{\left ( i \right )}|x^{\left ( i \right )};\Theta \right )=\frac{1}{\sqrt{2\pi }\sigma } e^{\left ( -\frac{\left ( y ^{\left ( i \right )}-\Theta ^{T}x^{\left ( i \right )} \right )^{2}}{2\sigma ^{2}} \right )}$

即給定樣本值和引數

$\small y^{\left ( i \right )}\sim N\left ( \Theta ^{T} x^{\left ( i \right )},\sigma ^{2}\right )$

再假設 $\small \varepsilon ^{\left ( i \right )}$ 之間滿足獨立同分布

則引數 $\small \Theta$ 的極大似然函式為：

$\small L\left ( \Theta \right )= \prod_{i=1}^{m}P\left ( y^{\left ( i \right )}|x^{\left ( i \right )};\Theta \right )=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi }\sigma }e^{\left ( -\frac{\left ( y ^{\left ( i \right )}-\Theta ^{T}x^{\left ( i \right )} \right )^{2}}{2\sigma ^{2}} \right )}$

對數似然函式：

$\small l\left ( \Theta \right )= logL\left ( \Theta \right )= log\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi }\sigma }e^{\left ( -\frac{\left ( y ^{\left ( i \right )}-\Theta ^{T}x^{\left ( i \right )} \right )^{2}}{2\sigma ^{2}} \right )}=\sum_{i=1}^{m}log\left [ \frac{1}{\sqrt{2\pi }\sigma }e^{\left ( -\frac{\left ( y ^{\left ( i \right )}-\Theta ^{T}x^{\left ( i \right )} \right )^{2}}{2\sigma ^{2}} \right )} \right ]$

$\small =mlog\frac{1}{\sqrt{2\pi }\sigma }-\sum_{i=1}^{m}\frac{\left ( y ^{\left ( i \right )}-\Theta ^{T}x^{\left ( i \right )} \right )^{2}}{2\sigma ^{2}}$

最大化似然函式，相當於最小化

$\small \sum_{i=1}^{m}\frac{\left ( y ^{\left ( i \right )}-\Theta ^{T}x^{\left ( i \right )} \right )^{2}}{2\sigma ^{2}}$

其中 $\small \sigma$ 為常數，因此可忽略，即最小化

$\small \sum_{i=1}^{m}\frac{\left ( y ^{\left ( i \right )}-\Theta ^{T}x^{\left ( i \right )} \right )^{2}}{2}=J\left ( \Theta \right )$

分類

之前介紹過的迴歸演算法中，我們預測的連續變數，其取值可以是任意的。分類演算法中，我們預測的變數 y 是離散的，一般情況下限定 y 只能取給定的幾個值。

這裡我們先來介紹二分類問題 $\small y\in \left \{ 0,1 \right \}$

由此我們需要假設一個預測函式 $\small h_{\Theta }\left ( x \right )\in \left [ 0,1 \right ]$

多數情況下，我們會選擇利用Sigmoid函式將 $\small h_{\Theta }$ 對映到[0,1]區間上。Sigmoid函式也稱作logistic函式，形式如下：

$\small S\left ( x \right )= \frac{1}{1+e^{-x}}$

函式圖形為

於是

$\small h_{\Theta }\left ( x \right )=S\left ( \Theta ^{T}x \right )= \frac{1}{1+e^{-\Theta ^{T}x}}$

預測時，當 $\small h_{\Theta }\left ( x \right )$ 小於等於0.5時，結果是0，如果 $\small h_{\Theta }\left ( x \right )$ 大於0.5時，結果是1。

下面進行概率意義上的解釋

假設：

對於給定的以 $\small \Theta$ 為引數的 $\small x$ ， y=1 的概率為： $\small P\left ( y=1|x;\Theta \right )=h_{\Theta }\left ( x \right )$

對於給定的以 $\small \Theta$ 為引數的 $\small x$ ， y=0 的概率為： $\small P\left ( y=0|x;\Theta \right )=1-h_{\Theta }\left ( x \right )$

合併以上兩式：

$\small P\left ( y|x;\Theta \right )=h_{\Theta }\left ( x \right )^{y}(1-h_{\Theta }\left ( x \right ))^{1-y}$

然後利用最大似然估計來求引數 $\small \Theta$ 。所謂最大似然估計：利用已知的樣本結果，反推最有可能（最大概率）導致這樣結果的引數值。

引數的似然性： $\small L\left ( \Theta \right )= \prod_{i}P\left ( y^{\left ( i \right )}|x^{\left ( i \right )};\Theta \right )=\prod_{i}h_{\Theta }\left ( x^{\left ( i \right )} \right )^{y^{\left ( i \right )}}(1-h_{\Theta }\left ( x^{\left ( i \right )} \right ))^{1-y^{\left ( i \right )}}$

通常來講，使引數的似然性最大化很難。但是使引數似然性的對數最大化要相對簡單，並且對數能夠保證樣本原來的單調性。於是求似然性對數：

$\small l\left ( \Theta \right )= logL\left ( \Theta \right )= \sum_{i=1}^{m}\left [ y^{\left ( i \right )}log h_{\Theta }\left ( x^{\left ( i \right )} \right )+\left ( 1-y^{\left ( i \right )} \right )log\left ( 1-h_{\Theta }\left ( x^{\left ( i \right )} \right ) \right ) \right ]$

對於線性迴歸問題當中我們使用梯度下降(減去梯度的 $\small \alpha$ 倍)演算法最小化代價函式，這裡我們可以使用梯度上升(加上梯度的 $\small \alpha$ 倍)演算法來最大化似然函式。引數 $\small \Theta$ 通過下式更新：

$\small \Theta = \Theta +\alpha \triangledown _{\Theta }l\left ( \Theta \right )$

其中經過簡單計算可知

$\small \triangledown _{\Theta }l\left ( \Theta \right )= \frac{\partial }{\partial \Theta _{j}}l\left ( \Theta \right )= \sum_{i=1}^{m}\left ( y^{\left ( i \right )}-h_{\Theta }\left ( x^{\left ( i \right )} \right ) \right )x_{j}^{\left ( i \right )}$

所以推得

$\small \Theta _{j}=\Theta _{j}+\alpha \sum_{i=1}^{m}\left ( y^{\left ( i \right )}-h_{\Theta }\left ( x^{\left ( i \right )} \right ) \right )x_{j}^{\left ( i \right )}$

形式上類似於上一篇中最小二乘迴歸的梯度下降解法（https://mp.csdn.net/postedit/83015509）。但其實二者並不相同，因為兩個式子中的 $\small h_{\Theta }\left ( x \right )$ 的定義不同。這裡的函式並不是之前的線性函式，而是關於 $\small \Theta^{T}x$ 的logistic函式。

感知器

不同於邏輯迴歸，感知器演算法的分類規則為：

g(z)=

於是預測函式定義為：

$\small h_{\Theta }\left ( x \right )=g\left ( \Theta ^{T}x \right )$

經過與邏輯迴歸部分相同的推導步驟，可得引數的批梯度更新公式：

$\small \Theta _{j}=\Theta _{j}+\alpha \sum_{i=1}^{m}\left ( y^{\left ( i \right )}-h_{\Theta }\left ( x^{\left ( i \right )} \right ) \right )x_{j}^{\left ( i \right )}$

由於其生成的值只有0和1，所以很難賦予其概率意義上的解釋。

牛頓方法

牛頓方法對於邏輯迴歸效果很好，對廣義線性模型來說效果也不錯。

問題：給定一個函式 f( $\small \Theta$ ) ,找到其零點。

如上圖所示，首先我們用某個值(通常為0)初始化 $\small \Theta$ ，記做 $\small \Theta ^{\left ( 0 \right )}$ 。然後求出該點的切線，與橫軸交於一點，記做 $\small \Theta ^{\left ( 1 \right )}$ ，即完成一次迭代。然後按照同樣的方法求出 $\small \Theta ^{\left ( 1 \right )}$ 處的切線，與橫軸交於 $\small \Theta ^{\left ( 2 \right )}$ 點，完成第二次迭代。以此類推，最終將逼近函式零點。

根據斜率求 $\small \Delta$ ：

$\small f^{'}\left ( \Theta ^{\left ( 0 \right )} \right )=\frac{f\left ( \Theta ^{\left ( 0 \right )} \right )}{\Delta} \Rightarrow \Delta = \frac{f\left ( \Theta ^{\left ( 0 \right )} \right )}{f^{'}\left ( \Theta ^{\left ( 0 \right )} \right )}$

然後計算下個次迭代的切點：

$\small \Theta ^{\left ( 1 \right )}=\Theta ^{\left ( 0 \right )}-\Delta =\Theta ^{\left ( 0 \right )}- \frac{f\left ( \Theta ^{\left ( 0 \right )} \right )}{f^{'}\left ( \Theta ^{\left ( 0 \right )} \right )}$

易推得 $\small \Theta$ 迭代公式：

$\small \Theta ^{\left ( t+1 \right )}=\Theta ^{\left ( t \right )}- \frac{f\left ( \Theta ^{\left ( t \right )} \right )}{f^{'}\left ( \Theta ^{\left ( t \right )} \right )}$

比如我們想要使得對數似然函式 $\small l\left ( \Theta \right )$ 取得最大值，可以令其導數等於0（log函式單調），即 $\small l^{'}\left ( \Theta \right )= 0$ 。

於是可得迭代公式為：

$\small \Theta ^{\left ( t+1 \right )}=\Theta ^{\left ( t \right )}-\frac{l^{'}\left ( \Theta ^{\left ( t \right )} \right )}{l^{''}\left ( \Theta ^{\left ( t \right )} \right )}$

牛頓方法是一個收斂速度非常快的演算法，其收斂速度為二次收斂。在一般化的牛頓方法中， $\small \Theta$ 是一個向量，迭代公式為：

$\small \Theta ^{\left ( t+1 \right )}=\Theta ^{\left ( t \right )}-H^{-1}\triangledown _{\Theta }l$

其中，H 是Hession矩陣

$\small H_{ij}= \frac{\partial ^{2}l}{\partial\Theta _{i}\partial \Theta _{j} }$

與梯度上升演算法比起來，牛頓方法所需要的迭代次數要少得多。但其缺點是，每一次迭代都需要重新計算 Hession 矩陣的逆。Hession 矩陣是一個 n*n 的矩陣，n 為特徵的數量，因此如果要處理具有大量特徵的問題，矩陣的逆運算會消耗大量的計算資源。所以牛頓方法只適用於特徵較少的問題。

廣義線性模型（Generalized Linear Model）

前面我們介紹了兩種演算法對 $\small P\left ( y|x;\Theta \right )$ 進行建模：

當 $\small y\in \mathbb{R}$ ，我們假設 y 滿足Gaussion分佈 $\small \rightarrow$ 基於最小二乘法的線性迴歸

當 $\small y\in \left \{ 0,1 \right \}$ ，只有兩個取值的隨機變數滿足Bernoulli分佈 $\small \rightarrow$ logistic迴歸

事實上，這兩種演算法都屬於廣義線性模型的特例。

伯努利分佈 Bernoulli( $\small \Phi$ ) 即 P(y=1; $\small \Phi$ )= $\small \Phi$ 同理看高斯分佈 $\small N\left ( \mu ,\sigma ^{2} \right )$

這兩類分佈都屬於指數分佈族的特例。

如果一個概率分佈可以寫成下面的形式

$\small {\color{Magenta} P\left ( y;\eta \right )=b\left ( y \right )e^{\eta ^{T}T\left ( y \right )-a\left ( \eta \right )}}$

則稱為指數分佈族。

其中， $\small \eta$ 被稱為分佈的自然引數。T(y) 被稱為充分統計量（對於未知引數的估計問題,保留了原始樣本中關於未知引數θ的全部資訊的統計量,就是充分統計量。通常T(y)=y ）

只要我們固定了a、b 和 T 三個函式，指數分佈族的公式就定義了一個以 $\small \eta$ 為引數(通常為標量)的概率分佈的集合（即定義了一類概率分佈，對於固定的a、b 和 T，只要改變 $\small \eta$ 就可以得到一個不同的概率分佈）。例如：

對於伯努利分佈

$\small P\left ( y;\Phi \right )=\Phi ^{y}\left ( 1-\Phi \right )^{\left ( 1-y \right )}= e^{\left ( log\Phi ^{y}\left ( 1-\Phi \right )^{\left ( 1-y \right )} \right )}= e^{\left ( ylog\Phi +\left ( 1-y \right )log\left ( 1-\Phi \right ) \right )}= e^{\left ( ylog\frac{\Phi }{1-\Phi } +log\left ( 1-\Phi \right )\right )}$

即 $\small \eta = log\frac{\Phi }{1-\Phi }$ ， $\small {\color{Red} T\left ( y \right )=y}$ ， $\small -a\left ( \eta \right )=log\left ( 1-\Phi \right )$ ， $\small {\color{Red} b\left ( y \right )=1}$

由 $\small \eta = log\frac{\Phi }{1-\Phi }$ 推得 $\Phi = \frac{1}{1+e^{-\eta }}$

將 $\Phi = \frac{1}{1+e^{-\eta }}$ 代入 $\small -a\left ( \eta \right )=log\left ( 1-\Phi \right )$ 可得 $\small {\color{Red} a\left ( \eta \right )=log\left ( 1+e^{\eta } \right )}$

對於高斯分佈

$\small N\left ( \mu ,\sigma ^{2} \right )$ ，由於 $\small \sigma$ 對引數無影響，這裡將其設定為 $\small \sigma ^{2}=1$ ,推導可得

$\small \frac{1}{\sqrt{2\pi }}e^{\left ( -\frac{1}{2}\left ( y-\mu \right ) ^{2}\right )}=\cdots = \frac{1}{\sqrt{2\pi }}e^{\left ( -\frac{1}{2} y ^{2}\right )}e^{\left ( \mu y-\frac{1}{2}\mu ^{2} \right )}$

即 $\small \eta = \mu$ ， $\small {\color{Red} T\left ( y \right )=y}$ ， $\small {\color{Red} a\left ( \eta \right )=\frac{1}{2}\mu ^{2}=\frac{1}{2}\eta ^{2}}$ ， $\small {\color{Red} b\left ( y \right )= \frac{1}{\sqrt{2\pi }} e^{ -\frac{1}{2}y^{2} }}$

實際上大部分常見的概率分佈都可以寫成指數分佈族的形式，比如高斯分佈、多元正態分佈、伯努利分佈(2個結果的事件)、多項式分佈(k個結果的事件)、泊松分佈(對計數過程進行建模，如網站的訪客數量、商店的顧客數量)、伽馬分佈和指數分佈(這兩種考慮的是正數的分佈，常用來對時間間隔進行建模，比如公車站下一輛車什麼時候到)、 $\small \beta$ 分佈和Dirichlet分佈(這兩種是用來對小數進行建模的，是對概率分佈進行建模的概率分佈)、Wishart分佈(協方差矩陣的分佈)等等都可以寫成指數分佈族的形式。

下面考慮選定了指數分佈族，怎麼用它來推匯出一個廣義線性模型？

1、假設 $\small P\left ( y|x;\Theta \right )$ 屬於以 $\small \eta$ 為引數的指數分佈族。我們可以選取 a、b、T 使得 y 在給定的以 $\small \Theta$ 為引數的 x 下的概率分佈屬於以 $\small \eta$ 為引數的指數分佈族（即根據問題選定概率分佈模型並推導其指數分佈族）。

2、假設引數 $\small \eta$ 與輸入特徵之間的關係是線性的，即 $\small {\color{Blue} \eta = \Theta ^{T}x}$

3、計算 T(y) 在給定 x 下的期望作為該指數分佈族的廣義線性模型 $\small h_{\Theta }\left ( x \right )$ ，即 $\small {\color{Blue} h_{\Theta }\left ( x \right )=E\left [ T\left ( y \right )|x \right ]}$ 。

例如對於伯努利分佈

$\small h_{\Theta }\left ( x \right )=E[y|x;\Theta ]=P\left ( y=1|x;\Theta \right )=\Phi$

$\small =\frac{1}{1+e^{-\eta }}$

$\small =\frac{1}{1+e^{-\Theta ^{T}x }}$

剛好得到的是邏輯迴歸模型。

介紹兩個術語： $\small g\left ( \eta \right )=E\left [ y;\eta \right ]=\frac{1}{1+e^{-\eta }}$ 稱作正則響應函式， $\small g^{-1}\left ( \eta \right )$ 稱為正則關聯函式

廣義線性模型中最複雜的例子是多項式分佈(多分類問題)

假設一共有 k 類，概率分別為 $\small \Phi _{1}$ 、 $\small \Phi _{2}$ 、 $\small \cdots$ 、 $\small \Phi _{k}$ 即

$\small P\left ( y=i \right )=\Phi _{i}$

由於 $\small \small \Phi _{1}+\small \Phi _{2}+\cdots +\small \Phi _{k}=1$ ，可以推得 $\small \Phi _{k}=1-(\Phi _{1}+\small \Phi _{2}+\cdots +\small \Phi _{k-1})$

因此以 $\small \Phi _{1}$ 、 $\small \Phi _{2}$ 、 $\small \cdots$ 、 $\small \Phi _{k}$ 作為引數對於多項式分佈來說其實是冗餘的，結果被過度引數化了。所以我們將多項式分佈的引數設為： $\small \Phi _{1}$ 、 $\small \Phi _{2}$ 、 $\small \cdots$ 、 $\small \Phi _{k-1}$ 。以下推導過程中出現的 $\small \Phi _{k}$ 不看作單獨的引數，而是代表 $\small 1-(\Phi _{1}+\small \Phi _{2}+\cdots +\small \Phi _{k-1})$

y有k個可能的取值：

$\small y\in \left \{ 1,2,\cdots ,k \right \}$

T(y)定義為：

$\small T\left ( 1 \right )= \begin{bmatrix} 1\\ 0\\ \vdots \\ 0 \end{bmatrix}$ ， $\small T\left ( 2 \right )= \begin{bmatrix} 0\\ 1\\ \vdots \\ 0 \end{bmatrix}$ ， $\small \cdots$ ， $\small T\left ( k-1 \right )= \begin{bmatrix} 0\\ 0\\ \vdots \\ 1 \end{bmatrix}\in {\color{Red} \mathbb{R}^{k-1}}$ ， $\small T\left ( k \right )= \begin{bmatrix} 0\\ 0\\ \vdots \\ 0 \end{bmatrix}$

定義T(y)是為了將多項式分佈寫成指數分佈族的形式。這裡我們引入一個新的符號叫做指示函式符號，記做 $\small I\left \{ true \right \}=1$ ， $\small I\left \{ false \right \}=0$ 。該符號用來指示括號中命題的真假，例如 $\small I\left \{ 1+1=2 \right \}=1$ 。

$\small T\left ( y \right )$ 是 k=1維向量，所以 $\small T\left ( y \right )_{i}$ 表示第 $\small i$ 個元素，容易得到 $\small T\left ( y \right )_{i}=I\left \{ y=i \right \}$

將多項式分佈寫成指數分佈族的形式：

$\small P\left ( y \right )=\Phi _{1}^{I\left \{ y=1 \right \}}\Phi _{2}^{I\left \{ y=2 \right \}} \cdots \Phi _{k}^{I\left \{ y=k \right \}}$

$\small = \Phi _{1}^{T\left ( y \right )_{1}}\Phi _{2}^{T\left ( y \right )_{2}}\cdots \Phi _{k-1}^{T\left ( y \right )_{k-1}}\Phi _{k}^{1-\sum_{j=1}^{k-1}T\left ( y \right )_{j}}$

$\small = \cdots$

$\small =\small b\left ( y \right )e^{\eta ^{T}T\left ( y \right )-a\left ( \eta \right )}$

其中，

$\small \eta =\begin{bmatrix} log\left ( \Phi _{1}/\Phi _{k} \right )\\ \vdots \\ log\left ( \Phi _{k-1}/\Phi _{k} \right ) \end{bmatrix}\in \mathbb{R}^{k-1}$ $\small a\left ( \eta \right )= -log\left ( \Phi _{k} \right )$ $\small b\left ( y \right )=1$

根據上式推得

$\small \Phi _{i}= \frac{e^{\eta_{i} }}{1+\sum_{j=1}^{k-1}e^{\eta _{j}}}$ $\small \left ( i=1,2,\cdots k-1 \right )$

$\small = \frac{e^{\Theta _{i}^{T}x}}{1+\sum_{j=1}^{k-1}e^{\Theta _{j}^{T}x}}$ $\small \left ( \eta _{i}=\Theta _{i}^{T}x \right )$

於是推匯出學習演算法

$\small h_{\Theta }\left ( x \right )= E\left [ T\left ( y \right )|x;\Theta \right ]$

$\small = E\left [ \left.\begin{matrix} I\left \{ y=1 \right \}\\ \vdots \\ I\left \{ y=k-1 \right \} \end{matrix}\right|x;\Theta \right ]= \begin{bmatrix} \Phi _{1}\\ \Phi _{2}\\ \vdots \\ \Phi _{k-1} \end{bmatrix}$

機器學習cs229——（三）區域性加權迴歸、邏輯迴歸、感知器、牛頓方法、廣義線性模型

區域性加權迴歸（Locally weighted regression）

分類

感知器

牛頓方法

廣義線性模型（Generalized Linear Model）

機器學習cs229——（三）區域性加權迴歸、邏輯迴歸、感知器、牛頓方法、廣義線性模型

python機器學習實戰（三）

機器學習實戰（三）樸素貝葉斯NB（Naive Bayes）

機器學習實踐（三）—sklearn之特徵工程

機器學習筆記（三）Logistic迴歸模型

機器學習筆記（三）：線性迴歸大解剖（原理部分）

機器學習筆記（三）：線性迴歸大解剖（程式碼部分）

機器學習筆記（三）第三章線性模型

機器學習筆記（三）：決策樹

NG機器學習總結-（三）線性迴歸以及python實現

機器學習總結（三）：SVM支援向量機（面試必考）

機器學習筆記（三）——Logistic Regression 的原理以及程式碼實現

機器學習演算法（三）——樸素貝葉斯演算法及R語言實現方法

機器學習筆記（三）——正則化最小二乘法

機器學習實戰（三）——NaiveBayes樸素貝葉斯演算法郵件分類

斯坦福大學公開課機器學習課程（Andrew Ng）四牛頓方法與廣義線性模型

機器學習基礎（三十） —— 線性迴歸、正則化（regularized）線性迴歸、區域性加權線性迴歸（LWLR）

機器學習經典演算法（三）--指數加權平均

機器學習（六）——區域性加權線性迴歸（Locally weighted linear regression）

《自己動手寫java虛擬機器》學習筆記（三）-----搜尋class檔案（go）

機器學習cs229——（三）區域性加權迴歸、邏輯迴歸、感知器、牛頓方法、廣義線性模型

區域性加權迴歸（Locally weighted regression）

分類

感知器

牛頓方法

廣義線性模型（Generalized Linear Model）

相關推薦