1. 程式人生 > >牛頓法.指數分佈族.

牛頓法.指數分佈族.

《Andrew Ng 機器學習筆記》這一系列文章文章是我再觀看Andrew Ng的Stanford公開課之後自己整理的一些筆記,除了整理出課件中的主要知識點,另外還有一些自己對課件內容的理解。同時也參考了很多優秀博文,希望大家共同討論,共同進步。

網易公開課地址:http://open.163.com/special/opencourse/machinelearning.html


本篇博文涉及課程四:牛頓方法

主要內容有:

(1)牛頓法(Newton's Method

(2)指數分佈族

(3)廣義線性模型(GLMS)  (下篇博文具體分析)

(4)多項式分佈                      (下篇博文具體分析)

牛頓法

牛頓方法也是對解空間進行搜尋。 基本思想:對於函式f(x),如果我們要找到使得函式值為0的x值時,做法如下: 1、隨機選一個點(θ0),然後求出該點的切線,即導數。 2、延長它使之與x軸相交,以相交時的x的值θ1)。 3、重複1、2直到f(x)==0 我們可以得知:其中θ的更新規則為:
對於機器學習問題,我們優化的目標函式為極大似然估計函式,當極大似然估計函式取得最大時,其導數為0。 所以,我們可以使得,由此可得:
上面是當引數θ為實數時的情況,當引數為向量時,更新規則為:其中,H是一個n*n的矩陣,n為引數向量的長度,即特徵數,H是函式的二階導數矩陣,被稱為
Hessian矩陣,此時,用一個表示一階導數的向量乘上一個表示二階導數的矩陣的逆,來表達上式中的一階導數除以二階導數
                                                                                                              
H矩陣中元素Hij計算公式如下:



牛頓方法的優點:
牛頓方法與梯度下降方法功能一樣,都是在尋到解空間,但相比較而言,牛頓方法的優點是收斂速度快,通常只要經過十幾次迭代就可以達到收斂。牛頓方法也被稱為二次收斂,因為當迭代到距離收斂值比較近的時候,每次迭代都能使誤差變為原來的平方。
牛頓方法的缺點:
牛頓方法的缺點是當引數向量較大時,每次迭代都需要計算一次Hessian矩陣的逆,比較耗時。 指數分佈族 指數分佈族是指可以表示為指數形式的概率分佈。指數分佈族的形式如下:(其中,η稱為分佈的自然引數(nature parameter);T(y)是充分統計量(sufficient statistic),通常T(y)=y。當引數a、b、T都固定時,就定義了一個以η為引數的函式族):
以將高斯分佈和伯努利分佈為例,我們將它們表示稱為指數分佈族的形式。 1.將伯努利分佈寫成指數分佈族的形式 伯努利分佈是對0,1問題進行建模的分佈,它可以用如下形式表示:

將其轉換形式:


此時,我們就將伯努利分佈表示成了指數分佈族的形式;其中:

2.將高斯分佈寫成指數分佈族的形式
由高斯分佈可以推匯出線性模型,由線性模型的假設函式可知,高斯分佈的方差σ²與假設函式無關,所以簡便起見,我們可以將σ²的值設為1,推導過程如下:

此時,我們就將高斯分佈表示成了指數分佈族的形式;其中:

                               
實際上,大多數概率分佈都可以表示成指數分佈族的形式。比如: (1)伯努利分佈:對0、1問題進行建模; (2)多項式分佈:多有K個離散結果的事件的建模; (3)泊松分佈:對計數過程進行建模,比如網站訪問量的計數問題,放射性衰變的數目,商店 顧客數量等問題; (4)伽馬分佈與指數分佈:對有間隔的正數進行建模,比如公交車的到站時間問題; (5)β分佈:對小數建模; (6)Dirichlet分佈:對概率分佈建模; (7)Wishart分佈:協方差矩陣的分佈; (8)高斯分佈;
實際上,大多數概率分佈都可以表示成上式的形式。比如: 1)伯努利分佈:對0、1問題進行建模; 2)多項式分佈:多有K個離散結果的事件的建模; 3)泊松分佈:對計數過程進行建模,比如網站訪問量的計數問題,放射性衰變的數目,商店 顧客數量等問題; 4)伽馬分佈與指數分佈:對有間隔的正數進行建模,比如公交車的到站時間問題; 5)β分佈:對小數建模; 6)Dirichlet分佈:對概率分佈建模; 7)Wishart分佈:協方差矩陣的分佈; 8)高斯分佈;