牛頓方法,指數分佈族,廣義線性模型
原文連結
http://blog.csdn.net/dream_angel_z/article/details/46288167
本節內容
- 牛頓方法
- 指數分佈族
- 廣義線性模型
之前學習了梯度下降方法,關於梯度下降(gradient descent),這裡簡單的回顧下【參考感知機學習部分提到的梯度下降(gradient descent)】。在最小化損失函式時,採用的就是梯度下降的方法逐步逼近最優解,規則為
本節首先講解的是牛頓方法(NewTon’s Method)。牛頓方法也是一種優化方法,它考慮的是全域性最優
1.牛頓方法
假設一個函式
圖1
在
同理,在
假設在第
其中
最後得到的公式也就是牛頓方法的學習規則,為了和梯度下降對比,我們來替換一下變數,公式如下:
那麼問題來了,怎麼將牛頓方法應用到我們的問題上,最小化損失函式
對於機器學習問題,現在我們優化的目標函式為極大似然估計
對於
上面的式子是當引數
其中
和梯度下降相比,牛頓方法的收斂速度更快,通常只要十幾次或者更少就可以收斂,牛頓方法也被稱為二次收斂(quadratic convergence),因為當