1. 程式人生 > >機器學習-牛頓方法&指數分佈族&GLM

機器學習-牛頓方法&指數分佈族&GLM

回頭再溫習一下Andrew Ng的機器學習視訊課,順便把沒寫完的筆記寫完。

本節內容

  • 牛頓方法
  • 指數分佈族
  • 廣義線性模型

之前學習了梯度下降方法,關於梯度下降(gradient descent),這裡簡單的回顧下【參考感知機學習部分提到的梯度下降(gradient descent)】。在最小化損失函式時,採用的就是梯度下降的方法逐步逼近最優解,規則為θ:=θηθ(θ)。其實梯度下降屬於一種優化方法,但梯度下降找到的是區域性最優解。如下圖:


這裡寫圖片描述

本節首先講解的是牛頓方法(NewTon’s Method)。牛頓方法也是一種優化方法,它考慮的是全域性最優。接著還會講到指數分佈族和廣義線性模型。下面來詳細介紹。

1.牛頓方法

假設一個函式f(x)=0,我們需要求解此時的x值。如下圖所示:


這裡寫圖片描述
圖1 f(x0)=0,a1,a2,a3,...x0.


a1點的時候,f(x)切線的目標函式y=f(a1)+f(a1)(xa1). 由於(a2,0)在這條線上,所以我們有0=f(a1)+f(a1)(a2a1),so:

a2=a1f(a1)f(a1)

同理,在a2點的時候,切線的目標函式y=f(a2)+f(a2)(xa2). 由於(a3,0)在這條線上,所以我們有0=f(a2)+f(a2)(a3a2),so:

a3=a2f(a2)f(a2)

假設在第n次迭代,有f

(an)=0,那麼此時有下面這個遞推公式:

an=an1f(an1)f(an1)

其中n>=2.

最後得到的公式也就是牛頓方法的學習規則,為了和梯度下降對比,我們來替換一下變數,公式如下:

θ:=θf(θ)f(θ)

那麼問題來了,怎麼將牛頓方法應用到我們的問題上,最小化損失函式(θ)(或者是求極大似然估計的極大值)呢?

對於機器學習問題,現在我們優化的目標函式為極大似然估計,當極大似然估計函式取值最大時,其導數為 0,這樣就和上面函式f取 0 的問題一致了,令f(θ)=(θ)。極大似然函式的求解更新規則是:

θ:=θ(θ)′′(θ)

對於

,當一階導數為零時,有極值;此時,如果二階導數大於零,則有極小值,如果二階導數小於零,則有極大值。

上面的式子是當引數θ為實數時的情況,下面我們要求出一般式。當引數為向量時,更新規則變為如下公式:

θ:=θH1θ(θ)

其中θ(θ)和之前梯度下降中提到的一樣,是梯度,H是一個nn的矩陣,

相關推薦

機器學習-牛頓方法&指數分佈&GLM

回頭再溫習一下Andrew Ng的機器學習視訊課,順便把沒寫完的筆記寫完。 本節內容 牛頓方法 指數分佈族 廣義線性模型 之前學習了梯度下降方法,關於梯度下降(gradient descent),這裡簡單的回顧下【參考感知機學習部分提到的梯度下降(gr

機器學習-斯坦福】學習筆記4 ——牛頓方法;指數分佈; 廣義線性模型(GLM

牛頓方法 本次課程大綱: 1、  牛頓方法:對Logistic模型進行擬合 2、 指數分佈族 3、  廣義線性模型(GLM):聯絡Logistic迴歸和最小二乘模型 複習: Logistic迴歸:分類演算法 假設給定x以為引數的y=1和y=0的概率:

機器學習-牛頓方法&指數分布&GLM

最優解 logs alt cli 機器 目標 ner des style 本節內容 牛頓方法 指數分布族 廣義線性模型 之前學習了梯度下降方法,關於梯度下降(gradient descent),這裏簡單的回顧下【參考感知機學習部分提到的梯度下降(gradient des

牛頓法.指數分佈.

《Andrew Ng 機器學習筆記》這一系列文章文章是我再觀看Andrew Ng的Stanford公開課之後自己整理的一些筆記,除了整理出課件中的主要知識點,另外還有一些自己對課件內容的理解。同時也

機器學習--牛頓方法

不知道為什麼分享不了了,就算是這樣,我也要常常把自己的思考寫下來,就算沒什麼用,等到七老八十的時候,我還能回憶回憶,很好很好~ 一、牛頓方法   要注意,牛頓方法並不是機器學習方法,而是機器學習模型

牛頓方法指數分佈,廣義線性模型

原文連結 http://blog.csdn.net/dream_angel_z/article/details/46288167 本節內容 牛頓方法指數分佈族廣義線性模型 之前學習了梯度下降方法,關於梯度下降(gradient descent),這裡簡

機器學習最優化方法[2] --牛頓

文章目錄 1、牛頓法 2、擬牛頓法 DFP演算法 BFGS演算法 L-BFGS 參考資料 1、牛頓法 牛頓法也是一種迭代的求解方法,相比於梯度下降法,牛頓法在搜尋方向上不僅考慮一階梯度方向,同時考

機器學習入門之四:機器學習方法-神經網絡(轉載)

轉載 bsp 圖像 src nbsp 加速 數值 str 我們   轉自 飛鳥各投林   神經網絡      神經網絡(也稱之為人工神經網絡,ANN)算法是80年代機器學習界非常流行的算法,不過在90年代中途衰落。現在,攜著“深度學習”之勢,神

機器學習評價方法

論文 成了 har learning logs core 思想 img perf 剛開始看這方面論文的時候對於各種評價方法特別困惑,還總是記混,不完全統計下,備忘。 關於召回率和精確率,假設二分類問題,正樣本為x,負樣本為o: 準確率存在的問題是當正負樣本數量不均衡的時候

機器學習 | 機器學習評估方法

-- 測試 全局 class log 方法 hold 相同 ots 機器學習評估方法 留出法(hold out):數據集預留出一部分數據為測試集,將數據集 D 劃分為訓練集 S 和測試集 T。大概比例為測試集占全局數據量的(1/5~1/3) 留一法:留一法是留出法的特例,

廣義線性模型與指數分佈的理解

在機器學習領域,很多模型都是屬於廣義線性模型(Generalized Linear Model, GLM),如線性迴歸,邏輯迴歸,Softmax迴歸等。 廣義線性模型有3個基本假設: (1) 樣本觀測值

機器學習——畫圖方法

本篇部落格與Titanic部落格相關聯,是其第2部分內容,由於涉及大量通過視覺化圖形 進行資料預覽、分析的地方,因此獨立成篇,作為畫圖方法的筆記。 - 資料分析階段,我們要概覽資料,觀察每個特徵與標籤的關係,特徵需不要處理,比如多個特徵組合一

指數分佈

從標題上看,是“指數分佈族(exponential family)”,不是“指數分佈(exponential distribution)”,這是兩個不同的概念,不要弄混了。指數分佈族在上世紀30年代中期被提出,在概率論和統計學中,它是一些有著特殊形式的概率分佈的集合,包括許多常用的分佈,如正態分佈、

指數分佈的後驗概率函式都可以是logistic/sigmod形式

logistic regression的魯棒性較強,針對樣本的不同分佈都可以得到一個相當不錯的效果。在Andrew Ng的課程裡面說過,logistic function可以用來做樣本符合指數分佈族的後驗概率函式。三年前的自己怎麼都想不通為什麼,還抱著一本廣義線

機器學習最優化方法[3]--約束優化

文章目錄 1、等式約束 2、不等式約束 考慮一個優化問題: min ⁡

機器學習最優化方法[1] -- 梯度下降法

梯度下降法是求解無約束最優化問題最常見的方法,其基本思想是通過在負梯度方向通過一定的步長慢慢逼近最優解的過程。  假設需要擬合函式:, ,  給定資料集 , 我們需要最小化損失函式來求得引數  求導: 可以令導數等於0求得&nb

機器學習 - 整合方法(Bagging VS. Boosting 以及隨機森林、AdaBoost)

機器學習 - 整合方法(Bagging VS. Boosting 以及隨機森林) 整合方法 Bagging Bagging 分類: Bagging 的預測: Boosting

高斯分佈和二項分佈屬於指數分佈的證明

(宣告:本文章內容整理自網際網路以及斯坦福大學機器學習公開課Andrew Ng老師的講義) 1、什麼是指數分佈族 1.1 基本描述         指數型分佈是一類重要的分佈族,在統計推斷中,指數型分

指數分佈 和 廣義線性模型

本節主要是我看了網易公開課上的Andrew Ng的機器學習公開課第四節所做的筆記加上自己的一些整理,將它發上來供參考,由於水平有限,可能有錯誤。 這節視訊中,Andrew Ng主要講了三個方面,分別是牛頓法,指數分佈家族和廣義線性迴歸(GLMS)。 本

新聞上的文字分類:機器學習大亂鬥 王嶽王院長 王嶽王院長 5 個月前 目標 從頭開始實踐中文短文字分類,記錄一下實驗流程與遇到的坑 運用多種機器學習(深度學習 + 傳統機器學習方法比較短文字分類處

目標 從頭開始實踐中文短文字分類,記錄一下實驗流程與遇到的坑 運用多種機器學習(深度學習 + 傳統機器學習)方法比較短文字分類處理過程與結果差別工具 深度學習:keras 傳統機器學習:sklearn參與比較的機器學習方法 CNN 、 CNN + word2vec LSTM 、 LSTM + word