1. 程式人生 > >【機器學習筆記】最大似然估計法與LR中 J of theta 的概率解釋

【機器學習筆記】最大似然估計法與LR中 J of theta 的概率解釋

看公開課的時候再次遇到,決心搞懂他…

首先是Andrew Ng在公開課中提到為什麼LR的損失函式要用最小二乘,給出了概率解釋,是在樣本誤差服從IID,並且誤差整體服從高斯分佈的最大似然函式的log表出。

最大似然估計法

先從一個比較普遍的例子講起:

如果做一個放回的小球實驗,袋子裡即有不確定數量的黑色和白色的小球,我們每次拿出一個,記錄顏色放回,重複100次;

如果在100次中,有70次黑球,30次白球,設每次抽到黑球的概率為 p ,那麼我們可以大致估計 p 可能等於 0.7

如果從數學的角度去解釋,首先這是一個獨立實驗,即每次取出然後放回的操作,不會影響下一次的操作;記第 i 次實驗的結果為 x

i ,同時我們假設有一個模型可以表示這個事件,並且這個模型的引數是 p ;就有:

P(x1,x2,...,x100|Model)=i=1100p(xi|Model)=p70(1p)30

我們希望通過調整引數 p ,使得如上樣本的情況出現的概率最大,那麼定義一個似然函式 L(p)=p70(1p)30 ,通過最大化 L(p) ,求解引數 p ,我們只需對 L(p) 求導等於0,就能求到極值,在這裡也就是最值,得到 p=0.7

總結一下,就是已知樣本,希望通過調整模型引數來使得模型能夠最大化樣本情況出現的概率

LR中 J(θ) 的概率解釋

我們在LR中首先做這樣的假設:

y(i
)
=hθ(x(i))+ϵ(i)=θTx(i)+ϵ(i)

然後直接提出了最小化損失函式 J(θ) (如下形式) 為我們的優化目標:

J(θ)=12i=1n(hθ(x(i))y(i))2

假設一: 如上假設中誤差 ϵ(i) 是 IID, 也就是說每次的預測誤差與上一次無關

為了類比,我們首先將誤差看作如上實驗中的黑色小球,我們已經通過 y(i),x(i),θ 得到了樣本結果 ϵ(i) ,這裡模型引數是 θ 類比一下得到:

P(ϵ(1),ϵ(2),...,ϵ(n)|Model)=i=1np(ϵ(i)|θ)

同時我們定義似然函式 L(θ)==ni=1p(ϵ(i)|

θ) ,然後最大化似然函式求出引數。

假設二: ϵ(i) 總體符合高斯分佈

這樣的話,我們先單獨看一個 p(ϵ(i)|θ)

p(ϵ(i)|θ)=12πσe((ϵ(i))22σ2)=12πσe(

相關推薦

機器學習筆記估計LR J of theta概率解釋

看公開課的時候再次遇到,決心搞懂他… 首先是Andrew Ng在公開課中提到為什麼LR的損失函式要用最小二乘,給出了概率解釋,是在樣本誤差服從IID,並且誤差整體服從高斯分佈的最大似然函式的log表出。 最大似然估計法 先從一個比較普遍的例子講起:

模式識別機器學習——估計 (MLE) 後驗概率(MAP)

1) 極/最大似然估計 MLE 給定一堆資料,假如我們知道它是從某一種分佈中隨機取出來的,可是我們並不知道這個分佈具體的參,即“模型已定,引數未知”。例如,我們知道這個分佈是正態分佈,但是不知道均值和方差;或者是二項分佈,但是不知道均值。 最大似然估計(MLE,Maximum Likelihood Esti

機器學習邏輯迴歸估計的推導和求解步驟和梯度上升演算法求解

伯努利分佈如果隨機變數X∈{0, 1},並且相應的概率滿足:    P(X=1) = p,0<p<1    P(X=0) = 1 - p則稱隨機變數X服從引數為p的伯努利分佈。則隨機變數X的概率密度函式為:邏輯迴歸    邏輯迴歸卻不是迴歸演算法而是一個分類演算法

演算法估計總結筆記

最大似然估計學習總結------MadTurtle 1. 作用 在已知試驗結果(即是樣本)的情況下,用來估計滿足這些樣本分佈的引數,把可能性最大的那個引數作為真實的引數估計。 2. 離散型 設為離散型隨機變數,為多維引數向量,如果隨機變數相互獨立且概率計算式為P{,則可得概率函式為P{}=,在固定時,上式

MLE估計Maximum Likelihood Estimation

like 分布 什麽 9.png 顏色 ... 部分 多少 ati 模型已定,參數未知 最大似然估計提供了一種給定觀察數據來評估模型參數的方法,假設我們要統計全國人口的身高,首先假設這個身高服從服從正態分布,但是該分布的均值與方差未知。我們沒有人力與物力去統計

機器學習之線性迴歸極大估計

leboop文章,禁止轉載! 請閱讀《機器學習之矩陣微積分及其性質》和《機器學習之線性迴歸公式推導》。首先我們還是使用如下的資料:   feature_1 feature_2   feature_n

估計(矩估計估計

估計即是近似地求某個引數的值,需要區別理解樣本、總體、量、值 大致的題型是已知某分佈(其實包含未知引數),從中取樣本並給出樣本值 我只是一個初學者,可能有的步驟比較繁瑣,請見諒~ 1、矩估計法

數學篇----引數估計估計[概率論]

前言     引數估計問題分:點估計、區間估計。     點估計是適當地選擇一個統計量作為未知引數的估計(稱為估計量),若已取得一樣本,將樣本值代入估計量,得到估計量的值,以估計量的值作為未知引數的近似值(稱為估計值)。(另一種解釋:依據樣本估計總體分佈中所含的未知引數或

估計(MLE)

最大似然估計(Maximum Likelihood Estimation),是一種統計方法,它用來求一個樣本集的相關概率密度函式的引數。最大似然估計中取樣需滿足一個很重要的假設,就是所有的取樣都是獨立同分布的。 一、最大似然估計法的基本思想 最大似然估計法的思想

估計(MLE)小二乘估計(LSE)的區別

最大似然估計與最小二乘估計的區別 標籤(空格分隔): 概率論與數理統計 最小二乘估計 對於最小二乘估計來說,最合理的引數估計量應該使得模型能最好地擬合樣本資料,也就是估計值與觀測值之差的平方和最小。 設Q表示平方誤差,Yi表示估計值,Ŷ

估計MLE貝葉斯估計

大學期間學習數理統計這門課程的時候,沒有特別用心。說實話統計學還是挺枯燥的,而且當時也沒有太多的學習意識,不知道為什麼要學這些貌似八竿子打不著的東西。現在想想,當時真是too simple,sometimes naive啊。。等到越往後面深入,發現需要用的數學知

估計到EM演算法

源地址:http://www.cnblogs.com/GuoJiaSheng/p/3966812.html?utm_source=tuicool 什麼是最大似然估計?      問題:給定一組觀察資料還有一個引數待定的模型,如何來估計這個未知引數呢?      觀察資料(x

機器學習基本理論詳解估計(MLE)、後驗概率估計(MAP),以及貝葉斯公式的理解

總結 ora 二次 判斷 天都 特性 以及 解釋 意思 【機器學習基本理論】詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估計(Maximum lik

機器學習MAP後驗估計和ML估計區別

A maximum a posteriori probability (MAP) estimate is an estimate of an unknown quantity, that equals the mode of the posterior distribution. The MAP can

機器學習筆記線性迴歸之小二乘法

線性迴歸    線性迴歸(Linear Regreesion)就是對一些點組成的樣本進行線性擬合,得到一個最佳的擬合直線。 最小二乘法    線性迴歸的一種常用方法是最小二乘法,它通過最小化誤差的平方和尋找資料的最佳函式匹配。 代數推導    假設擬合函式為 y

機器學習筆記(四)——估計

一、最大似然估計的基本思想 最大似然估計的基本思想是:從樣本中隨機抽取n個樣本,而模型的引數估計量使得抽取的這n個樣本的觀測值的概率最大。最大似然估計是一個統計方法,它用來求一個樣本集的概率密度函式的引數。 二、似然估計 在講最小二乘法的時候,我們的例

機器學習筆記熵(模型,推導,函式關係的推導,求解)

1、最大熵模型 最大熵原理:最大熵原理認為在學習概率模型時,在所有可能的概率模型中,熵最大的模型是最少的模型。 該原理認為要選擇的概率模型首先得承認已有的現實(約束條件),對未來無偏(即不確定的部分是等可能的)。比如隨機變數取值有A,B,C,另外已知

機器學習筆記第二章:模型評估選擇

機器學習 ini ppi 第二章 err cap ner rate rac 2.1 經驗誤差與過擬合 1. error rate/accuracy 2. error: training error/empirical error, generalization error

機器學習筆記自組織映射網絡(SOM)

非線性 每一個 可能 合作 空間 找到 節點 視覺 網格 什麽是自組織映射? 一個特別有趣的無監督系統是基於競爭性學習,其中輸出神經元之間競爭激活,結果是在任意時間只有一個神經元被激活。這個激活的神經元被稱為勝者神經元(winner-takes-all neuron)。這種

函式和估計機器學習的交叉熵函式之間的關係

關於似然函式和最大似然估計的詳細說明可以看這篇文章:https://blog.csdn.net/zgcr654321/article/details/83382729 二分類情況和多分類情況下的似然函式與最大似然估計: 二分類情況下的似然函式與最大似然估計: 我們知道按照生活中的常識