1. 程式人生 > >機器學習演算法篇:最大似然估計證明最小二乘法合理性

機器學習演算法篇:最大似然估計證明最小二乘法合理性


最小二乘法的核心思想是保證所有資料誤差的平方和最小,但我們是否認真思考過為什麼資料誤差平方和最小便會最優,本文便從最大似然估計演算法的角度來推導最小二乘法的思想合理性,下面我們先了解一下最大似然估計和最小二乘法,最後我們通過中心極限定理剋制的誤差ε服從正態分佈來引出最大似然估計和最小二乘法的關係



一、最大似然估計


先從貝葉斯公式說起:

P(WX)=P(XW)P(W)P(X) P\left( W \middle| X \right) = \ \frac{P\left( X \middle| W \right)P(W)}{P(X)}

P(W)

先驗概率,表示每個類別的概率
P(W|X) 後驗概率,表示已知某事X發生的情況下,屬於某個類W的概率
P(X|W) 類條件概率,在某個類W的前提下,某事X發生的概率

對於 P(W) 先驗概率的估計是簡單的,樣本資訊直接給出,但對於 P(X|W) 類條件概率來說,概率密度函式包含一個隨機變數的全部資訊,直接求解概率密度無法入手,因此我們將概率密度估計問題轉化為引數估計問題,極大似然估計便就是一種引數估計法。

最大似然估計的核心思想是:在給出資料樣本下,找出最大可能產生該樣本的引數值,最大似然估計提供了一種給定觀察資料來評估模型引數的方法,即模型已定,引數未知,通過最大似然估計找到能夠使樣本出現概率最大的引數值,則稱為最大似然估計。

最大似然估計有一個重要的前提假設即:樣本之間是獨立同分布的,先給出一個一般模型。考慮現有一類樣本集D,記作D = { x1,x2,…,xn},來估計引數 θ,有:

L(θ)=P(Dθ)=P(x1,x2,,xnθ)=i=1NP(xiθ) L\left( \theta \right) = \ P\left( D \middle| \theta \right) = P\left( x1,x2,\ldots,xn \middle| \theta \right) = \ \prod_{i = 1}^{N}{P(xi|\theta)}

=1NP(xiθ)

其中 P(D|θ) 既是聯合概率密度函式,L(θ) 稱作樣本 D={x1,x2,…,xn} 關於θ的似然函式,對上式取對數可得:

l(θ)=lnL(θ)=i=1NlnP(xiθ) l\left( \theta \right) = \ lnL\left( \theta \right) = \ \sum_{i = 1}^{N}{lnP(xi|\theta)}

按照最大似然函式的思想,我們要求的是使得樣本出現概率最大的引數θ,因此:

θ=argl(θ) \theta = arg\operatorname{}{l(\theta)}

因此當 ∂l(θ)/∂θ = 0 成立時l(θ) 取得最大值,解此時便可得到引數 θ

注:這裡的引數θ可是實數變數(一個未知引數),也可以是向量(多個未知引數)



二、最小二乘法(最小平方法)


比如我們要做資料擬合,如下圖所示:
在這裡插入圖片描述

假設我們擬合函式為hθ(x),暫先不管hθ(x) 形式,擬合函式可以是線性,也可非線性,正如上圖所示,現在我們需要做的便是選出擬合效果最好的函式,法國數學家勒讓德定義,讓資料總體誤差最小的便是最好的。當然為什麼勒讓德如此定義我們便認為是合理的呢,下面第三節最大似然估計的角度說明該定義的合理性。

兩種定義擬合總體誤差:

(1) 誤差絕對值之和:

i=1my(i)hθ(x(i)) \operatorname{}{\sum_{i = 1}^{m}{|{y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right)|}}

解釋:m表示樣本點數,(xi, yi) 既是座標點

(2) 誤差平方和最小:

i=1m(y(i)hθ(x(i)))2 \operatorname{}{\sum_{i = 1}^{m}{(\ y^{\left( i \right)} - \ h_{\theta}\left( x^{(i)} \right))}^{2}}

最小二乘法便是便是採用了保證所有資料誤差的平方和最小,這便是最小二乘法優化的核心思想。這裡簡單解釋為什麼不去誤差絕對值之和最小,主要願意便是誤差絕對值之和最小無法轉化為一個可解的尋優問題,無法確定一個合適的尋優的引數估計方程,數學上不易處理。

根據擬合函式 hθ(x) 定義形式的不同,引數的個數和形式也不同,但引數求解方式相同,都是通過對引數求偏導求解,這裡以簡單的線性擬合為例作簡單說明,則:

hθ(x)=ax+bθ=[a,b] h_{\theta}\left( x \right) = \ a*x + b\ \ \ \ \ \ \theta = \lbrack a,\ b\rbrack

優化方程為:

J(θ)=i=1m(y(i)(ax(i)+b))2 \operatorname{}{J(\theta)} = \ \operatorname{}{\sum_{i = 1}^{m}{(y^{\left( i \right)} - \ (a*x^{\left( i \right)} + b))}^{2}}

對引數a,b求偏導有:

Ja=2i=1mx(i)(y(i)(ax(i)+b)) \frac{\partial J}{\partial a} = - 2\sum_{i = 1}^{m}{x^{\left( i \right)}(y^{\left( i \right)}\ \ (a*x^{\left( i \right)} + b))}

Jb=2i=1m(y(i)(ax(i)+b)) \frac{\partial J}{\partial b} = 2\sum_{i = 1}^{m}{(y^{\left( i \right)}\ \left( a*x^{\left( i \right)} + b \right))}\

聯合上述式子便可求得引數a, b得到最優擬合函式



三、高斯正態分佈、最大似然估計、最小二乘法關係


繼續以上述資料擬合為例,對每個資料點擬合都會存在誤差,我們定義誤差為:

ε(i)=y(i)hθ(x(i)) \varepsilon^{(i)} = \ {\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right)

假設當樣本資料量足夠多的情況下,我們由中心極限定理剋制可知誤差ε服從正態分佈,即ε~N(0, σ2),因此有:

P(ε(i))=12πσexp((εi)22σ2) P\left( \varepsilon^{\left( i \right)} \right) = \ \frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{(\varepsilon^{i})}^{2}}{2\sigma^{2}})

因此我們可得yi 關於xi 的概率密度公式為:

P(y(i)x(i);θ)=12πσexp((y(i)hθ(x(i)))22σ2) P\left( y^{\left( i \right)}{|x}^{\left( i \right)};\theta \right) = \ \frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}{2\sigma^{2}})

求概率密度問題是不是有想到了最大似然法,這裡便可以把求概率密度轉化為求引數,因此有最大似然法可得:

L(θ)=P(yx;θ)=i=1m12πσexp((y(i)hθ(x(i)))22σ2) L\left( \theta \right) = \ P\left( y \middle| x;\theta \right) = \ \prod_{i = 1}^{m}{\frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}{2\sigma^{2}})}

按照最大似然估計接下來便通過最大化似然函式求參,但通過觀察可以看出:

L(θ)<=>i=1m(y(i)hθ(x(i)))2 \operatorname{}{L\left( \theta \right)\ < = > \ \ \operatorname{}{\sum_{i = 1}^{m}{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}}

右式是啥,不就是最小二乘法嘛,所以從此角度也說明了最小二乘法定義的所有資料誤差的平方和最小既是最優的合理性

相關推薦

機器學習演算法估計證明乘法合理性

最小二乘法的核心思想是保證所有資料誤差的平方和最小,但我們是否認真思考過為什麼資料誤差平方和最小便會最優,本文便從最大似然估計演算法的角度來推導最小二乘法的思想合理性,下面我們先了解一下最大似然估計和最小二乘法,最後我們通過中心極限定理剋制的誤差ε服從正態分佈

機器學習演算法(1)——極大估計與EM演算法

極大似然估計 在講解極大似然估計前,需要先介紹貝葉斯分類: 貝葉斯決策:       首先來看貝葉斯分類,經典的貝葉斯公式:                 &nb

估計後驗估計與樸素貝葉斯分類演算法

最大似然估計、最大後驗估計與樸素貝葉斯分類演算法 目錄   一、前言   二、概率論基礎   三、最大似然估計   四、最大後驗估計   五、樸素貝葉斯分類   六、參考文獻   一、前言   本篇文章的主要內容為筆者對概率論基礎內容的回顧,及個人對其中一些知識點的解讀。另外,在這些上述知識的基礎之

估計

現在 最小 bayesian 我不知道 什麽 改變 我不 tps 有關 參考: 最大似然估計,就是利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。例如:一個麻袋裏有白球與黑球,但是我不知道它們之間的比例,那我就有放回的抽取10次,結果我發現我抽到了8次黑球

估計vs後驗概率

1) 最大似然估計 MLE 給定一堆資料,假如我們知道它是從某一種分佈中隨機取出來的,可是我們並不知道這個分佈具體的參,即“模型已定,引數未知”。例如,我們知道這個分佈是正態分佈,但是不知道均值和方差;或者是二項分佈,但是不知道均值。 最大似然估計(MLE,Maximum Lik

估計後驗概率估計(貝葉斯引數估計

舉個例子:偷盜的故事,三個村莊,五個人偷。 村子被不同小偷偷的概率:P(村子|小偷1)、P(村子|小偷2)、P(村子|小偷3) 小偷1的能力:P(偷盜能力)=P(村子1|小偷1)+P(村子2|小偷1)+P(村子3|小偷1)+P(村子4|小偷1)+P(村子5|小偷1) 小

L1、L2 正則項詳解 - 解空間、先驗分佈、估計 and 後驗估計

L1、L2 正則項詳解(解空間、先驗分佈) 引入 直觀看 解空間 先驗分佈 最大似然估計 最大後驗估計 引入 線上性迴歸

關於估計估計

看似最小二乘估計與最大似然估計在推導得到的結果很相似,但是其前提條件必須引起大家的注意!!! 對於最小二乘估計,最合理的引數估計量應該使得模型能最好地擬合樣本資料,也就是估計值和觀測值之差的平方和最小,其推導過程如下所示。其中Q表示誤差,Yi表示估計值,Yi'表示觀測值

關於估計乘法的理解和公式推導

最小二乘法可以從Cost/Loss function角度去想,這是統計(機器)學習裡面一個重要概念,一般建立模型就是讓loss function最小,而最小二乘法可以認為是 loss function = (y_hat -y )^2的一個特例,類似的想各位說的還可以用各種距離度量來作為loss functi

估計後驗估計,貝葉斯估計聯絡與區別

1.什麼是引數 在機器學習中,我們經常使用一個模型來描述生成觀察資料的過程。例如,我們可以使用一個隨機森林模型來分類客戶是否會取消訂閱服務(稱為流失建模),或者我們可以用線性模型根據公司的廣告支出來預測公司的收入(這是一個線性迴歸的例子)。每個模型都包含自己的

貝葉斯估計估計後驗概率估計

文章作者:Tyan 部落格:noahsnail.com  |  CSDN  |  簡書 1. 引言 貝葉斯估計、最大似然估計(MLE)、最大後驗概率估計(MAP)這幾個概念在機器學習和深度學習中經常碰到,讀文章的時候還感覺挺明白,但獨立思考時經常會傻傻

估計後驗估計,貝葉斯估計

這三種方法都是監督學習中的引數估計方法,假定已知data的分佈形式(比如第二章裡介紹的各種分佈),但是需要確定引數。 1 最大似然估計Maximize Likelihood Estimation等價於曲線擬合中的最小二乘法,MLE把待估的引數看作是確定性的量,只是其取值未知

通俗理解估計後驗概率估計,貝葉斯估計

以下所有例子都是拋硬幣問題,在兩次試驗中出現正,反兩次結果,求該硬幣出現正面的概率p, 最大似然估計:       假設分佈為伯努利分佈,也就是二項分佈,出現正面的概率是p,則下次出現上述實驗結果現象的概率是:L=P(1-p),如何才能讓下次出現相同結過的概率最大?自然是L

貝葉斯思想以及與估計後驗估計的區別

ML-最大似然估計 MAP-最大後驗估計 貝葉斯估計 三者的關係及區別 一。機器學習   核心思想是從past experience中學習出規則,從而對新的事物進行預測。對於監督學習來說,有用的樣本數目越多,訓練越準確。 用下圖來表示機器學習的過程及包含的知識: 簡單來說就是:

估計後驗估計和貝葉斯估計的關係

        最大似然估計(MLE) 原理:設X1, X2…Xn是取自總體X的一個樣本,樣本的聯合密度(連續型)或聯合概率密度(離散型)為f(X1, X2…Xn; Θ)。當給定樣本X1, X2…Xn時,定義似然函式為L(Θ)= f(X1, X2…Xn; Θ)。 L(Θ)

估計後驗概率估計的區別

最大似然估計(MLE) 1.似然函式:L(θ|x)=P(X=x|θ) ①物理意義:某次實驗,θ取不同值時,出現X=x的結果的概率; ②似然函式是引數(θ)的函式; ③似然函式是條件轉移概率。 例1:設一枚硬幣正面朝上的概率為p,

機器學習概念後驗概率估計估計 (Maximum posterior probability and maximum likelihood estimation)

joey 周琦 假設有引數 θ \theta, 觀測 x \mathbf{x}, 設 f(x|θ) f(x|\theta)是變數 x x的取樣分佈, θ \th

機器學習演算法從為什麼梯度方向是函式變化率快方向詳談梯度下降演算法

梯度下降法是機器學習中常用的引數優化演算法,使用起來也是十分方便!很多人都知道梯度方向便是函式值變化最快的方向,但是有認真的思考過梯度方向是什麼方向,梯度方向為什麼是函式值變化最快的方向這些問題嘛,本文便以解釋為什麼梯度方向是函式值變化最快方向為引子引出對梯度

機器學習】【邏輯迴歸】估計的推導和求解步驟和梯度上升演算法求解

伯努利分佈如果隨機變數X∈{0, 1},並且相應的概率滿足:    P(X=1) = p,0<p<1    P(X=0) = 1 - p則稱隨機變數X服從引數為p的伯努利分佈。則隨機變數X的概率密度函式為:邏輯迴歸    邏輯迴歸卻不是迴歸演算法而是一個分類演算法

機器學習基本理論】詳解估計(MLE)、後驗概率估計(MAP),以及貝葉斯公式的理解

總結 ora 二次 判斷 天都 特性 以及 解釋 意思 【機器學習基本理論】詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估計(Maximum lik