最小二乘法的核心思想是保證所有資料誤差的平方和最小,但我們是否認真思考過為什麼資料誤差平方和最小便會最優,本文便從最大似然估計演算法的角度來推導最小二乘法的思想合理性,下面我們先了解一下最大似然估計和最小二乘法,最後我們通過中心極限定理剋制的誤差ε服從正態分佈來引出最大似然估計和最小二乘法的關係



一、最大似然估計


先從貝葉斯公式說起:

P(WX)=P(XW)P(W)P(X) P\left( W \middle| X \right) = \ \frac{P\left( X \middle| W \right)P(W)}{P(X)}

P(W) 先驗概率,表示每個類別的概率
P(W|X) 後驗概率,表示已知某事X發生的情況下,屬於某個類W的概率
P(X|W) 類條件概率,在某個類W的前提下,某事X發生的概率

對於 P(W) 先驗概率的估計是簡單的,樣本資訊直接給出,但對於 P(X|W) 類條件概率來說,概率密度函式包含一個隨機變數的全部資訊,直接求解概率密度無法入手,因此我們將概率密度估計問題轉化為引數估計問題,極大似然估計便就是一種引數估計法。

最大似然估計的核心思想是:在給出資料樣本下,找出最大可能產生該樣本的引數值,最大似然估計提供了一種給定觀察資料來評估模型引數的方法,即模型已定,引數未知,通過最大似然估計找到能夠使樣本出現概率最大的引數值,則稱為最大似然估計。

最大似然估計有一個重要的前提假設即:樣本之間是獨立同分布的,先給出一個一般模型。考慮現有一類樣本集D,記作D = { x1,x2,…,xn},來估計引數 θ,有:

L(θ)=P(Dθ)=P(x1,x2,,xnθ)=i=1NP(xiθ) L\left( \theta \right) = \ P\left( D \middle| \theta \right) = P\left( x1,x2,\ldots,xn \middle| \theta \right) = \ \prod_{i = 1}^{N}{P(xi|\theta)}

其中 P(D|θ) 既是聯合概率密度函式,L(θ) 稱作樣本 D={x1,x2,…,xn} 關於θ的似然函式,對上式取對數可得:

l(θ)=lnL(θ)=i=1NlnP(xiθ) l\left( \theta \right) = \ lnL\left( \theta \right) = \ \sum_{i = 1}^{N}{lnP(xi|\theta)}

按照最大似然函式的思想,我們要求的是使得樣本出現概率最大的引數θ,因此:

θ=argl(θ) \theta = arg\operatorname{}{l(\theta)}

因此當 ∂l(θ)/∂θ = 0 成立時l(θ) 取得最大值,解此時便可得到引數 θ

注:這裡的引數θ可是實數變數(一個未知引數),也可以是向量(多個未知引數)



二、最小二乘法(最小平方法)


比如我們要做資料擬合,如下圖所示:
在這裡插入圖片描述

假設我們擬合函式為hθ(x),暫先不管hθ(x) 形式,擬合函式可以是線性,也可非線性,正如上圖所示,現在我們需要做的便是選出擬合效果最好的函式,法國數學家勒讓德定義,讓資料總體誤差最小的便是最好的。當然為什麼勒讓德如此定義我們便認為是合理的呢,下面第三節最大似然估計的角度說明該定義的合理性。

兩種定義擬合總體誤差:

(1) 誤差絕對值之和:

i=1my(i)hθ(x(i)) \operatorname{}{\sum_{i = 1}^{m}{|{y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right)|}}

解釋:m表示樣本點數,(xi, yi) 既是座標點

(2) 誤差平方和最小:

i=1m(y(i)hθ(x(i)))2 \operatorname{}{\sum_{i = 1}^{m}{(\ y^{\left( i \right)} - \ h_{\theta}\left( x^{(i)} \right))}^{2}}

最小二乘法便是便是採用了保證所有資料誤差的平方和最小,這便是最小二乘法優化的核心思想。這裡簡單解釋為什麼不去誤差絕對值之和最小,主要願意便是誤差絕對值之和最小無法轉化為一個可解的尋優問題,無法確定一個合適的尋優的引數估計方程,數學上不易處理。

根據擬合函式 hθ(x) 定義形式的不同,引數的個數和形式也不同,但引數求解方式相同,都是通過對引數求偏導求解,這裡以簡單的線性擬合為例作簡單說明,則:

hθ(x)=ax+bθ=[a,b] h_{\theta}\left( x \right) = \ a*x + b\ \ \ \ \ \ \theta = \lbrack a,\ b\rbrack

優化方程為:

J(θ)=i=1m(y(i)(ax(i)+b))2 \operatorname{}{J(\theta)} = \ \operatorname{}{\sum_{i = 1}^{m}{(y^{\left( i \right)} - \ (a*x^{\left( i \right)} + b))}^{2}}

對引數a,b求偏導有:

Ja=2i=1mx(i)(y(i)(ax(i)+b)) \frac{\partial J}{\partial a} = - 2\sum_{i = 1}^{m}{x^{\left( i \right)}(y^{\left( i \right)}\ \ (a*x^{\left( i \right)} + b))}

Jb=2i=1m(y(i)(ax(i)+b)) \frac{\partial J}{\partial b} = 2\sum_{i = 1}^{m}{(y^{\left( i \right)}\ \left( a*x^{\left( i \right)} + b \right))}\

聯合上述式子便可求得引數a, b得到最優擬合函式



三、高斯正態分佈、最大似然估計、最小二乘法關係


繼續以上述資料擬合為例,對每個資料點擬合都會存在誤差,我們定義誤差為:

ε(i)=y(i)hθ(x(i)) \varepsilon^{(i)} = \ {\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right)

假設當樣本資料量足夠多的情況下,我們由中心極限定理剋制可知誤差ε服從正態分佈,即ε~N(0, σ2),因此有:

P(ε(i))=12πσexp((εi)22σ2) P\left( \varepsilon^{\left( i \right)} \right) = \ \frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{(\varepsilon^{i})}^{2}}{2\sigma^{2}})

因此我們可得yi 關於xi 的概率密度公式為:

P(y(i)x(i);θ)=12πσexp((y(i)hθ(x(i)))22σ2) P\left( y^{\left( i \right)}{|x}^{\left( i \right)};\theta \right) = \ \frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}{2\sigma^{2}})

求概率密度問題是不是有想到了最大似然法,這裡便可以把求概率密度轉化為求引數,因此有最大似然法可得:

L(θ)=P(yx;θ)=i=1m12πσexp((y(i)hθ(x(i)))22σ2) L\left( \theta \right) = \ P\left( y \middle| x;\theta \right) = \ \prod_{i = 1}^{m}{\frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}{2\sigma^{2}})}

按照最大似然估計接下來便通過最大化似然函式求參,但通過觀察可以看出:

L(θ)<=>i=1m(y(i)hθ(x(i)))2 \operatorname{}{L\left( \theta \right)\ < = > \ \ \operatorname{}{\sum_{i = 1}^{m}{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}}

右式是啥,不就是最小二乘法嘛,所以從此角度也說明了最小二乘法定義的所有資料誤差的平方和最小既是最優的合理性

.