1. 程式人生 > >最小二乘法與嶺迴歸的介紹與對比

最小二乘法與嶺迴歸的介紹與對比

一 線性迴歸(最小二乘法)

假設我們有n個樣本資料,每個資料有p個特徵值,然後p個特徵值是線性關係

即對應的線性模型

寫成矩陣的形式即是Y=XA

由於樣本與模型不一定百分百符合,存在一些噪聲,即誤差,用B表示,B也是一個向量

即B=Y-XA

Y為樣本值,XA為模型的計算值,即期望值

誤差的平方的計算公式

Xi為行向量,A為列向量。

最小二乘法的目標就是取得最小的e對應的A,由於方差的計算是一個二次函式,即拋物線,對應存在一個最小值,即導數為0對應的A。所以對e求A的偏導數,再使其等於0,求解方程即可以獲得A。

誤差的平方e寫成矩陣形式即為

對矩陣E取跡(跡就是矩陣對角線上所有元素的累加)且對跡求導後結果為一個矩陣。

即為 

展開為 

求導化簡結果為

當A的維數比Y的維數多,即樣本數量n少於特徵值p的時候存在多個解,可能導致結果很不穩定,所以要確保n>p

X矩陣不存在廣義逆(即奇異性)的情況:
1
)X本身存線上性相關關係(即多重共線性),即非滿秩矩陣。
當取樣值誤差造成本身線性相關的樣本矩陣仍然可以求出逆陣時,此時的逆陣非常不穩定,所求的解也沒有什麼意義。
2)當變數比樣本多,即p>n時.
這時,迴歸係數會變得很大,無法求解。在統計學上,可證明A的最小二乘解為無偏估計,即多次得到的取樣值X而計算出來的多個係數估計值向量 的平均值將無限接近於真實值向量β。

二 嶺迴歸(Ridge Regression

思路:在原先的A的最小二乘估計中加一個小擾動λI,是原先無法求廣義逆的情況變成可以求出其廣義逆,使得問題穩定並得以求解。


可以看到變為滿秩矩陣,可以求穩定的逆。

對應的推導過程如下:

上式子寫成矩陣的形式為

對上式子採用一樣的方式(求A的偏導數=0)可得


嶺迴歸與最小二乘的區別在於這一項,稱之為正則項,這一項可以看成是對A的各個元素,即各個特徵的權的總體的平衡程度,也就是權之間的方差。

介紹一下誤差(偏差)和方差

偏差bais

預測出來的資料與真實值的差距

方差 variance

預測出來的資料的分散程度


在二維的情況下可以這樣來理解


RSS為誤差

橢圓形拋物面為這一部分,圓柱形為

這一部分,由最小二乘法求得的解是拋物面的最低點,由嶺迴歸求得的解便是圖中的黃點,一般來說,擬合的誤差值(偏差)越小,A的各個元素(權)的方差越高,所以嶺迴歸是找到一個方差不會太大,誤差也不會太大的一個權衡的點,隨著r增大,方差變大(隨著增大,方差減小)。

嶺迴歸性質
1)當嶺引數為0,得到最小二乘解。
2)當嶺引數λ趨向更大時,嶺迴歸係數A估計趨向於0。
3)嶺迴歸是迴歸引數A的有偏估計。它的結果是使得殘差平和變大,但是會使係數檢驗變好。
4)在認為嶺引數λ是與y無關的常數時,是最小二乘估計的一個線性變換,也是y的線性函式。
但在實際應用中,由於λ總是要通過資料確定,因此λ也依賴於y、因此從本質上說,並非的線性變換,也非y的線性函式。
5)對於迴歸係數向量來說,有偏估計迴歸係數向量長度<無偏估計迴歸係數向量長度。


6)存在某一個λ,使得它所對應的的MSE(估計向量的均方誤差)<最小二乘法對應估計向量的的MSE。
即  存在λ>0,使得

嶺跡圖
是λ的函式,嶺跡圖的橫座標為λ,縱座標為A(λ)。而A(λ)是一個向量,由a1(λ)、a2(λ)、...等很多分量組成,每一個分量都是λ的函式,將每一個分量分別用一條線。
當不存在奇異性時,嶺跡應是穩定地逐漸趨向於0

 

嶺跡圖作用:
1)觀察λ較佳取值;
2)觀察變數是否有多重共線性;

在λ很小時,A很大,且不穩定,當λ增大到一定程度時,A係數迅速縮小,趨於穩定。

λ的選擇:一般通過觀察,選取喇叭口附近的值,此時各β值已趨於穩定,但總的RSS又不是很大。
選擇變數:刪除那些β取值一直趨於0的變數。


嶺引數的一般選擇原則
選擇λ值,使到
1)各回歸係數的嶺估計基本穩定;
2)用最小二乘估計時符號不合理的迴歸係數,其嶺估計的符號變得合理;
3)迴歸係數沒有不合乎實際意義的值;
4)殘差平方和增大不太多。 一般λ越大,係數β會出現穩定的假象,但是殘差平方和也會更大。



取λ的方法比較多,但是結果差異較大。這是嶺迴歸的弱點之一。

嶺迴歸選擇變數的原則(不靠譜,僅供參考)
1)在嶺迴歸中設計矩陣X已經中心化和標準化了,這樣可以直接比較標準化嶺迴歸係數的大小。可以剔除掉標準化嶺迴歸係數比較穩定且值很小的自變數。
2)隨著λ的增加,迴歸係數不穩定,震動趨於零的自變數也可以剔除。
3)如果依照上述去掉變數的原則,有若干個迴歸係數不穩定,究竟去掉幾個,去掉哪幾個,這無一般原則可循,這需根據去掉某個變數後重新進行嶺迴歸分析的效果來確定。

三 LASSO迴歸

LASSO迴歸和嶺迴歸的區別只在於正則項不同


兩者的區別對應到圖形上則是


圖片中的黑色粗線,即為一個底面為正方形的柱體與拋物面的交點


從投影圖看則更加的直觀,lasso更容易產生解為0的情況,可以起到篩選變數的目的。

參考連結