1. 程式人生 > >線性回歸模型

線性回歸模型

分布 高斯分布 數據 height width 最大似然估計 對數 比例 -s

一、線性方程

  Θ1,Θ2,。。。為參數,Θ0為偏置,x1,x2,...xn為特征

  若在二維平面中,一個特征,找出一條最合適的直線去擬合我們的數據

  所在三維平面中,兩個特征,找出一個最合適的平面去擬合我們的數據。

  技術分享圖片

二、誤差

  真實值和預測值之間肯定存在差異

  對每個樣本來說:技術分享圖片                      (1)

  誤差ε符合:獨立,同分布,均值為0,方差為Θ2的高斯分布。

  獨立:樣本之間互相不影響。

  同分布:所有樣本服從於同一個規律

  高斯分布:即正態分布,絕大多數情況下,誤差不會太大,極小情況下浮動大,屬於正常情況。

三、將ε代入高斯分布

  技術分享圖片              (2)

  將(1)式代入(2)式

 

  技術分享圖片

四、似然函數

技術分享圖片

最大似然估計:現在已經拿到了很多個樣本(你的數據集中所有因變量),這些樣本值已經實現,最大似然估計就是去找到那個(組)參數估計值,使得前面已經實現的樣本值發生概率最大。因為你手頭上的樣本已經實現了,其發生概率最大才符合邏輯。這時是求樣本所有觀測的聯合概率最大化,是個連乘積。

五、對數似然

技術分享圖片

只要取對數,就變成了線性加總。此時通過對參數求導數,並令一階導數為零,就可以通過解方程(組),得到最大似然估計值。

技術分享圖片

六、最小二乘法

技術分享圖片

技術分享圖片

七、評估方法

  相關系數R2

技術分享圖片

  R平方:決定系數,反應因變量的全部變異能通過回歸關系被自變量解釋的比例。如R平方為0.8,則表示回歸關系可以解釋因變量80%的變異。換句話說,如果我們能控制自變量不變,則因變量的變異程度會減少80%  

  R平方值=回歸平方和(ssreg)/總平方和(sstotal)
  其中回歸平方和=總平方和-殘差平方和(ssresid)

  R2越接近於1,我們認為模型擬合的越好

  擬合優度越大,自變量對因變量的解釋程度越高,自變量引起的變動占總變動的百分比高。觀察點在回歸直線附近越密集。

矩陣知識補充:

矩陣的跡定義如下

  一個技術分享圖片的矩陣技術分享圖片的跡是指技術分享圖片的主對角線上各元素的總和,記作技術分享圖片。即

  技術分享圖片

  技術分享圖片

  技術分享圖片

線性回歸模型