線性回歸模型
一、線性方程
Θ1,Θ2,。。。為參數,Θ0為偏置,x1,x2,...xn為特征
若在二維平面中,一個特征,找出一條最合適的直線去擬合我們的數據
所在三維平面中,兩個特征,找出一個最合適的平面去擬合我們的數據。
二、誤差
真實值和預測值之間肯定存在差異
對每個樣本來說: (1)
誤差ε符合:獨立,同分布,均值為0,方差為Θ2的高斯分布。
獨立:樣本之間互相不影響。
同分布:所有樣本服從於同一個規律
高斯分布:即正態分布,絕大多數情況下,誤差不會太大,極小情況下浮動大,屬於正常情況。
三、將ε代入高斯分布
(2)
將(1)式代入(2)式
四、似然函數
最大似然估計:現在已經拿到了很多個樣本(你的數據集中所有因變量),這些樣本值已經實現,最大似然估計就是去找到那個(組)參數估計值,使得前面已經實現的樣本值發生概率最大。因為你手頭上的樣本已經實現了,其發生概率最大才符合邏輯。這時是求樣本所有觀測的聯合概率最大化,是個連乘積。
五、對數似然
只要取對數,就變成了線性加總。此時通過對參數求導數,並令一階導數為零,就可以通過解方程(組),得到最大似然估計值。
六、最小二乘法
七、評估方法
相關系數R2
R平方:決定系數,反應因變量的全部變異能通過回歸關系被自變量解釋的比例。如R平方為0.8,則表示回歸關系可以解釋因變量80%的變異。換句話說,如果我們能控制自變量不變,則因變量的變異程度會減少80%
R平方值=回歸平方和(ssreg)/總平方和(sstotal)
其中回歸平方和=總平方和-殘差平方和(ssresid)
R2越接近於1,我們認為模型擬合的越好
擬合優度越大,自變量對因變量的解釋程度越高,自變量引起的變動占總變動的百分比高。觀察點在回歸直線附近越密集。
矩陣知識補充:
矩陣的跡定義如下
一個的矩陣的跡是指的主對角線上各元素的總和,記作。即
線性回歸模型