機器學習---最小二乘線性回歸模型的5個基本假設(Machine Learning Least Squares Linear Regression Assumptions)
在之前的文章《機器學習---線性回歸(Machine Learning Linear Regression)》中說到,使用最小二乘回歸模型需要滿足一些假設條件。但是這些假設條件卻往往是人們容易忽略的地方。如果不考慮模型的適用情況,就只會得到錯誤的模型。下面來看一下,使用最小二乘回歸模型需要滿足哪些假設,以及如果不滿足這些假設條件會產生怎樣的後果。
最小二乘回歸模型的5個基本假設:
- 自變量(X)和因變量(y)線性相關
- 自變量(X)之間相互獨立
- 誤差項(ε)之間相互獨立
- 誤差項(ε)呈正態分布,期望為0,方差為定值
- 自變量(X)和誤差項(ε)之間相互獨立
第一個假設:自變量(X)和因變量(y)線性相關
線性相關(linearly dependent)是最基本的假設。如果自變量和因變量之間沒有關系或者是非線性關系,那麽就無法使用線性回歸模型進行預測,或者無法預測出準確的結果。
第二個假設:自變量(X)之間相互獨立
如果我們發現本應相互獨立的自變量出現了一定程度(甚至高度)的相關性,那麽我們就無法知道自變量和因變量之間的真正關系,這稱之為共線性(Collinearity)。當共線性出現的時候,變量之間的聯動關系會導致我們估計的參數的標準差變大,置信區間變寬,由此來看,參數的估計值會變得不穩定,對參數的假設檢驗也會變得不準確。
(註:兩個特征之間相互關聯被稱之為共線性,但是也有可能三個或更多的特征之間相互關聯,即使這些特征兩兩之間並沒有很高的關聯,這被稱之為多重共線性(multicollinearity)
第三個假設:誤差項(ε)之間相互獨立
隨機誤差項的各期望值之間存在著相關關系,稱隨機誤差項之間存在自相關性(autocorrelation)。自相關性通常出現在時間序列裏,後一項依賴於前一項;也可能出現在有偏差的樣本裏,比如樣本搜集自同一個家庭的成員。當自相關性出現的時候,預測值的標準差往往比真實的小,進而會導致置信區間變窄,同時,較低的標準差會導致p值較小,這會讓我們得到錯誤的假設檢驗結果。
第四個假設:誤差項(ε)呈正態分布,期望為0,方差為定值
誤差項服從均值為0的正態分布,方差為定值。如果違反了這一假設,意味著異常點增多,置信區間會變寬,這稱之為異方差性(heteroscedasticity)
第五個假設:自變量(X)和誤差項(ε)之間相互獨立
模型中一個或多個自變量與隨機誤差項存在相關關系,這稱之為內生性(endogeneity)。內生性會導致模型參數估計不準確。
機器學習---最小二乘線性回歸模型的5個基本假設(Machine Learning Least Squares Linear Regression Assumptions)