成員 toc 我們 假設 depend element 產生 log bsp

在之前的文章《機器學習---線性回歸(Machine Learning Linear Regression)》中說到,使用最小二乘回歸模型需要滿足一些假設條件。但是這些假設條件卻往往是人們容易忽略的地方。如果不考慮模型的適用情況,就只會得到錯誤的模型。下面來看一下,使用最小二乘回歸模型需要滿足哪些假設,以及如果不滿足這些假設條件會產生怎樣的後果。

最小二乘回歸模型的5個基本假設:

  • 自變量(X)和因變量(y)線性相關
  • 自變量(X)之間相互獨立
  • 誤差項(ε)之間相互獨立
  • 誤差項(ε)呈正態分布,期望為0,方差為定值
  • 自變量(X)和誤差項(ε)之間相互獨立

第一個假設:自變量(X)和因變量(y)線性相關

線性相關(linearly dependent)是最基本的假設。如果自變量和因變量之間沒有關系或者是非線性關系,那麽就無法使用線性回歸模型進行預測,或者無法預測出準確的結果。

第二個假設:自變量(X)之間相互獨立

如果我們發現本應相互獨立的自變量出現了一定程度(甚至高度)的相關性,那麽我們就無法知道自變量和因變量之間的真正關系,這稱之為共線性(Collinearity)當共線性出現的時候,變量之間的聯動關系會導致我們估計的參數的標準差變大,置信區間變寬,由此來看,參數的估計值會變得不穩定,對參數的假設檢驗也會變得不準確。

(註:兩個特征之間相互關聯被稱之為共線性,但是也有可能三個或更多的特征之間相互關聯,即使這些特征兩兩之間並沒有很高的關聯,這被稱之為多重共線性(multicollinearity)

第三個假設:誤差項(ε)之間相互獨立

隨機誤差項的各期望值之間存在著相關關系,稱隨機誤差項之間存在自相關性(autocorrelation)。自相關性通常出現在時間序列裏,後一項依賴於前一項;也可能出現在有偏差的樣本裏,比如樣本搜集自同一個家庭的成員。當自相關性出現的時候,預測值的標準差往往比真實的小,進而會導致置信區間變窄,同時,較低的標準差會導致p值較小,這會讓我們得到錯誤的假設檢驗結果。

第四個假設:誤差項(ε)呈正態分布,期望為0,方差為定值

誤差項服從均值為0的正態分布,方差為定值。如果違反了這一假設,意味著異常點增多,置信區間會變寬,這稱之為異方差性(heteroscedasticity)。當異方差性出現的時候,如果仍采用最小二乘法估計參數,會導致參數的t檢驗值被高估,可能造成本來不顯著的某些參數變為顯著,使假設檢驗失去意義。

第五個假設:自變量(X)和誤差項(ε)之間相互獨立

模型中一個或多個自變量與隨機誤差項存在相關關系,這稱之為內生性(endogeneity)。內生性會導致模型參數估計不準確。

機器學習---最小二乘線性回歸模型的5個基本假設(Machine Learning Least Squares Linear Regression Assumptions)