1. 程式人生 > >分位數迴歸-Quantile regression

分位數迴歸-Quantile regression

文章目錄

一、分位數迴歸概念

分位數迴歸是估計一組迴歸變數X與被解釋變數Y的分位數之間線性關係的建模方法。

以往的迴歸模型實際上是研究被解釋變數的條件期望。而人們也關心解釋變數與被解釋變數分佈的中位數,分位數呈何種關係。它最早由Koenker和Bassett(1978)提出。

OLS迴歸估計量的計算是基於最小化殘差平方。分位數迴歸估計量的計算也是基於一種非對稱形式的絕對值殘差最小化。其中,中位數迴歸運用的是最小絕對值離差估計(LAD,least absolute deviations estimator)。

分位數迴歸的優點

(1)能夠更加全面的描述被解釋變數條件分佈的全貌,而不是僅僅分析被解釋變數的條件期望(均值),也可以分析解釋變數如何影響被解釋變數的中位數、分位數等。不同分位數下的迴歸係數估計量常常不同,即解釋變數對不同水平被解釋變數的影響不同。

(2)中位數迴歸的估計方法與最小二乘法相比,估計結果對離群值則表現的更加穩健,而且,分位數迴歸對誤差項並不要求很強的假設條件,因此對於非正態分佈而言,分位數迴歸係數估計量則更加穩健。

二、相關推導

2.1 分位數概念

一個連續隨機變數 y

y ,其總體第 τ \tau 分位數是 y ( τ )
y(\tau)
的定義是: y y 小於等於 y ( τ ) y(\tau) 的概率是 τ \tau ,即
τ = P ( y y ( τ ) ) = F ( y ( τ ) ) \tau = P( y \leqslant y(\tau)) = F(y(\tau))

2.2 離差絕對值LAD

定理:連續變數用 y y 表示,其概率密度函式用 f ( y ) f(y) 表示,累計概率密度函式用 F ( y ) F(y) 表示, y y 的中位數用 y ( 0.5 ) y_{(0.5)} 表示,則 y y 與任一值 α \alpha 的離差絕對值的期望 E ( y α ) E(|y-\alpha|) α = y ( 0.5 ) \alpha= y_{(0.5)} 時為最小。

證明:
image.png

上文,萊布尼茨公式:
image.png

這裡,我是用了參變數積分求導才理解通。
image.png

另有其他角度的證明,從樣本出發,直覺上感覺也沒有太大問題,方便理解。
image.png

2.3 分位數迴歸

image.png
目標函式(15.3)不可微,因此傳統的對目標函式求導的方法不再適用。

2.4 效果以及理解

以一元 迴歸為例,如果用 LAD 法估計的中位數迴歸直線與用 OLS 法估計的均值迴歸直線有顯著差別, 則表明被解釋變數 y 的分佈是非對稱的。如果散點圖上側分位數迴歸直線之間與下側分位數迴歸 直線之間相比,相互比較接近,則說明被解釋變數 y 的分佈是左偏倚的。反之是右偏倚的。對於 不同分位數迴歸函式如果迴歸係數的差異很大,說明在不同分位數上解釋變數對被解釋變數的影 響是不同的。

三、模型檢驗

1、擬合優度(Goodness-of-Fit)

2、擬似然比檢驗(Quasi-Likelihood Ratio Tests)

3、Wald 檢驗

系列分位數迴歸檢驗

1)斜率相等檢驗

2)對稱性檢驗

四、求解方法

點估計:
image.png

區間估計:
image.png

R : quantreg - rq()

相關:

https://www.cnblogs.com/shangfr/p/5736738.html

statsmodels參考文獻:

Roger Koenker and Kevin F. Hallock. “Quantile Regressioin”. Journal of Economic Perspectives, Volume 15, Number 4, Fall 2001, Pages 143–156。

https://max.book118.com/html/2017/0615/115662569.shtm