1. 程式人生 > >深入理解線性模型(二)---基於似然函式的估計

深入理解線性模型(二)---基於似然函式的估計

目錄

  • 1. 引言
  • 2. 關於\(\varepsilon\)假設
  • 3. 基於似然函式的估計
    • 3.1 基於假設1
    • 3.2 基於假設2
    • 3.3. 基於假設3
  • 4. 估計的優良性
  • 5. 假設的場景

更新時間:2019.10.31

1. 引言

  在上一篇中,我們從損失函式的角度出發討論了\(\beta\)和\(\sigma\)的估計。在本篇將換一種極具統計味道的角度,從似然函數出發來討論了\(\beta\)和\(\sigma\)的估計。從中我們也將看見,在不同的假設中,損失函式將會發生不同的變化。

2. 關於\(\varepsilon\)假設

  在上一篇(基於損失函式的估計)中,我們提到,對於線性模型,我們常常使用Guass-Markon假設,即:

  1. \(E(\varepsilon) = 0\)
  2. \(cov(\varepsilon) = \sigma^2 I_n\)

  但是,實際上我們同方差的假設是總是不滿足的,完整來說,對\(\varepsilon\)的假設應該有三種:

  1. 同方差,且各個隨機誤差變數不相關:\(cov(\varepsilon) = \sigma^2 I_n\)
  2. 異常差,但各個隨機誤差變數不相關,\(cov(\varepsilon) = diag(\sigma_1^2, \sigma_2^2, \cdots, \sigma_n^2)\)
  3. 異方差,且各個隨機誤差變數是相關的,
    \[ cov(\varepsilon) = \begin{pmatrix} \sigma_{11}^2 & cov(\varepsilon_1, \varepsilon_2) & \cdots & cov(\varepsilon_1, \varepsilon_n)\\ cov(\varepsilon_2, \varepsilon_1) & \sigma_{22}^2 & \cdots & cov(\varepsilon_2, \varepsilon_n)\\ \vdots & \vdots & & \vdots\\ cov(\varepsilon_n, \varepsilon_1) & cov(\varepsilon_n, \varepsilon_2) & \cdots & \sigma_{nn}^2 \end{pmatrix} \]

  此時,記\(cov(\varepsilon) = \Sigma\)

3. 基於似然函式的估計

  之前是從損失函式的角度進行引數的估計,但是實際上每個損失函式都應該對應著一個分佈,並使得分佈的似然函式達到最大
  我們知道在X給定的情況下,似然函式\(L(\theta;Y,X) = P_{\theta}(Y_1 = y_1, Y_2 = y_2, \cdots, Y_n = y_n)\)。假設\(Y_1, Y_2, \cdots, Y_n\)是獨立的,有\(L(\theta;Y,X) = \prod_{i=1}^nP(Y = y_i)\)。當是離散情況的時候,可以進一步化為:\(L(\theta;Y,X) = \prod_{i=1}^nP_i(\theta)\)。當是連續情況的時候,則可以化為:\(L(\theta;Y,X) = \prod_{i=1}^n f(y_i;\theta)\)

3.1 基於假設1

  如果滿足假設1,\(cov(\varepsilon) = \sigma^2 I_n\), 並加上一個正態性的假設,即有\(\varepsilon_i \sim N(0, \sigma^2)\),那麼,\(y_i = x_i\beta + \varepsilon_i \sim N(x_i\beta, \sigma^2)\),那麼有似然函式:
\begin{equation}
\begin{split}
L(\beta, \sigma^2, Y, X) & = \prod_{i=1}^n f(y_i)\\
& = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma} e^{- \frac{(y_i - x_i\beta)^2}{2\sigma^2}}\\
& = (\frac{1}{\sqrt{2\pi}\sigma})^n e^{- \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2}
\end{split}
\end{equation}

  可以看到,似然函式中含有的\(\sum_{i=1}^n(y_i - x_i\beta)^2\)部分正是我們之前討論的二次損失形式。那麼我們便了解到,基於假設1時,確實是應該採用我們之前所使用的二次損失形式
  通常為了簡便計算,我們都會將似然函式對數化

\begin{equation}
\begin{split}
lnL(\beta, \sigma^2, Y, X) & = -nln(\sqrt{2\pi}\sigma)- \frac{1}{2 \sigma^2} \sum_{i=1}^n(y_i - x_i\beta)^2
\end{split}
\end{equation}

  記\(G(\beta, \sigma^2) = nln(\sqrt{2\pi}\sigma) + \frac{1}{2 \sigma^2} \sum_{i=1}^n(y_i - x_i\beta)^2\),令似然函式最大化,即是求\(min \hspace{1mm}G(\beta, \sigma^2)\)

  對\(G(\beta, \sigma^2)\)求關於\(\beta\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma^2)}{\partial \beta}
&= 0 + \frac{1}{2 \sigma^2}2 \displaystyle \sum_{i=1}^n (y_i - x_i\beta)x_i\\
& = \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n 2(x_iy_i - x_i^2\beta) = 0
\end{split}
\\
=> \displaystyle \sum_{i=1}^n (x_iy_i - x_i^2\beta) = 0 => \displaystyle \sum_{i=1}^n x_iy_i = \displaystyle \sum_{i=1}^n x_i^2\beta\\
=> X^TY = X^TX\beta => \hat \beta = (X^TX)^{-1}X^TY
\end{equation}

  對對\(G(\beta, \sigma^2)\)求關於\(\sigma\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma^2)}{\partial \sigma}
&= n\frac{1}{\sqrt{2\pi}\sigma}\sqrt{2\pi} - \frac{2}{2\sigma^3}\sum_{i=1}^n(y_i - x_i\beta)^2 \\
& = \frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^n(y_i - x_i\beta)^2 = 0
\end{split}
\\
=> \frac{1}{\sigma^3}\sum_{i=1}^n(y_i - x_i\beta)^2 = \frac{n}{\sigma}
=> \hat \sigma^2 = \frac{\displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2}{n}
\end{equation}

  從這裡便可以看出,通過似然函式,一次就搞定了引數\(\beta\)和\(\sigma\)的估計,而基於損失函式的估計只是估計出了\(\beta\),而\(\sigma\)是另外造一套理論估計的

  • tips:這裡的\(x_i\beta\)中的\(\beta\)並不是估計量,這整個代表的是真實的擬合值,所以自由度有所不同(和\(\hat \sigma^2 = \frac{SSE}{n-p}\)略顯不同)

3.2 基於假設2

  如果滿足假設2,\(cov(\varepsilon) = cov(\varepsilon) = diag(\sigma_1^2, \sigma_2^2, \cdots, \sigma_n^2)\), 並加上一個正態性的假設,即有\(\varepsilon_i \sim N(0, \sigma^2_{ii})\),那麼,\(y_i = x_i\beta + \varepsilon_i \sim N(x_i\beta, \sigma^2_{ii})\),那麼有似然函式:

\begin{equation}
\begin{split}
L(\beta, \sigma^2, Y, X) & = \prod_{i=1}^n f(y_i)\\
& = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma_{ii}} e^{- \frac{(y_i - x_i\beta)^2}{2\sigma^2_{ii}}}\\
& = (\frac{1}{\sqrt{2\pi}})^n \prod_{i=1}^n(\frac{1}{\sigma_{ii}}) e^{- \frac{1}{2} \displaystyle \sum_{i=1}^n(\frac {y_i - x_i\beta}{\sigma_{ii}})^2}
\end{split}
\end{equation}

  我們可以發現基於假設2下,似然函式的核心部分發生了變化,不再是\(\sum_{i=1}^n(y_i - x_i\beta)^2\)。因此,根據之前的經驗,基於假設2,所採用的損失函式也應該發生變化。此時採用的損失函式應該是標準化的二次損失\(\displaystyle \sum_{i=1}^n(\frac {y_i - x_i\beta}{\sigma_{ii}})^2\),我們也把這稱為加權最小二乘估計。
  將似然函式對數化:
\begin{equation}
\begin{split}
lnL(\beta, \sigma^2, Y, X) = -nln(\sqrt{2\pi})- \sum_{i=1}^nln\sigma_{ii} - \frac{1}{2} \displaystyle \sum_{i=1}^n(\frac {y_i - x_i\beta}{\sigma_{ii}})^2
\end{split}
\end{equation}

  記\(G(\beta, \sigma_{ii}^2) = nln(\sqrt{2\pi}) + \sum_{i=1}^nln\sigma_{ii} + \frac{1}{2} \displaystyle \sum_{i=1}^n(\frac {y_i - x_i\beta}{\sigma_{ii}})^2\),令似然函式最大化,即是求\(min \hspace{1mm}G(\beta, \sigma_{ii}^2)\)
  對\(G(\beta, \sigma_{ii}^2)\)求關於\(\beta\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma_{ii}^2)}{\partial \sigma_{ii}}
&= 0 + 0 - \frac{1}{2}2 \displaystyle \sum_{i=1}^n (\frac {y_i - x_i\beta}{\sigma_{ii}})\frac{x_i}{\sigma_{ii}}\\
& = - \displaystyle \sum_{i=1}^n (\frac {x_iy_i - x_i^2\beta}{\sigma_{ii}^2}) = 0
\end{split}
\\
=> \displaystyle \sum_{i=1}^n (\frac {x_iy_i}{\sigma_{ii}^2}) = \displaystyle \sum_{i=1}^n (\frac {x_i^2\beta}{\sigma_{ii}^2}) \\
=> X_c^TY_c = X_c^TX_c\beta => \hat \beta = (X_c^TX_c)^{-1}X_c^TY_c
\end{equation}

  記\(X_c = (\frac{x_1}{\sigma_{11}}, \frac{x_2}{\sigma_{22}}, \cdots, \frac{x_n}{\sigma_{nn}})^T, Y_c = (\frac{y_1}{\sigma_{11}}, \frac{y_2}{\sigma_{22}}, \cdots, \frac{y_n}{\sigma_{nn}})^T\)
  對\(G(\beta, \sigma_{ii}^2)\)求關於\(\sigma_{ii}\)的偏導有,以\(\sigma_{11}\)為例

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma_{ii}^2)}{\partial \sigma_{11}}
&= 0 + \frac{1}{\sigma_{11}} - \frac{1}{2}2\frac{(y_1 - x_1\beta)^2}{\sigma_{11}^3} \\
& = \frac{1}{\sigma_{11}} - \frac{(y_1 - x_1\beta)^2}{\sigma_{11}^3} = 0
\end{split}
\\
=> \frac{1}{\sigma_{11}} = \frac{(y_1 - x_1\beta)^2}{\sigma_{11}^3}
=> \hat \sigma_{11}^2 = (y_1 - x_1\beta)^2
\end{equation}

  類似地,也就有\(\hat \sigma_{ii}^2 = (y_i - x_i\beta)^2\)

3.3. 基於假設3

  如果滿足假設3,\(cov(\varepsilon) = \Sigma\), 並加上一個正態性的假設,即有\(\varepsilon\)滿足多維正態分佈,\(\varepsilon \sim N_n(0, \sigma^2_{ii})\),那麼,\(Y = X\beta + \varepsilon \sim N_n(X\beta, \Sigma)\),那麼有似然函式

\begin{equation}
\begin{split}
L(\beta, \Sigma Y, X) & =P(Y_1 = y_1, Y_2 = y_2, \cdots, Y_n = y_n) = P(Y=y)\
& = \frac{1}{(\sqrt{2\pi})^n|\Sigma|^{\frac{1}{2}}}e ^{- \frac{1}{2}(Y - X\beta)^T \sum^{-1} (Y - X\beta)}
\end{split}
\end{equation}

  其中,\(|\Sigma|\)是\(\Sigma\)的行列式
  我們可以發現基於假設3下,似然函式的核同樣也發生了變化。那麼,基於這種假設,此時採用的損失函式應該是\((y - x\beta)^T \Sigma^{-1} (y - x\beta)\)。將似然函式對數化:
\[ lnL(\beta, \Sigma, Y, X) = -nln(\sqrt{2\pi})- \frac{1}{2}ln|\Sigma| - \frac{1}{2} (Y - X\beta)^T (\Sigma)^{-1} (Y - X\beta) \]
  記\(G(\beta, \Sigma) = nln(\sqrt{2\pi}) + \frac{1}{2}ln|\Sigma| + \frac{1}{2} (Y - X\beta)^T \Sigma^{-1} (Y - X\beta)\),令似然函式最大化,即是求\(min \hspace{1mm}G(\beta, \Sigma)\)
  對\(G(\beta, \Sigma)\)求關於\(\beta\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \Sigma)}{\partial \beta}
&= 0 + 0 - \frac{1}{2}2 X^T \Sigma^{-1} (Y - X\beta)\\
& = X^T \Sigma^{-1}(X\beta - Y) = 0
\end{split}
\\
=> X^T \Sigma^{-1}X\beta = X^T \Sigma^{-1}Y \\
=> \hat \beta = (X^T \Sigma^{-1} X)^{-1}X^T \Sigma^{-1} Y
\end{equation}

  對\(G(\beta, \Sigma)\)求關於\(\Sigma\)的偏導有

\begin{equation}
\begin{split}
\mathrm{d}G & = \frac{1}{2}|\Sigma|^{-1}d|\Sigma| + \frac{1}{2}(Y - X\beta)^T\Sigma^{-1}d\Sigma\Sigma^{-1}(Y-X\beta)\\
& = \frac{1}{2}tr(\Sigma^{-1}d\Sigma) + tr(\frac{1}{2}(Y - X\beta)^T\Sigma^{-1}d\Sigma\Sigma^{-1}(Y-X\beta))\\
& = \frac{1}{2}tr(\Sigma^{-1}d\Sigma) + tr(\frac{1}{2}\Sigma^{-1}(Y-X\beta)(Y - X\beta)^T\Sigma^{-1}d\Sigma)\\
& = tr(\frac{1}{2}((\Sigma^{-1} - \Sigma^{-1}(Y-X\beta)(Y - X\beta)^T\Sigma^{-1}))d\Sigma)
\end{split}
\\
=> \frac{\partial G}{\partial \Sigma} = \frac{1}{2}(\Sigma^{-1} - \Sigma^{-1}(Y-X\beta)(Y - X\beta)^T\Sigma^{-1})^T = 0\\
=> \Sigma^{-1}(Y-X\beta)^T(Y - X\beta)\Sigma^{-1} = \Sigma^{-1} \\
=> \hat \Sigma = (Y-X\beta)^T(Y - X\beta)
\end{equation}

4. 估計的優良性

  在基於損失函式的估計中,我們討論了估計的優良性,那麼當換了假設和損失函式後,我們的估計是否還是具有優良的性質呢
  對於假設3中,有
\begin{equation}
\begin{split}
L_3(\beta) & = (Y - X\beta)^T \Sigma^{-1} (Y - X\beta) \\
& = (Y - X\beta)^T \Sigma^{-\frac{1}{2}}\Sigma^{-\frac{1}{2}} (Y - X\beta)\\
& = (\Sigma^{-\frac{1}{2}}Y - \Sigma^{-\frac{1}{2}}X\beta)^T(\Sigma^{-\frac{1}{2}}Y - \Sigma^{-\frac{1}{2}}X\beta)\\
& = (Y^* - X^* \beta)^T(Y^* - X^* \beta)
\end{split}
\end{equation}

  其中,記\(\Sigma^{-\frac{1}{2}}Y - \Sigma^{-\frac{1}{2}}X\beta\)為\(Y^* - X^* \beta\),由於\(L_1(\beta) = (Y-X\beta)^T(Y - X\beta)\)具有優良的性質,那麼\(L_3(\beta) = (Y^* - X^* \beta)^T(Y^* - X^* \beta)\)的估計也應該具有優良的性質。

5. 假設的場景

  為什麼總假設線性模型符合假設1呢?實際上當我們基於假設2時,要估計的引數有n+p個(n個不同的\(\sigma_{ii}\),和p個\(\beta_i\)),而我們只有n個樣本,這樣就出現自由度不足的情況;而當我們基於假設3時,要估計的引數就更多了(有\(\frac{n^2 + n}{2}+p\)個)。這樣基本很難做估計,即使是做出出來了,估計也不一定唯一。

  面對這種情況,通常我們都要加大樣本量,像可以一個個體測m次,得到mn個數據,當然這時模型也變成了混合模型。因此,對於假設2和假設3,更加適合一些縱向資料(經濟上的面板資料、心理學上的重複測量資料、社會學上的多水平數