1. 程式人生 > >概率論與統計:條件期望與最小二乘法

概率論與統計:條件期望與最小二乘法

文章嚮導

條件期望
最小二乘法
探索平方誤差的期望值內涵

一、條件期望
  條件期望在概率論與統計中也被稱為條件數學期望,它的用途主要是用於實際的預測性問題。如對於兩個互有影響的隨機變數,如果我們知道其中一個隨機變數X=a這一觀測值,要據此去估計或預測隨機變數Y的取值。
  首先,想到的自然是選擇條件概率P(Y=b|X=a)值最大時的b作為答案,如果需要儘可能地提高估計的精度,那麼此方法無疑是很合理的。
  另一種做法做法則是求在X=a時Y的條件分佈,並計算出相應的期望值,即:
E(YX=a)  bbP(Y=bX=a)11

E\left( Y|X=a \right) \equiv \,\,\sum_b{b}P\left( Y=b|X=a \right)   (1-1)
  上式也就是條件期望的定義式。但需要注意到,對於取值不同的X,其條件期望E(Y|X=a)的值也不同。所以,如果能知道X各種取值出現的概率,那麼條件期望的最終計算結果則與一般的期望值E(Y)一致,即:
E(Y)=aE(YX=a)P(X=a)12 E\left( Y \right) =\sum_a{E\left( Y|X=a \right) P\left( X=a \right)}  (1-2)

  現在來詳細證明式(1-2)是如何得出的,先將式(1-1)代入進行推導。

這裡寫圖片描述

二、最小二乘法
  最小二乘法又稱最小平方法,是數學中一種常用的優化方法,即通過最小誤差的平方和尋找資料的最佳函式匹配。
  
1.例項推導
  接下來這部分,則是與條件期望相關的一個應用例項。我們先思考如下問題,假設有條件分佈P(Y=bX=a)P(Y=b|X=a),試設計一個程式,如何使得在輸入X之後輸出Y的估計值Y^\hat{Y}。並使平方誤差(YY^)2\left( Y-\hat{Y} \right) ^2的期望值E

[(YY^)2]E\left[ \left( Y-\hat{Y} \right) ^2 \right] 儘可能小。
  乍一看問題貌似很複雜,實際上要求的就是輸入X後輸出Y的估計值函式中,使E[(YY^)2]E\left[ \left( Y-\hat{Y} \right) ^2 \right] 的值最小時所對應的那個Y^=g(X)=E(YX=x)\hat{Y}=g(X)=E(Y|X=x)
  再具體一點,其實問題的答案就是之前所談及的條件期望g(a)=E(Y|X=a)。這點也符合人們的直觀理解,估計值Y^\hat{Y}與Y十分接近時,平方誤差自然小。
  為了簡化問題的分析,可將X的取值範圍給固定為{1,2,3},此時平方誤差的期望值如下所示。
這裡寫圖片描述
  上圖中最後一行等式可分為3個部分,取決於g(1)的量+即取決於g(2)的量+即取決於g(3)的量。那麼,現在的問題就轉化為求各部分的解,然後則能得出最佳的g。即定義g(1),使b(bg(1))2P(X=1,Y=b)\sum_b{\left( b-g\left( 1 \right) \right) ^2P\left( X=\text{1,}Y=b \right)}有最小值,同理g(2)和g(3)類似。
  接著,根據上述的思路來找出這樣的g(1),為表示方便用g1g_1替代g(1)。
這裡寫圖片描述
  求該式的最小值等價於求h1(g1)=b(bg1)2P(Y=bX=1)h_1(g_1)=\sum_b{\left( b-g_1 \right) ^2P\left( Y=b|X=1 \right)}的最小值。好,馬上就要成功了,讓我們來計算它的微分。
這裡寫圖片描述
  由極值的判定關係可知,當dh1/dg1=0dh_1/dg_1=0時,即g1=E(YX=1)g_1=E(Y|X=1)時,h1(g1)h_1(g_1)能取到最小值,h2(g2)h_2(g_2)h3(g3)h_3(g_3)同理可得。最後,從而推得g(a)=E(YX=a)g(a)=E(Y|X=a)的結論。

2.如何理解所求得的g(a)?
  從g(a)=E(YX=a)g(a)=E(Y|X=a)形式上來看,它就是一個普通的函式。只要提供一個具體的數值a,它就會返回一個確定的值g(a)。那麼,如果給g提供一個隨機變數X,就能得到一個與X對應的隨機變數Y^=g(X)=E(YX=x)\hat{Y}=g(X)=E(Y|X=x)。好吧,表示式看起來依然是那麼的抽象。
這裡寫圖片描述
  不妨看看圖2-1,X=1,2,3分別對應著前面所提及的三個部分,可以把這三個部分想象為各自獨立的平行世界,每個平行世界的Y值(柱狀體的高)不盡相同(Dir2方向觀察),且同一平行世界下的Y值也不等(Dir1方向觀察)。可能有些讀者會迷惑,為啥同一平行世界下的Y值也不相同,那麼請思考下條件分佈P(Y|X=1)。
這裡寫圖片描述
  接著看圖2-2,此時柱狀體的高為E(Y|X)的值,而且有趣的是同一平行世界下的高現在是相等的。這點很好理解,因為求的是期望,那麼最終結果肯定是將同一X區域下的不同高度給統一起來(也就是平均效果)。若是將三個平行世界的結果再繼續綜合起來,則最終得到E(Y)。

三、探索平方誤差的期望值內涵

1. 從偏差的平方到方差
  談及平方誤差,讀者的第一反應或許會是方差。那麼,讓我們先從方差開始談起。設隨機變數X的數學期望E(X)=μ現在我們需要計算它的實際取值x與μ\mu的差距。xμ|x-\mu |可能是最為直觀的方式,但落實到具體的計算時,絕對值的存在往往會帶來許多不便(如分類討論、曲線折角處不可微等)。於是,人們通常用偏差的平方(xμ)2\left( x-\mu \right) ^2來描述問題。
  這樣的描述也非常符合離散程度的定義,因為僅當X=μX=\mu時,誤差為0,其餘情況誤差總是存在且大於0。目前離方差的定義:
  V[X]=E[(Xμ)2]V\left[ X \right] =E\left[ \left( X-\mu \right) ^2 \right]
  很接近了,但還差一個取期望。Ok,思考下為何還要取一個期望才能得到方差?首先,(Xμ)2\left( X-\mu \right) ^2得到的是一個隨機值,而我們希望得到的是一種數值固定的指標,故取其期望來消除其中的隨機性。

2.平方誤差的期望值
  正式往下說之前,讀者應該先了解這個公式V[X]=E(X2)E(X)2V\left[ X \right] =E\left( X^2 \right) -E\left( X \right) ^2
  試證:對於常量a,當E(X)=μV(X)=σ2E\left( X \right) =\mu \text{,}V\left( X \right) =\sigma ^2時,有等式E[(Xa)2]=(μa)2+σ2E\left[ \left( X-a \right) ^2 \right] =\left( \mu -a \right) ^2+\sigma ^2成立。
這裡寫圖片描述
  證明完畢,現在來說道說道如何理解這個等式。假設某工廠要生產尺寸恰好為a cm的零件,而最終實際產品的尺寸為X cm。那麼,現在(Xa)2\left( X-a \right) ^2就為平方誤差。與上述證明的等式相比較,可發現該誤差被分解為如下兩種誤差:(期望值的平方誤差)+方差 =(由偏移引起的誤差)+(由離散引起的誤差)。
  更為專業的說法則是,系統誤差(又稱偏性誤差,數值整體偏移)與隨機誤差(又稱機會誤差,數值離散)。
  那麼,由於生產工藝的不同,最終得到的產品在兩種誤差上的表現也會不同。如系統誤差較小,隨機誤差較大。雖然看似誤差較小,但其實數值X較為離散。

參閱資料
程式設計師的數學<概率統計>
概率論與數理統計<浙大版>