再談線性迴歸函式分析,從概率論與數理統計角度看線性迴歸引數估計
1. 隨機變數的數字特徵
0x1:為什麼我們需要統計隨機變數的數字特徵
隨機變數的分佈函式(或概率函式,或密度函式)已經非常全面了,精確地描述了這個隨機變數取值的統計規律性,那為什麼我們還需要研究隨機變數的數字特徵呢?這個小節我們來討論一下這個話題。
1. 實際問題背後概率分佈函式的複雜性
在很多實際問題中(特別是一些具體的非物理的問題域),從實際問題場景中取樣得到的樣本集,一般時候都不會100%符合一個經典概率分佈(例如泊松分佈、高斯分佈等)。
例如下圖中,黑點表示我們目前已知的樣本點分佈,藍色曲線表示某個非線性函式公式,剛好能夠完美擬合這個樣本集:
雖然上圖表面看好像已經擬合成功了,但是理論上來說,我們是無法寫出準確的概率分佈函式的,主要原因有以下幾個方面:
取樣不充分問題:一方面是由於取樣不充分,根據隨機過程抽樣或者蒙特卡洛抽樣得到的樣本點很可能只是真實概率概率分佈樣本空間的一個有限不均衡子集。取樣不充分是非常常見的,最極端的例子就是天文學和宇宙學,例如2019年很著名的黑洞照片,其實是科學家們基於非常少的光子,通過數學建模的方式而“還原模擬”出來的。關於大數定理的其他討論,可以參閱另一篇文章。
- 模型搜尋空間大:另一方面是由於其樣本分佈的非線性,而非線性分佈的形式理論上是無窮的,這導致模型空間非常龐大。一般情況下,我們會遵循奧卡姆剃刀原理選擇最簡單同時最有效的模型來擬合,但是要明白的,奧卡姆梯度也不一定是上帝真理,也存在一些特殊的場景中,奧卡姆剃刀原理並不成立。這時我們有兩種選擇:
- 1)一是像上圖那樣用一個非常複雜的高階向量方程來描述樣本集,這項工作可以通過深度神經網路來得到;
- 2)二是反其道行之,使用一個相對簡單的概率分佈模型來進行擬合,但是這會帶來一個新的問題,即“近似假設檢驗置信區間有限”問題。
- 近似假設檢驗置信區間有限:針對一個特定的樣本集,即使我們找到了一個“近似擬合”的概率分佈函式(例如泊松分佈)對樣本點資料進行擬合,但在大多數實際情況下,樣本點並不是嚴絲合縫地完美擬合的,總會有一些樣本點“偏離”了分佈函式的值域區間。我們一般用相關係數來評估我們用來擬合的概率分佈和目標樣本之間的擬合程度。
2. 對巨集觀數字特性的關注更甚於微觀準確概率分佈的關注
除了精確描述抽象事物的概率分佈困難之外,在一些時候,我們有時候可能也並不需要去求出隨機變數的準確概率分佈。相反,我們關心只是隨機變數的取值在某些方面的統計數字特徵,而不是它的全貌。典型的例子如:
- 天文學中的赫羅圖,用光度和溫度來描述所有的恆星。
- 股民在炒股票時,更在意的是大盤的平均走勢及波動情況,具體的大盤指數服從何種分佈並不關心。
- 顧客在購買商品時,更關注的是產品的平均壽命,並不需要了解產品壽命具體服從的分佈。
- 評估不同的連續型隨機變數之間的關係時,需要藉助數字特徵進行概括性的定量評估。
這類特徵往往通過若干個實數來反映,在概率論中稱它們為隨機變數(或該隨機變數所服從的相應分佈)的數字特徵。
0x2:隨機變數數字特徵的分類
隨機變數的數字特徵有很多,這裡列舉一些理論分析和工程應用中常用的數字特徵:
- 數學期望
- 方差、標準差
- 協方差、相關係數
- k階矩
- 期望向量、協方差矩陣
- 變異係數、分位數、中位數、眾數
我們在這篇文章中選擇一些在資料分析和網路安全數學建模常用的數字特徵進行討論,這也是筆者比較關注的領域,關於其他部分的詳細討論,建議讀者朋友閱讀原書。
Relevant Link:
《概率論與數理統計》同濟大學數學系 第四章
2. 隨機變數的期望和方差
0x1:數學期望
1. 數學期望的數學定義
1)離散型隨機變數數學期望定義
設離散型隨機變數 X 的概率函式為:
當級數收斂時,稱的值為隨機變數 X 的數學期望(簡稱為期望或均值),記作E(X),即:
由於隨機變數的分佈刻畫了隨機變數取值的統計規律性,因此,當 X 服從某個分佈時,我們也稱E(X)是這個分佈的期望。
如果隨機變數滿足等該模型,則期望公式就退化成了我們熟悉的“求平均數”公式。
2)連續型隨機變數數學期望定義
設連續型隨機變數 X 的密度函式為f(x),當積分收斂時,稱的值為隨機變數 X 的數學期望(簡稱期望或均值),記作:
2. 數學期望的數學性質
數學期望的性質如下:
- E(c) = c
- E(kX +c) = kE(X) + c;
- E(kX + lY) = k * E(X) + l * E(Y)
- 當X與Y相互獨立時,E (XY) = E(X)E(Y)
3. 常用概率分佈的數學期望
1)二項分佈的數學期望
當X~B(n,p)時,X的概率函式為
因此,根據期望的數學計算公式得:
2)泊松分佈的數學期望
當X~P(λ)時,X的概率函式為
因此有:
3)均勻分佈的數學期望
當X~U(a,b)時,X的期望為:
4)指數分佈的數學期望
當X~E(λ)時,X的期望為:
5)正態分佈的數學期望
當X~N(μ,σ)時,X的期望為:
4. 數學期望的意義
總體地概括來說,期望E(X)的直觀含義是:期望反映了隨機變數 X 的平均取值,具體對於不同的概率分佈來說,平均取值的具體含義和代指會有所變化和不同。
1)二項分佈期望的意義
二項分佈的期望值E(X)=np,其意義表示隨機變數X的平均值,或平均水平。
在具體問題中,例如金融組合分組,如果對投資結果進行數學建模,則期望代表投資結果的平均值。
2)泊松分佈期望的意義
泊松分佈的期望值是λ,其意義表示某個時間段內,隨機事件發生的平均次數。
3)均勻分佈期望的意義
均勻分佈的期望值是樣本值域區間的中位數,中心點。
4)指數分佈期望的意義
指數分佈的期望是1/λ,其意義表示某個時間段,隨機事件發生的平均時間間隔。它和泊松分佈正好互為倒數。
5)隨機變數的物理意義
數學期望刻畫隨機變數取值的平均數,有直觀含義,同時它也有物理含義。
若在數軸上放置一單位質量的細棒,在離散點 xi 處分佈著質點其質量為 mi,則表示該細棒的重心座標。
若在數軸上放置一單位質量的細棒,它又質量密度函式f(x),則表示該細棒的重心座標。如下圖所示:
0x2:方差和標準差
1. 方差和標準差的數學定義
設X是一個隨機變數,稱
為X的方差,稱為X的標準差(或標準偏差)
在工程技術中廣泛地使用標準差,因為它與隨機變數本身有相同的量綱(具有實際物理意義)。但是在理論推導中,使用方差較方便。
值得注意的是,方差本質上是隨機變數函式的期望,即隨機變數和均值離差的期望,所以有:
2. 方差的數學性質
- D(c)=0,反之,如果某個隨機變數X的方差為0,那麼P(X=c)=1,且其中c=E(X),即隨機變數退化為一個固定的確定實值
- D(X ± Y) = D(X) + D(Y) ± 2E{[X - E(X)] [Y - E(Y)]}
- 當X與Y相互獨立時,D(X ± Y) = D(X) + D(Y)
3. 常用概率分佈的方差
1)二項分佈的方差
當n=1時,畫出其函式圖:
可以看到,當正反事件概率相同,即等概的時候,方差達到最大值。這也是概率分佈的最大熵原理。
隨著試驗次數n的增加,整體方差也線性增大。
可見對於伯努利實驗結果來說,實驗次數增加,期望和方差都是不收斂的,會無限增大。
2)泊松分佈的方差
當X ~ P(λ)時,E(X) = λ,,因此, 泊松分佈的方差為
泊松分佈的期望和方差是相等的,都等於λ。
3)均勻分佈的方差
當X~R(a,b)時,E(X) = 1/2 * (a + b ),所以有
因此,均勻分佈的方差為
4)指數分佈的方差
當X~E(λ)時,,因此,指數分佈的方差為
值得注意的是,方差和標準差並不是唯一的用來度量的資料分佈波動程度的數字特徵,數學上極差也可以發揮類似的作用,除此之外,組合型數字特徵也是資料分析中常用的統計量。
Relevant Link:
《概率論與數理統計》同濟大學數學系 第四章 第一節
3. 隨機變數的中心化和標準化
0x1:隨機變數中心化
1. 隨機變數中心化數學公式
已知X是任意的隨機變數,當E(X)和D(X)存在時,對隨機變數X作變換:
這個變換稱之為隨機變數中心化。
由期望與方差的性質推得:
即中心化後的隨機變數,期望為0,方差不變。
2. 中心化的性質解釋
- 期望歸零化:中心化隨機變數將其中心點(期望點)平移至原點,使其分佈不偏左也不偏右,其期望為零
- 分佈波動不變性:平移不影響波動的分佈程度,方差不變
0x2:隨機變數標準化
1. 隨機變數標準化數學公式
當D(X)>0時,對隨機變數X作變換:
這個變換稱之為隨機變數標準化。
由期望與方差的性質推得:
2. 標準化的性質解釋
- 期望歸零化:標準化隨機變數將其中心點(期望點)平移至原點,使其分佈不偏左也不偏右,其期望為零
- 分佈波動歸一化:標準化將隨機變數的取值按照標準差等比壓縮,使其分佈不疏也不密,壓縮改變了分佈的波動程度,方差變為1
需要注意的是,本章討論的隨機變數中心化和標準化,屬於特徵工程裡特徵歸一化的處理方法之一,除此之外還有其他的特徵歸一化處理方法,關於這部分的討論,可以參閱另一篇文章。
Relevant Link:
《概率論與數理統計》同濟大學數學系 第四章 第二節
4. 隨機變數的協方差和相關係數
單個隨機變數的數學特性固然非常有用,但是在理論分析和工程實踐中,遇到最多的還是兩個及多個隨機變數之間的互相關係。這節我們來討論兩個隨機變數之間的相互關係,多個隨機變數之間的關係是類似的,可以以此類推。
0x1:協方差
1. 協方差的數學定義
設(X,Y)是一個隨機變數,稱
為隨機變數X和Y的協方差。
按照方差的定義,cov(X,X)= D(X)。協方差本質上是二維隨機變數函式g(X,Y) = [X - E(X)][Y - E(Y)]的期望,即兩個隨機變數方差之間的關係。
計算時常用下列公式:
2. 協方差的代表含義
協方差反映了X和Y之間的協同變化關係,具體為:
設Z = [X - E(E)] [Y - E(Y)],cov(X,Y) = E(Z),則
- 若cov(X,Y) > 0,事件 {Z > 0} 更有可能發生,即X,Y同時發生和同時不發生的可能性更大。說明X和Y均有同時大於或同時小於各自平均值的趨勢;
- 若cov(X,Y) < 0,事件 {Z < 0} 更有可能發生,即X,Y相反發生的可能性更大。說明X和Y其中有一個有大於其平均值的趨勢另一個有小於其平均值的趨勢;
特別的,當Y= X時,cov(X,Y) = cov(X,X) = D(X),協方差退化為方差。
利用協方差,可以把兩個隨機變數方差公式表達成:
3. 協方差的性質
- cov(X,Y) = cov(Y,X)
- cov(X,c) = 0
- cov(kX,lY) = k * l * cov(X,Y)
0x2:相關係數
協方差考察了隨機變數之間協同變化的關係,但是在實際使用中存在一個問題,即量綱不一致問題。例如,如果要討論新生嬰兒的身高X和體重Y的協方差,若採用兩個不同的單位,“米和千克”或者“釐米和克”,後者協方差可能會是前者的數千倍!由於量綱的不同導致X與Y的協方差前後不同。
實際上,回顧文章前面中心化和標準化的知識可知,協方差實際上是把X,Y分別中心化後的,它的值受X與Y量綱大小的影響。為了解決量綱不一致的問題,就有了相關係數。
1. 相關係數的數學定義
設(X,Y)是一個二維隨機變數,當D(X) > 0,D(Y) > 0時,稱為X與Y的相關係數,記作ρ(X,Y),即
這就是隨機變數X和Y的相關係數,又稱為標準化協方差。
利用相關係數,可以把方差的公式表達成
2. 由相關係數匯出的等價命題/定理
設(X,Y)是一個二維隨機變數,當ρXY = 0時,下列命題等價:
- X和Y(線性)無關或(線性)不相關
- cov(X,Y) = 0
- E(XY) = E(X) E(Y)
- 隨機變數X和隨機變數Y相互獨立
- D(X + Y) = D(X) + D(Y)
- D(X - Y) = D(X) + D(Y)
3. 相關係數的性質
設(X,Y)是一個二維隨機變數,當D(X) > 0,D(Y) > 0時,相關係數有如下性質:
- ρ(X,Y) = ρ(Y,X)
- | ρ(X,Y) | ≤ 1
- | ρ(X,Y) | = 1 的充分必要條件是:存在不為零的常數k與常數c,使得P(Y = kX + c) = 1,其中
- 當ρ(X,Y) = ±1 時,X與Y之間以概率1成立完全線性相關。當 ρ(X,Y)=1時,稱X與Y完全正線性相關;當ρ(X,Y)=-1時,稱X與Y完全負線性相關
- 當0 < ρ(X,Y) < 1時,稱X與Y正線性相關;當-1 < ρ(X,Y) < 0時,稱X與Y負線性相關;
- X與Y之間線性聯絡的程度隨著 | ρ(X,Y) | 的減小而減弱。當ρ(X,Y)=0時,ρXY=0,稱X與Y不相關,則有cov(X,Y)=0,或E(XY)=E(X)E(Y)
0x3:隨機變數之間線性相關和相互獨立之間的包含關係
隨機變數相互獨立和線性無關都刻畫了隨機變數之間的關係,相互獨立時一定線性無關,但反之不一定成立,如下圖:
舉例說明,設隨機變數Z服從區間[0,2π]上的均勻分佈,令 X = sinZ,Y = cosZ
根據邊緣概率分佈公式得:
根據方差公式有:
,同理有
根據期望公式有:
根據協方差公式有:
所以隨機變數X和Y不相關。
但是因為,所以f(X,Y) != f(X) * f(Y),所以X與Y不相互獨立。
可見,相互獨立是一種比不相關更強的關係。可以這樣說:
- 相互獨立是從整體也即分佈的角度刻畫隨機變數之間的關係,它意味著兩個隨機變數無任何關係
- 而不相關僅僅是從數字特徵角度刻畫隨機變數之間的關係,它意味著兩個隨機變數之間無線性關係,但不意味著兩個隨機變數之間無其他關係(可能是非線性關係),因此,不相關不一定相互獨立
0x4:協方差矩陣
對於二維隨機變數(X,Y),稱向量
為(X,Y)的期望向量(或均值向量),稱矩陣
為(X,Y)的協方差矩陣,由於cov(X,X) = D(X),因此,n維隨機向量(X1,... ,Xn)的協方差矩陣為
Relevant Link:
《概率論與數理統計》同濟大學數學系 第四章 第四節
5. 從相關係數的角度來看線性迴歸引數估計結果
0x1:一個簡單的一元線性迴歸案例
有一個公司,每月的廣告費用和銷售額,如下表所示:
我們把廣告費和銷售額畫在二維座標內,就能夠得到一個散點圖,利用一元線性迴歸做出一條擬合直線,y = ax + b。
使用最小二乘法進行引數估計,就可以求出a和b了。
最終的迴歸擬合直線為:Y=1.98X+2.25。
0x2:從隨機變數概率分佈的角度來看樣本資料分佈和迴歸模型的引數分佈
從概率分佈的角度來看線性迴歸模型的引數估計過程。我們設樣本點對應的隨機變數為X,引數對應的隨機變數為Y。
從上圖可以得到:ρ(X,Y) != 1
所以X和Y不滿足完全線性相關的關係,也即:不存在不為零的常數k與常數c,使得P(Y = kX + c) = 1
從線性方程組求解的角度來看,直接基於原始輸入樣本點求解線性方程組就是無解的。
所以,線性方程組引入了”顯著性檢驗“這個度量方法,用來評估引數估計的結果和目標樣本點的擬合程度,常用的顯著性檢驗方法包括:
- R2:方程的確定性係數(coefficient of determination)
- F檢驗值
- T檢驗值
這裡我們以R2為例進行說明,在R2中,量化度量擬合程度的公式如下
R2顯著性由兩個不同的誤差損失,SSR和SSE比例相除得到。
SSE和SSR共同組成了SST(總殘差損失),我們分別介紹
SST(總偏差)= SSR(迴歸線可以解釋的偏差)+ SSE(迴歸線不能解釋的偏差)
迴歸平方和(SSR,Sum of Squares forRegression):因變數的迴歸值(直線上的Y值)與其均值(給定點的Y值平均)的差的平方和,它是由於自變數x的變化引起的y的變化,反映了y的總偏差中由於x與y之間的線性關係引起的y的變化部分,是可以由迴歸直線來解釋的殘差平方和(SSE,Sum of Squaresfor Error):因變數的各實際觀測值(給定點的Y值)與迴歸值(迴歸直線上的Y值)的差的平方和,它是除了x對y的線性影響之外的其他因素對y變化的作用,是不能由迴歸直線來解釋的
R^2的取值在[0,1]之間,越接近1說明擬合程度越好。
現在回到隨機變數協方差的視角,重寫上述SSR和SSE公式,會發現:
- SSR:本質上就是E(Y - E(Y))
- SSE:本質上就是E(E - E(E))
- R2:本質上就是cov(X,Y)
所以總R2顯著性公式本質上度量了引數隨機變數X和樣本隨機變數Y之間的協同關係,即協方差。協方差越接近1,擬合程度就越高。
0x3:相關係數和迴歸係數的一般性關係
上個小節我們用了一個具體的例子來說明了線性迴歸中引數估計擬合程度和隨機變數中相關係數的等價關係。這個小節我們將這個結果泛化為一般性的結論。
1. 相關係數是標準化的迴歸係數
迴歸係數b是有單位的,但若對b作消去單位的標準化處理,即對b中x,y的離均差以各自的標準差 和 為單位:
故有時將相關係數稱為標準迴歸係數
2. 線性迴歸方程也可用相關係數等價表示
則
可改寫為:
0x4:相關分析與迴歸分析的關係
筆者這裡用隨機變數相關性分析的視角來討論迴歸分析,並不是說相關分析和迴歸分析是同一個東西。
相關分析與迴歸分析在實際應用中有密切關係。然而它們存在著不同:
- 在迴歸分析中,所關心的是一個隨機變數Y對另一個(或一組)隨機變數X的依賴關係的函式形式,確定因果關係,並用數學模型來表現其具體關係
- 相關分析中 ,所討論的變數的地位一樣,不區分自變數和因變數,分析側重於隨機變數之間的種種相關特徵
例如,以X、Y分別記小學生的數學與語文成績,感興趣的是二者的關係如何,而不在於由X去預測Y
Relevant Link:
https://www.cnblogs.com/LittleHann/p/7354706.html#_label1 https://zhuanlan.zhihu.com/p/49221154 https://blog.csdn.net/mengjizhiyou/article/details/82177830 https://blog.csdn.net/xiaojianpitt/article/details/5453023 http://soundrain.net/2017/05/25/20170525-%E4%BB%8E%E7%BB%9F%E8%AE%A1%E5%AD%A6%E8%A7%92%E5%BA%A6%E7%9C%8B%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E4%B8%AD%E7%9A%84%E5%9B%9E%E5%BD%92%E7%B3%BB%E6%95%B0/
6. 迴歸模型引數最優化和引數概率分佈估計的區別與聯絡
迴歸模型的引數最優化的目標是得到一個最優的判別式模型,而模型引數概率密度估計的目標是得到一個生成式概率模型。
簡單來說,他們之間的聯絡是:通過損失函式最優化技巧得到的模型引數,等價於求E(X - Yobj),即引數隨機變數和樣本點的差值函式的期望均值。
關於這方面的討論,可以參閱另一篇文章。
7. 從資訊理論Kullback-Leibler散度的角度來看線性迴歸引數估計結果
如果將回歸模型的引數空間看作是是一個概率分佈的話,損失函式求解的目標就是尋找和樣本隨機變數相關度最高的引數隨機變數分佈。除了相關性度量之外,還可以從資訊理論KL散度角度來度量引數估計結果和樣本分佈的擬合程度。
這個話題的一些討論可以參閱這篇文章。關於資訊理論和熵原理的更多討論,筆者會在之後的迭代中繼續完善這篇文章。
&n