1. 程式人生 > >概率論與數理統計中基於有限樣本推斷總體分佈的方法,基於總體未知引數區間估計的假設檢驗方法之討論,以及從數理統計視角重新審視線性迴歸函式本質

概率論與數理統計中基於有限樣本推斷總體分佈的方法,基於總體未知引數區間估計的假設檢驗方法之討論,以及從數理統計視角重新審視線性迴歸函式本質

1. 總體與樣本

0x1:數理統計中為什麼要引入總體和個體這個概念

概率論與數理統計中,一個很重要的研究物件就是總體的概率分佈,理論上說,我們希望獲得被研究物件的總體樣本,基於這份總體樣本進一步研究其概率分佈,但是遺憾地是,幾乎在100%的情況下,我們都不可能獲得真正的總體,我們只能獲取有限的樣本量(例如自然生物裡的統計問題),有時候甚至還是非常少的小樣本集(例如宇宙星體觀測結果),如何有效、準確、誤差可控地利用有限的樣本集,進行最大程度合理的統計推斷,既是一個理論研究課題,也是非常有現實意義的應用理論。

因此概率論與數理統計科學家們提出了總體和個體這個概念,主要觀點如下:

  • 在大數定律的理論支撐下,只要我們的個人樣本數足夠多,個人樣本的統計量會在趨近於1的概率下,趨近於總體樣本的統計量。這就是我們在沒有完整總體樣本的情況下,依然能夠利用概率論與數理統計這個強大的武器,對未知的事物開展統計研究的理論依據。
  • 同樣在大數定律的理論支撐下,即使樣本數不夠多,基於有限的樣本數得到的估計結果,和理論總體之間的誤差,也可以可以通過概率分佈統計量的形式,定量地給出的,這給統計推斷的不確定性決策提供了基礎。

0x2:總體與樣本

1. 總體的形式定義

在一個統計問題中,我們把研究物件的全體稱為總體,也即樣本空間全集,構成總體的每個成員稱為個體,也即樣本子集。

對於具體問題中,我們將研究物件的某個數量指標值(例如身高)的全體稱為總體,每一個總體都是由一組資料組成的,因此可以用一個概率分佈描述,所以說總體數量指標就是服從一個分佈的隨機變數。

我們用大寫字母X表示總體,那麼總體X就是具有未知分佈函式F(x)的一個隨機變數。

2. 樣本的形式定義

在數理統計中,總體分佈永遠是未知的。所以我們希望從客觀存在的總體中按一定的規則選取一些個體(即抽樣),通過對這些個體作觀察或測試來推斷關於總體分佈的某些統計量(例如總體X的均值、方差、中位數等),被抽取出的這部分個體就組成了總體的一個樣本。

這裡所謂的”一定規則“,是指保證總體中每一個個體有同等的機會被抽到的規則。

在總體中抽取樣本的過程稱之為”抽樣“,抽取規則則稱之為”抽樣方案“。在大部分時候,我們都採用簡單隨機抽樣,表示對總體的每一個抽樣,總體中的所有個體都有相同的被選概率,用這種抽樣方案得到的樣本稱為簡單隨機樣本。

由於在觀測前,樣本觀測值是不確定的,所以樣本是一組隨機變數(或隨機向量),為了體現隨機性,用大寫字母(X1,X2,....,Xn)表示,其中n為樣本的大小,稱之為樣本容量。

一旦給定的簡單隨機抽樣方案實施後,樣本就是一組資料,用小寫英文字母(x1,x2,...,xn)表示,也稱為樣本觀測值。

簡單隨機樣本具有下列兩個特性:

  • 1)相互獨立性:X1,X2,...,Xn相互獨立,樣本中每個個體的取值不受到其他個體取值的影響
  • 2)代表性:Xi 同總體分佈(Xi ~ f(xi;θ)),總體中的每一個個體都有同等機會被選入樣本

3. 樣本的聯合分佈概率函式公式

我們知道,簡單隨機樣本表示X1,X2,...,Xn是獨立同分布的隨機變數,且每一個 Xi 的分佈都與總體X的分佈相同,因此我們可以根據概率論中多維隨機變數分佈的性質得到樣本的聯合分佈如下:

1)離散型隨機變數

設總體X是一個離散型隨機變數,分佈律為P(X=x;θ),樣本(X1,X2,....,Xn)的聯合分佈律為:

2)連續型隨機變數

設總體X是一個連續型隨機變數,密度函式為f(x;θ),樣本(X1,X2,....,Xn)的聯合密度函式為:

樣本的聯合分佈累乘公式是一個非常基礎且重要的公式,是很多下游演算法的公式基礎,它表達了一個最質樸的概率論思想,即:任何複雜的事物都可以分解為多個複雜度更低的子事件,所有子事件同時發生等同於複雜事物發生,而所有獨立同分布的子事物同時發生在概率論中又等價於所有子事物的概率逐個累乘。即P(AB) = P(A)*P(B)。

樣本的聯合分佈概率函式公式,在模型引數估計、NLP語言模型建模等領域中都有廣泛應用。

3)樣本聯合分佈函式舉例說明

設總體X~B(1,p),(X1,X2,...,Xn)為取自該總體的一個樣本,求樣本(X1,X2,...,Xn)的聯合分佈律f(x1,x2,...,xn;p)

在概率分佈函式的討論中,我們的討論物件往往是在某個確定的概率函式前提下,某個點或某個區間的確定性概率問題。而在樣本聯合分佈概率函式的討論中,我們的討論物件是多個相同的概率分佈函式疊加在一起,綜合而成的一個新的概率分佈函式。它們二者之間有點像個體與群體的關係。

Relevant Link: 

《概率論與數理統計》同濟大學數學系 第6章 第一節 

 

2. 樣本隨機變數的統計量 

0x1:為什麼要研究樣本的統計量

數理統計中最重要的部分就是研究樣本的概率分佈,也即抽樣分佈。

抽樣分佈也是一種隨機變數,因此自然也有對應的概率密度函式以及概率分佈函式。但其實對抽樣分佈的概率分佈函式的研究並不是十分重要,或者說相比於抽樣分佈的統計量研究來說不是那麼重要。

我們研究樣本的核心目的在於估計總體分佈的形式和引數,而抽樣分佈的統計量,是連線抽樣分佈和總體分佈之間的橋樑,基於抽樣樣本的統計推斷是基於抽樣統計量作出的,所以研究抽樣分佈的統計量是統計推斷中一個十分重要的環節。

0x2:樣本統計量 - 連線樣本和總體未知引數推斷之間的橋樑

數理統計的基本任務之一是利用樣本所提供的資訊來對總體分佈中未知的量進行推斷,簡單來說,就是由樣本推斷總體。

但是,樣本常常表現為一組資料,很難直接用來解決我們所要研究的具體問題,人們常常把資料加工成若干個簡單明瞭的數字特徵,由資料加工後的數字特徵就是統計量。所以說統計量綜合了樣本的資訊,是統計推斷的基礎。統計量的選擇和運用在統計推斷中佔核心地位。

1. 樣本統計量基本定義

設(X1,X2,...,Xn)為取自總體的一個樣本,樣本(X1,X2,...,Xn)的函式為g(X1,X2,...,Xn),若g中不直接包含總體分佈中的任何未知引數,則稱g(X1,X2,...,Xn)為統計量。統計量本質上也是一種隨機變數。

在抽樣前,統計量是一個隨機變數,在抽樣後,得到樣本(X1,X2,...,Xn)的一次觀測值(x1,x2,...,xn),則所得的g(x1,x2,...,xn)即為統計量的一次觀測值。它是一個可以由資料算得的實數。

統計量本身不包含總體分佈中的未知引數,我們構造統計量的主要目的就是去估計總體分佈中的未知引數。

2. 一些常用的樣本統計量

1)樣本均值

設(X1,...,Xn)是一個樣本,稱:

為樣本均值。 

2)樣本方差

稱:

為樣本方差。

稱:

為樣本標準差。

3)k階原點矩

一般地,對任意一個正整數k,稱:

為樣本的k階原點矩。特別的,當k=1時,k階原點矩退化為樣本均值。

4)k階中心矩

稱:

為樣本的k階中心矩。

特別的,當k=2時,二階中心距M2為:

二階中心矩M2和樣本方差的關係為:

顯然,樣本方差比樣本的二階中心矩更大一些,有的教材上也稱樣本方差S為樣本無偏估計,稱二階中心矩為有偏估計。

5)詞序統計量

詞序統計量X(1),X(2),...,X(n)是X1,X2,...,Xn由小到大排序得到的,加圓括號的下標表示排序。

設(X1,X2,...,Xn)是取自總體X的一個樣本,總體X的密度函式為。

樣本中取值最小的一個記為,即,稱為最小次序統計量。

樣本中取值最大的一個記為,即,稱為最大次序統計量。

稱為第i次序統計量,i=1,2,...,n,滿足:

記和的密度函式分別為和,由概率密度函式的定律可得:

次序統計量本質上是基於原始的概率分佈進行了一個函式對映後,得到了一個新的概率分佈函式,那麼這個新的概率分佈函式的形式和原始概率分佈函式是什麼關係呢?我們以指數分佈為例,來具體討論下。

設(X1,X2,...,Xn)是取自總體X的一個樣本,總體X~E(λ),分別求次序統計量,的分佈。

總體X~E(λ),所以密度函式為:

分佈函式為:

根據最小次序統計量的概率密度函式分散式可得:

即:

根據最大次序統計量的概率密度函式分散式可得:

3. 常用樣本統計量的性質

由於統計量是樣本(X1,X2,...,Xn)的函式,因此統計量也是隨機變數,因此統計量也同樣具備隨機變數的一些性質。而考察隨機變數的性質,本質上就是用各種統計量來描述隨機變數,所以我們同樣可以用隨機變數的統計量來考察統計量本身,即統計量本身的統計量。

1)樣本均值的統計性質

這個公式要這麼理解,我們將樣本均值作為一個隨機變數,將每次抽樣看做一次觀測,則在多次觀測下,樣本均值本身呈現出的均值和方差的統計規律。

樣本均值的均值還是均值,樣本方差的均值,隨著樣本數n的增大而負向減小。

該性質表明:樣本集可以一定程度上代替總體,實現總體引數估計的目的。因為估計樣本的均值就等於估計出了總體的均值,而隨著樣本數的增加,代表估計誤差的均值方差也是逐漸降低,通俗地說就是樣本越多,引數估計的就越準確。

2)樣本方差和二階中心矩的統計性質

上式表明樣本方差的均值還是方差,樣本二階原點矩的均值,隨著樣本數n的增加而緩慢增大,這也所謂有偏估計的由來。

該性質表明:樣本集並不改變總體的方差分佈,對原始的總體來說,樣本既不增加新的資訊熵,也不減少資訊熵。

3)樣本均值和方差的依概率收斂性

由獨立同分布情形下的大數定律得到:

所以有:

在大數定理下,不管是有偏估計還是無偏估計,樣本均值和樣本方差最終都會收斂到總體均值和總體方差。

樣本均值和方差的概率收斂性,也是矩估計法和極大似然估計的理論依據,它從理論上證明了基於樣本進行數理統計的合法性和有效性。

4)二項分佈總體下的樣本統計量求解

這個小節我們用一個具體的例子來闡述,如何對統計量的各種概率性質進行定量的分析和計算。

設(X1,X2,...,Xn)是取自總體X的一個樣本,當X~B(1,p)時,分別求下列幾個統計量:

由二項分佈的性質我們知道:

所以有:

0x3:三大分佈 - 正態總體假定下,對樣本隨機變數進行特定統計量函式變換對映後,得到的3種特定概率分佈

標題取得有一些繞,筆者這裡盡力分解解釋一下。

前面說到,樣本是從符合一定概率分佈的總體(任意概率分佈形式)中通過某種取樣方案,取樣抽取得到的。所以我們將樣本看做是一種隨機變數,並計算樣本隨機變數的統計量,例如前面介紹了常用的統計量(例如均值、方差、次序統計量)。但統計量本質也是一種函式變換(例如均值統計量就是一種固定形式的函式),統計量本身又是一種新的隨機變數,所以統計量本身也是有概率分佈函式形式的。 

在所有總體假設中,正態分佈是應用最廣泛的一種概率分佈,根據中心極限定律,所有的概率分佈在大數n情況下,都會趨近於正態分佈,所以我們本章討論正態分佈總體下的抽樣分佈。

雖然正態總體假設下,抽樣隨機變數的統計量形式可以由很多種,但是在學術研究和工業實踐中,使用最多的還是3大分佈,本章我們討論數理統計中用的比較多的3種分佈,包括x2分佈、t分佈、F分佈,它們在正態總體的統計推斷中起著重要作用。

筆者提醒:顯然,數理統計中並不只有這3種概率分佈,理論上說,針對正態總體的抽樣,我們可以用任意的統計量g()函式來得到新的隨機變數,在一些特定的工業場景中,也確實需要我們創造新的統計量函式來應對特定的複雜場景。

1. X2分佈

1)概率分佈數學公式

設X1,X2,...,Xn為相互獨立的標準正態分佈隨機變數,都服從N(0,1),稱隨機變數:

所服從的分佈為自由度為n的 χ2 分佈,記作Y ~ χ2(n)。樣本數n越大,自由度越大。

χ2(n)分佈的密度函式為:

密度函式的影象如下,它隨著自由度n的不同而有所改變。

2)概率分佈性質

χ2分佈具有如下性質:

  • 當Y ~ χ2(n)時,E(Y)=n,D(Y)=2n
  • χ2分佈的可加性:設X與Y相互獨立,且X~χ2(m),Y~χ2(n),那麼,X+Y ~ χ2(m+n) 

3)x2分佈概率分佈計算舉例

設(X1,X2,X3,X4,X5,X6)為取自標準正態總體N(0,1)的一個樣本,分別求下列三個統計量的分佈:,並求a,b的值。

由樣本的定義可知,X1,X2,X3,X4,X5,X6相互獨立,且都服從N(0,1)分佈,所以根據χ2分佈的定義可知,即自由度為2個χ2分佈。

同理,,即由一個樣本組成的概率分佈為自由度為1的χ2分佈。

,即,又,即

所以由χ2分佈的定義可知:

整理可得,a=1/2,b=1/3。

2. t分佈

1)概率分佈數學公式

設隨機變數X與Y相互獨立,且X~N(0,1),Y~χ2(n)。稱隨機變數:

服從自由度為n的t分佈(學生氏分佈),記為T~t(n)。

T的值域是(-∞,∞),t(n)分佈的概率密度函式為:

t(n)分佈的密度函式影象如下,關於直線t=0對稱:

當n充分大時,其圖形類似於標準正態分佈N(0,1)的密度函式影象,即

t(n)分佈的p分位數記作ta(n),即當T~t(n)時,P(T ≤ ta(n)) = p。

在實際中,當n>45時,對於t分佈的分位數值,就用標準正態分佈的分位數近似,即

3. F分佈

1)概率分佈數學公式

設隨機變數X與Y相互獨立, 且X ~ χ2(m),Y ~ χ2(n),稱隨機變數:

所服從的分佈是自由度為(m,n)的F分佈,記作F ~ F(m,n)。其中m稱為第一自由度,n稱為第二自由度。

F(m,n)分佈的概率密度函式為: 

F(m,n)分佈的概率密度函式影象如下:

F(m,n)分佈的p分位數記作Fp(m,n),即當F ~ F (m,n)時,,對一些常用的p,可以通過查表得到,且同時具有如下性質:

2)F分佈概率分佈計算舉例

設隨機變數T~t(n),F=1/T2,求隨機變數F的分佈。

由於T~t(n),設,其中隨機變數X與Y相互獨立,且X~N(0,1),Y~χ2(n)。

則有:

又因為X2~X(1),且X2與Y相互獨立,根據F分佈的公式定義,可得:

F ~ F(n,1),即第一自由度為n,第二自由度為1的F分佈。 

0x4:正態總體假定下的抽樣分佈的統計量性質

統計量是樣本(X1,...,Xn)的函式,它是一個隨機變數。統計量的分佈稱為抽樣分佈。

設(X1,...,Xn )是取自正態總體N(μ,σ2)的一個樣本。下面來研究統計量的性質,我們會看到,有很多分佈性質是需要藉助3大分佈來表達的,這也是3大分佈在數理統計中重要性的體現,同時在後文討論假設檢驗的時候,3大分佈還會頻繁出現。

定理1

  • ,或等價地

關於第二點這裡簡單討論下,從表面上看,是n個正態隨機變數的平方和,但實際上它們不是相互獨立的,它們之間有一個線性約束關係:

這表明,當這n個正態隨機變數中有n-1個取值給定時,剩下一個的取值就跟著唯一確定了。所以其滿足自由度為n-1的X2分佈。

定理2

把結論左端改寫成:

上式右端分子服從N(0,1)

上式右端分母中的

且分子分母兩者相互獨立,因此,由t分佈的定義便知結論成立。

定理3

在很多實際問題中,常常需要比較兩個相互獨立的正態總體的樣本均值差或樣本方差比,所以針對兩個相互獨立的正態總體有以下定理。

設(X1,...,Xm )是取自正態總體N(μ1,σ12)的一個樣本,(Y1,...,Yn)是取自正態總體N(μ2,σ22)的一個樣本。 

Relevant Link: 

《概率論與數理統計》同濟大學數學系 第6章 第二節 

 

3. 引數估計 - 概率分佈模型已知時模型引數估計

0x1:引數估計基本定義

在之前的章節中,我們已經討論了總體和樣本的概念,而總體X的分佈永遠是未知的,通常根據實際情況假定服從某種型別的分佈。例如,假定總體X服從正態分佈,那麼刻畫正態分佈的均值μ和方差σ2究竟取什麼值,是引數估計範疇內的知識。

在引數估計的知識推導中,需要用到之前討論過的樣本統計量的概念,樣本統計量和大數定律是引數估計的連線橋樑和理論支撐。

設總體X~f(x;θ),其中 f 的形式已知,θ是未知引數。例如,總體X~B(1,p),其中p未知,這個p即為標記總體分佈的未知引數,簡稱總體引數。

總體引數雖然是未知的,但是它可能取值的範圍卻是已知的。稱總體引數的取值範圍為引數空間,記作

如何根據樣本來對未知引數進行估計,這就是數理統計中的引數估計問題。引數估計的形式有兩類:1)一類是點估計;2)一類是區間估計

0x2:引數點估計 - 精確的引數值估計

設總體X的分佈形式已知,但它的一個或多個引數未知,藉助於總體X的一個樣本來估計總體未知引數值的問題,稱為引數的點估計問題。

設(X1,X2,...,Xn)是取自總體X的一個樣本,點估計就是依據樣本估計未知引數為某個值,這在數軸上表現為一個點。

具體地說,假定要估計某個未知引數θ,求θ的點估計就是根據樣本(X1,X2,...,Xn)構造一個引數估計統計量,h(X1,...,Xn),在通過抽樣獲得樣本觀測值(x1,...,xn)之後,便用h(x1,...,xn)的值來估計未知引數的值。

稱h(x1,...,xn)為θ的估計量,估計量本質上也是一種隨機變數,記作,也簡記為。根據隨機變數的定義,估計量是引數空間中一個確定的值。

在一個具體問題中,要求未知引數的估計值必須先求出這個未知引數的估計量(即構造一個包含未知引數的概率分佈函式),這裡我們介紹兩種常用的估計方法:1)矩法;2)極大似然法 

1. 矩估計

1)矩估計形式定義

矩估計的思想就是替換思想:用樣本原點矩替換總體原點矩。

設總體X的k階原點矩:,樣本的k階原點矩為:,如果未知引數,則θ的矩估計量為。這種估計總體未知引數的方法稱為矩估計。

2)矩估計性質

設一個總體X的均值E(X)=μ,方差D(X)=σ2都未知,(X1,X2,...,Xn)為取自該總體的一個樣本,則是μ的矩估計量,Sn2是σ2的矩估計量,Sn是σ的估計量。

3)矩估計應用例項

設(X1,X2,...,Xn)是取自總體X的一個樣本,求X~B(1,p)和X~E(λ)時,總體未知引數的矩估計量。

X~B(1,p),首先,0-1分佈的期望E(X)=p,所以未知引數記為總體一階原點矩,即p=E(X),應用矩估計的替換思想,用樣本的一階原點矩替代總體一階原點矩,可得p的矩估計量為

X~E(λ),E(X)=1/λ,所以λ=1/E(X),所以λ的矩估計量為

4)求解總體未知引數θ矩估計量一般步驟

  • 1)設k為一正整數,通常取1或者2(即1階或者2階),計算總體的k階原點矩μk = E(Xk) = h(θ)
  • 2)解出θ = h-1(E(Xk)) = h-1(uk),將未知引數轉為為總體k階原點矩的形式
  • 3)用樣本的k階原點矩替換uk,得到θ的矩估計,即將未知引數轉為樣本k階原點矩的形式 

矩估計是一種經典的估計方法,它比較直觀且計算簡單,即使不知道總體分佈型別(矩估計法跳過了總體分佈形式這個環節,直接採取了替換思想),只要知道未知引數與總體各階原點矩的關係並運用替代法,就能得到引數的矩估計量。

2. 極大似然估計

1)極大似然估計形式定義

設總體X有分佈律P(X=x;θ)或密度函式f(x;θ),其中θ為一個未知引數或幾個未知引數組成的向量θ=(θ1,θ2,....,θk),已知 θ∈引數空間。(x1,x2,....,xn)為取自總體X的一個樣本(X1,X2,...,Xn)的觀測值,將樣本的聯合分佈律或聯合概率密度函式看成θ的函式,用L(θ)表示,又稱為θ的似然函式,則似然函式形式如下:

在似然函式的基礎上,稱滿足下列關係式:

的解為θ的極大似然估計,也即讓似然函式取得極大值時的特定引數值θ叫做:θ的極大似然估計量。顯然,極大似然估計量也是一個隨機變數。

筆者插入:極大似然估計是因果論的一種逆向應用,總體未知引數θ是因,樣本的觀測值是果,在所有備選θ中,使得結果發生概率最大的因就是極大似然估計的結果。

2)極大似然估計量的求解方式

似然函式L(θ)的極大似然估計問題本質上是一個求極值問題,如果在θ引數較少時,可以用求偏導的方式來求解,同時為了計算方便,一般兩邊取對數,即對數極大似然估計,如下式:

來得到θ的極大似然估計,這是因為L(θ)與lnL(θ)在同一處達到最大值。

當θ引數較多時,一般用矩陣代替偏導數進行計算,其本質是一樣的。

關於極大似然估計的延展討論,讀者朋友朋友可以參閱另一篇文章。

3)極大似然估計應用例項

設(X1,...,Xn)是取自總體X的一個樣本,X~P(λ),其中λ未知,λ > 0。

包含總體未知引數λ的似然函式為:

對似然函式兩邊取對數,並對未知引數λ求導數得:

對導數求極值得:

解得:

於是,λ的極大似然估計量為。

4)求解總體未知引數θ極大似然計量的一般步驟

  • 1)由總體分佈寫出樣本的聯合分佈律或者聯合密度函式
  • 2)把θ看成自變數,樣本聯合分佈律(或聯合密度函式)看成是θ的函式,記為似然函式L(θ)
  • 3)求似然函式L(θ)的最大值點
  • 4)令L(θ)達到最大值時,θ的取值即為θ的極大似然估計值。

由上面討論可以看出,和矩估計不同的是,求解極大似然估計必須總體X的分佈型別已知,即必須要能夠寫出確定的包含總體未知引數θ的函式形式。極大似然估計的條件比矩估計的條件要苛刻,故極大似然估計一般優於矩估計。或者換句話來說,矩估計並不關心總體分佈的具體形式,直接應用了一個非常強的假設,即任何總體的k階矩都可以用樣本的k階矩代替。

3. 點估計優良性評價標準

對於同一個引數,用不同的估計方法求出的估計量可能是不同的,如何定型和定量地評估用哪個估計量更好呢?這個小節會討論3種常用的評判標準。

1)無偏性 - 選矩估計還是極大似然估計

設是θ的一個估計量,θ取值的引數空間為Θ,若對任意的θ∈Θ,都有:

則稱是θ的無偏估計量,否則稱為有偏估計量。

估計量的無偏性是指,由估計量得到的估計值相對於未知引數真值來說,取某些樣本觀測值時偏大,取另一些樣本觀測值時偏小。

反覆將這個估計量使用多次,就平均來說其均值回到到真值本身,且其偏差為0。

反之,如果估計量不具有無偏性,則無論使用多少次,其平均值也與真值有一定的距離,這個距離就是系統誤差了(即估計量選取本身有問題)。

下面通過一個例子來說明,矩估計和極大似然估計在對特定總體抽樣下,估計統計量的無偏性對比。

設(X1,X2,...,Xn)是取自總體X的一個樣本,總體服從均勻分佈,X~U(0,θ),其中θ>0未知,對比θ的估計量和極大似然估計量的無偏性。

首先,由於E(X)=θ/2,則θ=2E(X),則θ的估計量為,因此該矩估計量的期望為:

因此θ的矩估計量是θ的無偏估計。

另一方面,θ的極大似然估計函式形式(即最大次序統計量)為:

因此該極大似然估計量的期望為:

由上式可以看出,θ的極大似然估計量X(n)不是θ的無偏估計,為θ的有偏估計。

上面只是理論上的分析,但是當樣本量很大時,大數定律會讓問題簡單化,即:

因此:在大量樣本的情況下,X(n)是θ的漸進無偏估計。

同時還有一點需要注意的是,對最大次序統計量進行修正,,修正後的統計量滿足期望迴歸真值,即修正後的統計量是無偏估計。

並不是所有的統計量都是可疑修正的,修正後無偏估計在工程實踐中非常有用。

2)有效性 - 無偏估計中繼續擇優

一個未知引數的無偏估計可以有很多(矩估計的各階矩,似然函式極值求導下的多個值),如何在無偏估計中再進行選擇呢?

由於無偏估計的標準是平均偏差為0,所以一個很自然的想法就是每一次估計值與真實值的偏差波動越小越少,偏差波動大小可以用方差來衡量,因此我們用無偏估計的方差大小作為進一步衡量無偏估計優劣的標準,這就是有效性。

設和是θ的兩個無偏估計,若對任意的θ∈Θ,有下式成立:

則稱比有效。

還是繼續沿用上面的均勻分佈的例子,我們已知是θ的無偏估計,且修正後的極大似然估計量也是θ的無偏估計。

且:

,又,所以:

根據函式性質,當n>=2時,,所以修正後的極大似然估計比矩估計更有效。

3)相合性 - 在大數情況收斂於真值的能力

點估計是樣本的樣本,故點估計仍然是一個隨機變數,在樣本量一定的條件下,點估計不可能完全等同於未知引數的真值,但如果隨著樣本量不斷增大,它能夠不斷接近真值,控制在真值附近的強度(概率)越來越大,即無限趨近,那麼這就是一個好的估計,這一性質稱為相合性。

設是θ的一個估計量,若對任意ε,有如下公式成立:

則稱估計量具有相合性(一致性),即,這其實就是高數裡收斂的概念,在概率論中叫概率收斂一致性。

相合性被視為對估計的一個很基本的要求,如果一個估計量,在樣本量不斷增大時,它不能把被估引數收斂到任意指定的精度內,那麼這個估計量就是不收斂的(發散的)。通常,不滿足相合性的估計一般不予考慮。 

0x4:區間估計

1. 由一個例子從點估計推導演進到區間估計

上一章討論的引數點估計是基於樣本觀測值計算出一個確定的值去估計總體未知引數。同時上一章也討論到了點估計量的3種評價標準,即無偏性,有效性,相合性。其實這背後已經暗含了一個重要資訊,即引數點估計的結果從概率上是存在誤差的,雖然隨著樣本量的不斷擴大,這個誤差會無限趨近於零,但永遠不可能完全等同於。換句話說,無論是矩估計還是極大似然估計本質上都存在這誤差。

相比於給出精確的點估計值,學者們提出了另一種引數估計方法,即區間估計,即給出一個區間,讓我們能有更大地把握認為真值被包含在這個區間內,這樣的估計就顯得更有實用價值,也更為可信,因為我們把可能出現的偏差也考慮在內了。

用一個具體例子來逐步引入後面對區間估計的形式化定義的討論:

考察某廠生產的水泥構件的抗壓強度(單位:N/cm2),如果在抽樣前已經從歷史上積累的資料中獲悉,該廠生產的水泥構件的抗壓強度 X ~ N(μ,400),其中μ未知 。

抽取了25件樣品進行測試,得到25個數據x1,... ,x25,根據點估計定義,算得:

如果用點估計的觀點看,415應該就是是該廠生產的水泥構件的平均抗壓強度的估計值。確實在判別式模型中,這就是我們所謂的得到一個最優的模型引數估計。

但是由於抽樣的隨機性,μ的真值和樣本的點估計量之間可能總是有偏差的,我們希望得到一個最大偏差d,保證點估計量和真值之間的偏差不超過這個最大偏差的概率達到某個置信概率,即

接著就出現2個互相制衡的約束條件:

  • 1)d究竟取多大才比較合理?  
    • d愈大可信程度也愈高,最極端的情況,當d增大到整個引數空間時,可信度自然也增加到100%了。但區間過寬的估計是沒有實際意義的,畢竟你告訴你的業務方說,我有1%的概率認為這筆交易是一個非法交易,你去阻斷它吧!可想而知後果
    • 反之,d愈小,區間估計就越精確,越收斂,極端情況下,d為零時即退化為點估計。但相應的,可信程度卻降低了
  • 2)這樣給出的區間估計的可信程度如何?
    • 可信度即置信概率,在不同的最大偏差d下,可信度相應調整。顯然,下游業務方是希望這個可信度越高越好。

怎麼調和兩者的矛盾呢?

在抽樣前,區間估計是一個隨機區間,反映區間估計可信程度的量是這個隨機區間覆蓋未知引數μ的概率分佈函式,因此上面2個約束條件可以寫成概率形式:

,該式本質上就是點估計量的概率分佈函式。

上式中,取不同的d,可以得到對應的概率值。反過來也可以說,取不同的概率值,就可以得到不同的d。

在數理統計中,我們通常取95%這個概率值,我們稱之為置信概率(即能夠接受估計結論的最低概率值),該概率值對應的d得到一個區間【X-d,X+d】我們稱之為置信區間(即誤差的最小下界,即最少包含d的誤差,繼續增加置信概率,d也會相應繼續增大)。

回到上面這個具體的例子,由於,其中,σ2 = 400 = 202,n = 25,因此,上述概率為:

,其中

如果要求這個概率至少為1-α(稱為置信水平,或置信概率),那麼,由 2Φ(c) - 1 ≥ 1 - α 解得:

上面說到,我們通常取95%作為置信概率,所以當α=0.05,所以有:

於是,置信區間為:

習慣上把這個區間估計通過分位數表達成:

上式清楚地表明瞭這個區間估計的可信程度(即它覆蓋未知引數μ的概率)為1-α。

在抽樣後,由樣本觀測值算得,因此,μ的區間估計的觀測值為:

從樣本觀測值提供的資訊,推斷出以95%的可信程度條件下,能夠保證該廠生產的水泥構件的抗壓強度在407.16 ~ 422.84(N/cm2 )之間。

2. 區間估計形式化定義 

設(X1,...,Xn)是取自總體X的一個樣本。對於未知引數θ,給定α,0<α<1。如果存在統計量,使得:

那麼,稱為θ的雙側1-a置信區間,稱1-a為置信水平,為雙側置信下(上)界。

上面定義表示雙側1-a置信區間覆蓋未知引數θ的概率至少有1-a。它的直觀意義是:對同一個未知引數θ反覆使用同一個置信區間時,儘管不能保證每一次都,但是,至少有100(1-a)%次使得“”成立。

和引數的點估計統計量一樣,引數的區間估計量也是一個隨機變數,所以稱為置信區間的觀測值。

3. 求置信區間的一般步驟

置信區間估計的基本思想是:較優的點估計應該屬於置信區間。

設未知引數為θ,置信水平為1-α。

  • 步驟1:求出未知引數θ的較優的點估計,一般儘可能使用θ的極大似然估計
  • 步驟2:以為基礎,尋找一個隨機變數(其實就是包含未知引數的概率分佈),它必須包含、也只能包含這個未知引數θ。要求J的分位數能通過查表或計算得到具體數值
  • 步驟3:記J的a/2分位數為a,1-a/2的分位數為b,於是

  •  步驟4:把不等式“a <= J <= b”作等價變形,得到,這個便是一個雙側1-a置信區間

0x5:單正態總體下未知引數的置信區間

引數的區間估計是針對某個已知總體分佈的,例如已知總體分佈為二項分佈,但是其引數未知,需要通過區間估計來得到未知引數分佈的置信區間。

在實際應用環境中,正態總體下未知引數的置信區間是應用價值最大的一類置信區間問題,我們這節來討論當總體分佈為正態分佈時,其未知引數的區間估計問題。

1. 均值和方差的置信區間估計

設(X1,...,Xn)是取自總體X~N(μ,σ2)的一個樣本,置信水平為1-a。

均值μ和方差σ2是否已知對置信區間的估計結果是有影響的,在實際情況中,也存在不同的已知情況,我們分別討論這3種類型。

1)μ未知但σ2已知

當總體分佈為正態分佈,方差已知,但是均值未知時。根據上一節討論確定的置信區間估計的一般步驟,求未知引數μ的置信區間。

μ的極大似然估計是。

設統計量J為:

按總體分佈正態標準化定理可知,J~N(0,1),由於,因此 

於是μ的雙側1-α置信區間為:

從上式可以得到兩點資訊:

  • 樣本量n越大,置信區間越窄,極端情況下,n趨近於無窮,則置信區間收斂為μ的極大似然估計是
  • 已知總體的方差越大,置信區間越寬,方差越小,置信區間越窄。

2)μ已知但σ2未知

現在要求未知引數σ2的置信區間。σ2的極大似然估計是:

設統計量J為:

從前面三大分佈的討論中可知,J ~ χ2(n),因此

於是σ2的雙側1-α置信區間為:

3)μ與σ2均未知

未知引數μ的極大似然估計是,令:

按照t分佈定理可得,J ~ t(n-1),由於,因此