1. 程式人生 > >統計學常用概念:T檢驗、F檢驗、卡方檢驗、P值、自由度

統計學常用概念:T檢驗、F檢驗、卡方檢驗、P值、自由度

1,T檢驗和F檢驗的由來

一般而言,為了確定從樣本(sample)統計結果推論至總體時所犯錯的概率,我們會利用統計學家所開發的一些統計方法,進行統計檢定。

通過把所得到的統計檢定值,與統計學家建立了一些隨機變數的概率分佈(probability distribution)進行比較,我們可以知道在多少%的機會下會得到目前的結果。倘若經比較後發現,出現這結果的機率很少,亦即是說,是在機會很 少、很罕有的情況下才出現;那我們便可以有信心的說,這不是巧合,是具有統計學上的意義的(用統計學的話講,就是能夠拒絕虛無假設null hypothesis,Ho)。相反,若比較後發現,出現的機率很高,並不罕見;那我們便不能很有信心的直指這不是巧合,也許是巧合,也許不是,但我們沒 能確定。

F值和t值就是這些統計檢定值,與它們相對應的概率分佈,就是F分佈和t分佈。統計顯著性(sig)就是出現目前樣本這結果的機率。

2,統計學意義(P值或sig值)
結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變數的關聯 是總體中各變數關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變數關聯有5%的可能是由於偶然性造成 的。即假設總體中任意變數間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變數關聯將等於或強於我們的實驗結果。(這並不是 說如果變數間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變數存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)在許多研 究領域,0.05的p值通常被認為是可接受錯誤的邊界水平。

3,T檢驗和F檢驗

至於具體要檢定的內容,須看你是在做哪一個統計程式。

舉一個例子,比如,你要檢驗兩獨立樣本均數差異是否能推論至總體,而行的t檢驗。
兩樣本(如某班男生和女生)某變數(如身高)的均數並不相同,但這差別是否能推論至總體,代表總體的情況也是存在著差異呢?
會不會總體中男女生根本沒有差別,只不過是你那麼巧抽到這2樣本的數值不同?
為此,我們進行t檢定,算出一個t檢定值。
與統計學家建立的以「總體中沒差別」作基礎的隨機變數t分佈進行比較,看看在多少%的機會(亦即顯著性sig值)下會得到目前的結果。
若顯著性sig值很少,比如<0.05(少於5%機率),亦即是說,「如果」總體「真的」沒有差別,那麼就只有在機會很少(5%)、很罕有的情況 下,才會出現目前這樣本的情況。雖然還是有5%機會出錯(1-0.05=5%),但我們還是可以「比較有信心」的說:目前樣本中這情況(男女生出現差異的 情況)不是巧合,是具統計學意義的,「總體中男女生不存差異」的虛無假設應予拒絕,簡言之,總體應該存在著差異。

每一種統計方法的檢定的內容都不相同,同樣是t-檢定,可能是上述的檢定總體中是否存在差異,也同能是檢定總體中的單一值是否等於0或者等於某一個數值。

至於F-檢定,方差分析(或譯變異數分析,Analysis of Variance),它的原理大致也是上面說的,但它是透過檢視變數的方差而進行的。它主要用於:均數差別的顯著性檢驗、分離各有關因素並估計其對總變異 的作用、分析因素間的互動作用、方差齊性(Equality of Variances)檢驗等情況。

3,T檢驗和F檢驗的關係

t檢驗過程,是對兩樣本均數(mean)差別的顯著性進行檢驗。惟t檢驗須知道兩個總體的方差(Variances)是否相等;t檢驗值的計算會因 方差是否相等而有所不同。也就是說,t檢驗須視乎方差齊性(Equality of Variances)結果。所以,SPSS在進行t-test for Equality of Means的同時,也要做Levene"s Test for Equality of Variances 。

1.
在Levene"s Test for Equality of Variances一欄中 F值為2.36, Sig.為.128,表示方差齊性檢驗「沒有顯著差異」,即兩方差齊(Equal Variances),故下面t檢驗的結果表中要看第一排的資料,亦即方差齊的情況下的t檢驗的結果。

2.
在t-test for Equality of Means中,第一排(Variances=Equal)的情況:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99
既然Sig=.000,亦即,兩樣本均數差別有顯著性意義!

3.
到底看哪個Levene"s Test for Equality of Variances一欄中sig,還是看t-test for Equality of Means中那個Sig. (2-tailed)啊?
答案是:兩個都要看。
先看Levene"s Test for Equality of Variances,如果方差齊性檢驗「沒有顯著差異」,即兩方差齊(Equal Variances),故接著的t檢驗的結果表中要看第一排的資料,亦即方差齊的情況下的t檢驗的結果。
反之,如果方差齊性檢驗「有顯著差異」,即兩方差不齊(Unequal Variances),故接著的t檢驗的結果表中要看第二排的資料,亦即方差不齊的情況下的t檢驗的結果。

4.
你做的是T檢驗,為什麼會有F值呢?
就是因為要評估兩個總體的方差(Variances)是否相等,要做Levene"s Test for Equality of Variances,要檢驗方差,故所以就有F值。

另一種解釋:

t檢驗有單樣本t檢驗,配對t檢驗和兩樣本t檢驗。

單樣本t檢驗:是用樣本均數代表的未知總體均數和已知總體均數進行比較,來觀察此組樣本與總體的差異性。

配對t檢驗:是採用配對設計方法觀察以下幾種情形,1,兩個同質受試物件分別接受兩種不同的處理;2,同一受試物件接受兩種不同的處理;3,同一受試物件處理前後。

F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。

從兩研究總體中隨機抽取樣本,要對這兩個樣本進行比較的時候,首先要判斷兩總體方差是否相同,即方差齊性。若兩總體方差相等,則直接用t檢驗,若不等,可採用t"檢驗或變數變換或秩和檢驗等方法。

其中要判斷兩總體方差是否相等,就可以用F檢驗。

若是單組設計,必須給出一個標準值或總體均值,同時,提供一組定量的觀測結果,應用t檢驗的前提條件就是該組資料必須服從正態分佈;若是配對設計, 每對資料的差值必須服從正態分佈;若是成組設計,個體之間相互獨立,兩組資料均取自正態分佈的總體,並滿足方差齊性。之所以需要這些前提條件,是因為必須 在這樣的前提下所計算出的t統計量才服從t分佈,而t檢驗正是以t分佈作為其理論依據的檢驗方法。

簡單來說就是實用T檢驗是有條件的,其中之一就是要符合方差齊次性,這點需要F檢驗來驗證。

1、問:自由度是什麼?怎樣確定?
答:(定義)構成樣本統計量的獨立的樣本觀測值的數目或自由變動的樣本觀測值的數目。用df表示。
自由度的設定是出於這樣一個理由:在總體平均數未知時,用樣本平均數去計算離差(常用小s)會受到一個限制——要計算標準差(小s)就必須先知道樣本平均數,而樣本平均數和n都知道的情況下,資料的總和就是一個常數了。所以,“最後一個”樣本資料就不可以變了,因為它要是變,總和就變了,而這是不允許的。至於有的自由度是n-2什麼的,都是同樣道理。
在計算作為估計量的統計量時,引進一個統計量就會失去一個自由度。
通俗點說,一個班上有50個人,我們知道他們語文成績平均分為80,現在只需要知道49個人的成績就能推斷出剩下那個人的成績。你可以隨便報出49個人的成績,但是最後一個人的你不能瞎說,因為平均分已經固定下來了,自由度少一個了。
簡單點就好比你有一百塊,這是固定的,已知的,假設你打算買五件東西,那麼前四件你可以隨便買你想買的東西,只要還有錢的話,比如說你可以吃KFC可以買筆,可以買衣服,這些花去的錢數目不等,當你只剩2塊錢時,或許你最多隻能買一瓶可樂了,當然也可以買一個肉鬆蛋卷,但無論怎麼花,你都只有兩塊錢,而這在你花去98塊那時就已經定下來了。 (這個例子舉的真不錯!!)

2、問:X方檢驗中自由度問題
答:在正態分佈檢驗中,這裡的M(三個統計量)為N(總數)、平均數和標準差。
因為我們在做正態檢驗時,要使用到平均數和標準差以確定該正態分佈形態,此外,要計算出各個區間的理論次數,我們還需要使用到N。
所以在正態分佈檢驗中,自由度為K-3。(這一條比較特別,要記住!)
在總體分佈的配合度檢驗中,自由度為K-1。
在交叉表的獨立性檢驗和同質性檢驗中,自由度為(r-1)×(c-1)。

3、問:t檢驗和方差分析有何區別
答:t檢驗適用於兩個變數均數間的差異檢驗,多於兩個變數間的均數比較要用方差分析。
用於比較均值的t檢驗可以分成三類,第一類是針對單組設計定量資料的;第二類是針對配對設計定量資料的;第三類則是針對成組設計定量資料的。後兩種設計型別的區別在於事先是否將兩組研究物件按照某一個或幾個方面的特徵相似配成對子。無論哪種型別的t檢驗,都必須在滿足特定的前提條件下應用才是合理的。
若是單組設計,必須給出一個標準值或總體均值,同時,提供一組定量的觀測結果,應用t檢驗的前提條件就是該組資料必須服從正態分佈;若是配對設計,每對資料的差值必須服從正態分佈;若是成組設計,個體之間相互獨立,兩組資料均取自正態分佈的總體,並滿足方差齊性。之所以需要這些前提條件,是因為必須在這樣的前提下所計算出的t統計量才服從t分佈,而t檢驗正是以t分佈作為其理論依據的檢驗方法。
值得注意的是,方差分析與成組設計t檢驗的前提條件是相同的,即正態性和方差齊性。
t檢驗是目前醫學研究中使用頻率最高,醫學論文中最常見到的處理定量資料的假設檢驗方法。t檢驗得到如此廣泛的應用,究其原因,不外乎以下幾點:現有的醫學期刊多在統計學方面作出了要求,研究結論需要統計學支援;傳統的醫學統計教學都把t檢驗作為假設檢驗的入門方法進行介紹,使之成為廣大醫學研究人員最熟悉的方法;t檢驗方法簡單,其結果便於解釋。簡單、熟悉加上外界的要求,促成了t檢驗的流行。但是,由於某些人對該方法理解得不全面,導致在應用過程中出現不少問題,有些甚至是非常嚴重的錯誤,直接影響到結論的可靠性。將這些問題歸類,可大致概括為以下兩種情況:不考慮t檢驗的應用前提,對兩組的比較一律用t檢驗;將各種實驗設計型別一律視為多個單因素兩水平設計,多次用t檢驗進行均值之間的兩兩比較。以上兩種情況,均不同程度地增加了得出錯誤結論的風險。而且,在實驗因素的個數大於等於2時,無法研究實驗因素之間的互動作用的大小。

問:統計學意義(P值)
答:結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,P值為結果可信程度的一個遞減指標,P值越大,我們越不能認為樣本中變數的關聯是總體中各變數關聯的可靠指標。P值是將觀察結果認為有效即具有總體代表性的犯錯概率。如P=0.05提示樣本中變數關聯有5%的可能是由於偶然性造成的。即假設總體中任意變數間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變數關聯將等於或強於我們的實驗結果。(這並不是說如果變數間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變數存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)在許多研究領域,0.05的P值通常被認為是可接受錯誤的邊界水平。

4、問:如何判定結果具有真實的顯著性
答:在最後結論中判斷什麼樣的顯著性水平具有統計學意義,不可避免地帶有武斷性。換句話說,認為結果無效而被拒絕接受的水平的選擇具有武斷性。實踐中,最後的決定通常依賴於資料集比較和分析過程中結果是先驗性還是僅僅為均數之間的兩兩>比較,依賴於總體資料集裡結論一致的支援性證據的數量,依賴於以往該研究領域的慣例。通常,許多的科學領域中產生P值的結果≤0.05被認為是統計學意義的邊界線,但是這顯著性水平還包含了相當高的犯錯可能性。結果 0.05≥P>0.01被認為是具有統計學意義,而0.01≥P≥0.001被認為具有高度統計學意義。但要注意這種分類僅僅是研究基礎上非正規的判斷常規。

5、問:所有的檢驗統計都是正態分佈的嗎?
答:並不完全如此,但大多數檢驗都直接或間接與之有關,可以從正態分佈中推匯出來,如t檢驗、F檢驗或卡方檢驗。這些檢驗一般都要求:所分析變數在總體中呈正態分佈,即滿足所謂的正態假設。許多觀察變數的確是呈正態分佈的,這也是正態分佈是現實世界的基本特徵的原因。當人們用在正態分佈基礎上建立的檢驗分析非正態分佈變數的資料時問題就產生了,(參閱非引數和方差分析的正態性檢驗)。這種條件下有兩種方法:一是用替代的非引數檢驗(即無分佈性檢驗),但這種方法不方便,因為從它所提供的結論形式看,這種方法統計效率低下、不靈活。另一種方法是:當確定樣本量足夠大的情況下,通常還是可以使用基於正態分佈前提下的檢驗。後一種方法是基於一個相當重要的原則產生的,該原則對正態方程基礎上的總體檢驗有極其重要的作用。即,隨著樣本量的增加,樣本分佈形狀趨於正態,即使所研究的變數分佈並不呈正態。

6、問:假設檢驗的內涵及步驟
答:在假設檢驗中,由於隨機性我們可能在決策上犯兩類錯誤,一類是假設正確,但我們拒絕了假設,這類錯誤是“棄真”錯誤,被稱為第一類錯誤;一類是假設不正確,但我們沒拒絕假設,這類錯誤是“取偽”錯誤,被稱為第二類錯誤。一般來說,在樣本確定的情況下,任何決策無法同時避免兩類錯誤的發生,即在避免第一類錯誤發生機率的同時,會增大第二類錯誤發生的機率;或者在避免第二類錯誤發生機率的同時,會增大第一類錯誤發生的機率。人們往往根據需要選擇對那類錯誤進行控制,以減少發生這類錯誤的機率。大多數情況下,人們會控制第一類錯誤發生的概率。 發生第一類錯誤的概率被稱作顯著性水平,一般用α表示,在進行假設檢驗時,是通過事先給定顯著性水平α的值而來控制第一類錯誤發生的概率。在這個前提下,假設檢驗按下列步驟進行:
1)、確定假設;
2)、進行抽樣,得到一定的資料;
3)、根據假設條件下,構造檢驗統計量,並根據抽樣得到的資料計算檢驗統計量在這次抽樣中的具體值;
4)、依據所構造的檢驗統計量的抽樣分佈,和給定的顯著性水平,確定拒絕域及其臨界值;
5)、比較這次抽樣中檢驗統計量的值與臨界值的大小,如果檢驗統計量的值在拒絕域內,則拒絕假設;
到這一步,假設檢驗已經基本完成,但是由於檢驗是利用事先給定顯著性水平的方法來控制犯錯概率的,所以對於兩個資料比較相近的假設檢驗,我們無法知道那一個假設更容易犯錯,即我們通過這種方法只能知道根據這次抽樣而犯第一類錯誤的最大概率(即給定的顯著性水平),而無法知道具體在多大概率水平上犯錯。計算 P值有效的解決了這個問題,P值其實就是按照抽樣分佈計算的一個概率值,這個值是根據檢驗統計量計算出來的。通過直接比較P值與給定的顯著性水平α的大小就可以知道是否拒絕假設,顯然這就代替了比較檢驗統計量的值與臨界值的大小的方法。而且通過這種方法,我們還可以知道在p值小於α的情況下犯第一類錯誤的實際概率是多少,p=0.03<α=0.05,那麼拒絕假設,這一決策可能犯錯的概率是0.03。需要指出的是,如果P>α,那麼假設不被拒絕,在這種情況下,第一類錯誤並不會發生。

7、問:卡方檢驗的結果,值是越大越好,還是越小越好?
答:與其它檢驗一樣,所計算出的統計量越大,在分佈中越接近分佈的尾端,所對應的概率值越小。
如果試驗設計合理、資料正確,顯著或不顯著都是客觀反映。沒有什麼好與不好。

8、問:配對樣本的T檢驗和相關樣本檢驗有何差別?
答:配對樣本有同源配對(如動物實驗中雙胞胎)、條件配對(如相同的環境)、自身配對(如醫學實驗中個體的用藥前後)等。(好像沒有解釋清楚啊,同問這個,到底什麼區別呢?)

9、問:在比較兩組資料的率是否相同時,二項分佈和卡方檢驗有什麼不同?
答:卡方分佈主要用於多組多類的比較,是檢驗研究物件總數與某一類別組的觀察頻數和期望頻數之間是否存在顯著差異,要求每格中頻數不小於5,如果小於5則合併相鄰組。二項分佈則沒有這個要求。
如果分類中只有兩類還是採用二項檢驗為好。
如果是2*2表格可以用fisher精確檢驗,在小樣本下效果更好。

10、問:如何比較兩組資料之間的差異性
答:從四個方面來回答,
1).設計型別是完全隨機設計兩組資料比較,不知道資料是否是連續性變數?
2).比較方法:如果資料是連續性資料,且兩組資料分別服從正態分佈&方差齊(方差齊性檢驗),則可以採用t檢驗,如果不服從以上條件可以採用秩和檢驗。
3).想知道兩組資料是否有明顯差異?不知道這個明顯差異是什麼意思?是問差別有無統計學意義(即差別的概率有多大)還是兩總體均數差值在哪個範圍波動?如果是前者則可以用第2步可以得到P值,如果是後者,則是用均數差值的置信區間來完成的。當然兩者的結果在SPSS中均可以得到。

11、問:迴歸分析和相關分析的聯絡和區別
答:迴歸分析(Regression):Dependant variable is defined and can be forecasted by independent variable.相關分析(Correlation):The relationship btw two variables. --- A dose not define or determine B.
迴歸更有用自變數解釋因變數的意思,有一點點因果關係在裡面,並且可以是線性或者非線形關係;
相關更傾向於解釋兩兩之間的關係,但是一般都是指線形關係,特別是相關指數,有時候影象顯示特別強二次方影象,但是相關指數仍然會很低,而這僅僅是因為兩者間不是線形關係,並不意味著兩者之間沒有關係,因此在做相關指數的時候要特別注意怎麼解釋數值,特別建議做出影象觀察先。
不過,無論迴歸還是相關,在做因果關係的時候都應該特別注意,並不是每一個顯著的迴歸因子或者較高的相關指數都意味著因果關係,有可能這些因素都是受第三,第四因素制約,都是另外因素的因或果。
對於此二者的區別,我想通過下面這個比方很容易理解:
對於兩個人關係,相關關係只能知道他們是戀人關係,至於他們誰是主導者,誰說話算數,誰是跟隨者,一個打個噴嚏,另一個會有什麼反應,相關就不能勝任,而回歸分析則能很好的解決這個問題
回歸未必有因果關係。回歸的主要有二:一是解釋,一是預測。在於利用已知的自變項預測未知的依變數。相關係數,主要在瞭解兩個變數的共變情形。如果有因果關係,通常會進行路徑分析(path analysis)或是線性結構關係模式。
我覺得應該這樣看,我們做迴歸分析是在一定的理論和直覺下,通過自變數和因變數的數量關係探索是否有因果關係。樓上這位仁兄說“迴歸未必有因果關係……如果有因果關係,通常進行路徑分析或線性結構關係模式”有點值得商榷吧,事實上,迴歸分析可以看成是線性結構關係模式的一個特例啊。
我覺得說迴歸是探索因果關係的並沒錯,因為實際上最後我們並不是完全依據統計的結果來判斷因果性,只有在統計結果和理論及現實比較吻合的基礎上我們才肯定這種因果關係。任何統計方法只是一種工具,但是不能完全依賴於這種工具。即使是SEM,我們也不能說完全認定其準確性,因為即使方法是好的,但是變數的複雜關係呈現的方式也是多種多樣的,可能統計只能告訴你一個方向上的最優解,可未必是最符合實際的,更何況抽樣資料的質量好壞也會使得結果不符合事實,從而導致人們懷疑統計方法的準確性。
統計只說明統計關聯。
不證明因素關係。
迴歸有因果關係,相關未必。
迴歸分析是處理兩個及兩個以上變數間線性依存關係的統計方法。此類問題很普遍,如人頭髮中某種金屬元素的含量與血液中該元素的含量有關係,人的體表面積與身高、體重有關係;等等。迴歸分析就是用於說明這種依存變化的數學關係。
任何事物的存在都不是孤立的,而是相互聯絡、相互制約的。身高與體重、體溫與脈搏、年齡與血壓等都存在一定的聯絡。說明客觀事物相互間關係的密切程度並用適當的統計指標表示出來,這個過程就是相關分析.

隨機抽樣與統計推斷的邏輯

前天麥小兜問我怎樣構造置信區間,在電話裡我似乎沒有解釋清楚,這裡重新整理出一份筆記。同時有感於在國內做課題時,同行們的窘態歷歷在目(他們不知道如何去檢驗一個變數是否符合正態分佈),故記之,以勉勵自己盡力思考清楚所學所用之物。

學過統計學的人都知道可以對一個未知總體(population)進行隨機抽樣,通過對樣本(sample)的描述、計算(例如計算樣本均值、樣本方差),進而推斷總體的一些特徵(對某些假設進行檢驗,構造置信區間等等)。當然,很多現代的推斷方法都是“菜譜(cook book)”性質的,不需要非專業人士進行詳細掌握,例如,搞經濟學的人往往在不知道什麼是F分佈的情況下也能知道如何檢驗F統計量並對結論進行解釋,甚至不用親手計算F統計量。但是,如果仔細思考一下其中的關係,可以看到這種隨機抽樣--推斷中包含著某種哲學,而這種哲學在某些地方的確顯式出了人類的智慧。

本質上,這種方法是用一組我們掌握了100%資訊的資料(樣本),對一組我們幾乎不掌握資訊或只掌握部分資訊的資料(總體),進行擬合的過程。換句話說,以有知推未知的過程。因為是對“未知”的推斷,我們不可能有100%的把握,但同時是用“有知”的資料,所以我們不會一點把握都沒有。也許通過一個極為簡單例子我們可以看到背後的這種思維。下面就開始這個練習。

[例子]:假設一個學校有20000名學生,從中隨機抽取1000名學生,問,這個學校20000名學生的某門課的平均成績是否為70/100?注意,這裡並沒有作出有關總體的分佈的假設。

[問題1]:我們能夠用樣本進行統計推斷了嗎?

似乎還不可以,邏輯上缺一步。這裡值得注意的是,所抽取的1000學生是否是“隨機樣本”?答案是否定的。

隨機抽樣的思想是:抽出來的樣本(sample)的分佈是和總體(population)的分佈是一致的,這一點對於每一個觀測值而言,能夠成立。但隨機樣本還要求每個觀測值(observation)相互獨立(independent),在這裡狹義的理解便是,每一個觀察值被取到的概率是相同的。但是在上面例子裡,這個條件顯然並不能被滿足(很多囫圇的學者往往忽略這個條件)。如果你收集了1000個學生的成績單,那麼這1000個學生的成績被抽到概率取決於其被取到的順序。由於一次抽取1000個學生的成績,每個學生被抽到的次數只是一次,不能被重複抽樣。於是,樣本中第一個學生被抽到的概率是1/20000,第二個學生被抽到的概率則是1/19999,第三個學生是1/19998,……第1000個學生為1/19000。也就是說,在一些學生被抽走之後,下一個學生被抽到的概率絕對不會等於1/20000。只有在有放回(with replacement)的抽樣中,我們才能說每個學生被抽中的概率是1/20000,也才能保證,我們抽取的是隨機樣本(random sample)。但是那樣的話,我們又很可能抽不到1000個樣本,因為一個學生被抽到大於一次重複的可能性不是零。

幸運的是,注意到這一千個概率值相差並不大(因為總體值夠大),那麼,可以近似地認為這1000個學生的成績是隨機樣本(random sample)。在做了這樣的近似之後,我們方可以進行統計推斷。這種近似在統計學中很普遍。例如,中心極限定理(central limit Theorem)說的是,大多數分佈可以近似的看作正態(normal)分佈,這使得正態分佈在統計學中佔有極為重要的地位。這些分佈的一個重要特徵便是,變數可以看成是觀測值的和(的函式),例如,二項分佈可以看成是一組伯努裡試驗(bernolli tiral)結果的和。另外,例如泊松(poisson)分佈可以看成是二項(binomial)分佈,而後者又可近似看作正態分佈。

但是,完成了這個近似,我們還需要更多的假設才能進行統計推斷和檢驗(inference and test)。例如,我們必須瞭解總體的分佈情況,即使不知道所有引數的具體值。(目前假設我們只討論引數(parametric)方法)

[情形一]:我們確切知道這20000學生的成績符合(正態)分佈,均值未知(unkown mean)但是方差已知(known variance)。

[問題2] 對於符合任意分佈的樣本,樣本均值和樣本方差符合什麼樣的規律?

利用簡單的數學期望的性質可以得到如下關係:

(1)樣本均值的期望=總體均值。

(2)樣本均值的方差=總體方差/樣本數(樣本均值的波動沒有單個觀測值變化大)

通過這些變數,我們可以構造統計量Z:

(3)Z=(樣本均值-總體均值)/根號(總體方差/樣本數)。根據(1)(2)和中心極限定理,對於任何總體,Z統計量符合標準正態分佈。值得注意的是,對於這個Z統計量,我們掌握了大量的資訊。例如,對於任意給定的A值,我們完全可以計算出符合

(4)Pr(Z<|z|)=A%的z值。

但是由於Z是變數,我們並未掌握100%的資訊。

注意(3)和(4)式的含義,由於我們可以算出樣本均值和樣本方差,總體方差,那麼z便是由總體均值唯一決定的函式。於是,我們可以反算出總體均值的函式表示式,因為總體均值僅僅是z的反函式。給定A,我們知道z的取值範圍,也就知道了總體均值的變化範圍。這個變化範圍就是我們所說的置(自)信區間(confidence interval),例如Pr(c1<總體均值

於是我們可以進行假設檢驗:H0:總體均值=70VS H1:not H0。(assume:size=10%)。

這個時候,我們知道Pr(c1<總體均值c2我們就可以在10%的水平上推翻H0。

[情形二]我們不知道總體方差,也不知道總體均值。

再看式子(3),我們知道不能用正態分佈來進行推斷了,於是得用新的方法,即t分佈。

根據定義,樣本方差=sum(觀測值i-樣本均值)^2;i=1,2,1000。

樣本均值=sum(觀測值i)/樣本數 i=1,2,……1000。

可以證明(過程複雜,需要用到正交矩陣運算),(樣本方差/總體方差)符合(樣本值-1)個自由度的卡方(chi-squared)分佈。同時,樣本方差和樣本均值是獨立變數。

那麼構造新的t變數:t=Z/根號(卡方/自由度)。

值得注意,分子分母各是一個分式,各自的分母都帶有一個未知數,即總體方差。但幸運的是,這兩者互相銷去。於是,t只是由總體均值唯一決定的函式。

那麼我們又可以進行構造置信區間的練習。這裡需要指出的是,(i)對於符合任意分佈的總體而言,Z符合標準正態分佈,因為樣本均值是所有觀測值的“和”(乘以一個常數),只要樣本數夠大,中心極限定理保證了其近似於標準正態分佈。(ii)但是,如果總體不符合正態部分,那麼我們無法進行t檢驗。因為無法保證樣本方差符合卡方分佈,於是也就無法保證t符合t分佈。

總結一下這裡的哲學。我們用了一個掌握了100%資訊的樣本,計算了幾個值(樣本均值,樣本方差)。然後構造出了一個我們掌握了很大資訊的統計量Z,或t。再用這些資訊去了解我們掌握了少數資訊的總體。耐人尋味的地方在於,這個符合標準正態分佈的統計量Z,和t,其中的資訊一些來自樣本,一些來自於總體。這個我們瞭解一部分的量,恰恰成為我們這種統計推斷的橋樑。因為直接分析總體的話,我們的資訊不夠--我們幾乎什麼都不知道。而直接分析樣本,儘管我們有充分資訊,這個樣本卻與總體均值的關係不夠緊密,我們只知道(1)式和(2)式。於是Z和t變數便起到了“曲線救國”的作用。但是,正因為如此,我們只能說,我們有A%的把握相信,總體均值落在(c1,c2)區間內。

當缺乏更多的資訊時,我們就需要增加更多的步驟,例如,構造t變數需要證明樣本均值和樣本方差是獨立變數,還需要了解卡方分佈。但是,前人們已經發現了這樣一些分佈,為這種方法鋪平了道路。在我看來,這些人真真正正地極大推動了人類思想史的發展。這些人如何想出卡方分佈這樣一個分佈?如何找到正態分佈和t分佈之間的關係?這些本身就值得驚歎。

[情形三]我們不知道總體的分佈,也不知道任何引數。

前面說過,如果不知道總體的分佈,只要知道總體方差,Z變數符合標準正態分佈。但現在我們不知道總體方差,我們就甚至連引數方法都不能用了,應該採用非引數方法(nonparametic method)或半引數方法(semi-parametric method)。但是邏輯仍然是一致的,即需要通過一箇中間的統計量來聯絡樣本和總體,例如,位序檢驗(rank test),規模檢驗(size test)都需要構造一個新的統計量。