1. 程式人生 > >T檢驗和F檢驗\自由度

T檢驗和F檢驗\自由度

1,T檢驗和F檢驗的由來

   一般而言,為了確定從樣本(sample)統計結果推論至總體時所犯錯的概率,我們會利用統計學家所開發的一些統計方法,進行統計檢定。

   通過把所得到的統計檢定值,與統計學家建立了一些隨機變數的概率分佈(probabilitydistribution)進行比較,我們可以知道在多少%的機會下會得到目前的結果。倘若經比較後發現,出現這結果的機率很少,亦即是說,是在機會很少、很罕有的情況下才出現;那我們便可以有信心的說,這不是巧合,是具有統計學上的意義的(用統計學的話講,就是能夠拒絕虛無假設nullhypothesis,Ho)。相反,若比較後發現,出現的機率很高,並不罕見;那我們便不能很有信心的直指這不是巧合,也許是巧合,也許不是,但我們沒能確定。

F值和t值就是這些統計檢定值,與它們相對應的概率分佈,就是F分佈和t分佈。統計顯著性(sig)就是出現目前樣本這結果的機率。

2,統計學意義(P值或sig值)
   結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變數的關聯是總體中各變數關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變數關聯有5%的可能是由於偶然性造成的。即假設總體中任意變數間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變數關聯將等於或強於我們的實驗結果。(這並不是說如果變數間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變數存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)在許多研究領域,0.05的p值通常被認為是可接受錯誤的邊界水平。


3,T檢驗和F檢驗

至於具體要檢定的內容,須看你是在做哪一個統計程式。

舉一個例子,比如,你要檢驗兩獨立樣本均數差異是否能推論至總體,而行的t檢驗。
兩樣本(如某班男生和女生)某變數(如身高)的均數並不相同,但這差別是否能推論至總體,代表總體的情況也是存在著差異呢?
會不會總體中男女生根本沒有差別,只不過是你那麼巧抽到這2樣本的數值不同?
為此,我們進行t檢定,算出一個t檢定值。
與統計學家建立的以「總體中沒差別」作基礎的隨機變數t分佈進行比較,看看在多少%的機會(亦即顯著性sig值)下會得到目前的結果。
若顯著性sig值很少,比如<0.05(少於5%機率),亦即是說,「如果」總體「真的」沒有差別,那麼就只有在機會很少(5%)、很罕有的情況下,才會出現目前這樣本的情況。雖然還是有5%機會出錯(1-0.05=5%),但我們還是可以「比較有信心」的說:目前樣本中這情況(男女生出現差異的情況)不是巧合,是具統計學意義的,「總體中男女生不存差異」的虛無假設應予拒絕,簡言之,總體應該存在著差異。

每一種統計方法的檢定的內容都不相同,同樣是t-檢定,可能是上述的檢定總體中是否存在差異,也同能是檢定總體中的單一值是否等於0或者等於某一個數值。

至於F-檢定,方差分析(或譯變異數分析,Analysis ofVariance),它的原理大致也是上面說的,但它是透過檢視變數的方差而進行的。它主要用於:均數差別的顯著性檢驗、分離各有關因素並估計其對總變異的作用、分析因素間的互動作用、方差齊性(Equalityof Variances)檢驗等情況。

3,T檢驗和F檢驗的關係

t檢驗過程,是對兩樣本均數(mean)差別的顯著性進行檢驗。惟t檢驗須知道兩個總體的方差(Variances)是否相等;t檢驗值的計算會因方差是否相等而有所不同。也就是說,t檢驗須視乎方差齊性(Equalityof Variances)結果。所以,SPSS在進行t-test for Equality ofMeans的同時,也要做Levene's Test for Equality of Variances 。

1.
在Levene's Test for Equality of Variances一欄中 F值為2.36,Sig.為.128,表示方差齊性檢驗「沒有顯著差異」,即兩方差齊(EqualVariances),故下面t檢驗的結果表中要看第一排的資料,亦即方差齊的情況下的t檢驗的結果。

2.
在t-test for Equality of Means中,第一排(Variances=Equal)的情況:t=8.892,df=84, 2-Tail Sig=.000, Mean Difference=22.99
既然Sig=.000,亦即,兩樣本均數差別有顯著性意義!

3.
到底看哪個Levene's Test for Equality of Variances一欄中sig,還是看t-test forEquality of Means中那個Sig. (2-tailed)啊?
答案是:兩個都要看。
先看Levene's Test for Equality ofVariances,如果方差齊性檢驗「沒有顯著差異」,即兩方差齊(EqualVariances),故接著的t檢驗的結果表中要看第一排的資料,亦即方差齊的情況下的t檢驗的結果。
反之,如果方差齊性檢驗「有顯著差異」,即兩方差不齊(UnequalVariances),故接著的t檢驗的結果表中要看第二排的資料,亦即方差不齊的情況下的t檢驗的結果。

4.
你做的是T檢驗,為什麼會有F值呢?
就是因為要評估兩個總體的方差(Variances)是否相等,要做Levene's Test for Equality ofVariances,要檢驗方差,故所以就有F值。

另一種解釋:

t檢驗有單樣本t檢驗,配對t檢驗和兩樣本t檢驗。

單樣本t檢驗:是用樣本均數代表的未知總體均數和已知總體均數進行比較,來觀察此組樣本與總體的差異性。

配對t檢驗:是採用配對設計方法觀察以下幾種情形,1,兩個同質受試物件分別接受兩種不同的處理;2,同一受試物件接受兩種不同的處理;3,同一受試物件處理前後。

F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。

從兩研究總體中隨機抽取樣本,要對這兩個樣本進行比較的時候,首先要判斷兩總體方差是否相同,即方差齊性。若兩總體方差相等,則直接用t檢驗,若不等,可採用t'檢驗或變數變換或秩和檢驗等方法。

其中要判斷兩總體方差是否相等,就可以用F檢驗。

若是單組設計,必須給出一個標準值或總體均值,同時,提供一組定量的觀測結果,應用t檢驗的前提條件就是該組資料必須服從正態分佈;若是配對設計,每對資料的差值必須服從正態分佈;若是成組設計,個體之間相互獨立,兩組資料均取自正態分佈的總體,並滿足方差齊性。之所以需要這些前提條件,是因為必須在這樣的前提下所計算出的t統計量才服從t分佈,而t檢驗正是以t分佈作為其理論依據的檢驗方法。

簡單來說就是實用T檢驗是有條件的,其中之一就是要符合方差齊次性,這點需要F檢驗來驗證。


怎麼用F值和Sig(概率)值判斷方差齊性是否齊性?方差是否齊不是這樣檢驗的,專門在spss中有

One-Way ANOVA對話方塊中,點選Options…(選項…)按扭,

勾Homogeneity-of-variance即可。它會產生

Levene、Cochran C、Bartlett-BoxF等檢驗值及其顯著性水平P值,若P值<於0.05,便拒絕方差整齊的假設。

順帶一提,Cochran和Bartlett檢定對非正態性相當敏感,若出現「拒絕方差整齊」的檢測結果,或因這原因而做成。

在方差分析的F檢驗中,是以各個實驗組內總體方差齊性為前提的,因此,按理應該在方差分析之前,要對各個實驗組內的總體方差先進行齊性檢驗。如果各個實驗組內總體方差為齊性,而且經過F檢驗所得多個樣本所屬總體平均數差異顯著,這時才可以將多個樣本所屬總體平均數的差異歸因於各種實驗處理的不同所致;如果各個總體方差不齊,那麼經過F檢驗所得多個樣本所屬總體平均數差異顯著的結果,可能有一部分歸因於各個實驗組內總體方差不同所致。

但是,方差齊性檢驗也可以在F檢驗結果為多個樣本所屬總體平均數差異顯著的情況下進行,因為F檢驗之後,如果多個樣本所屬總體平均數差異不顯著,就不必再進行方差齊性檢驗。

Levene方差齊性檢驗也稱為Levene檢驗(Levene'sTest).由H.Levene在1960年提出[1].M.B.Brown和A.B.Forsythe在1974年對Levene檢驗進行了擴充套件[2],使對原始資料的資料轉換不但可以使用資料與算術平均數的絕對差,也可以使用資料與中位數和調整均數(trimmedmean)的絕對差.這就使得Levene檢驗的用途更加廣泛.Levene檢驗主要用於檢驗兩個或兩個以上樣本間的方差是否齊性.要求樣本為隨機樣本且相互獨立.國內常見的Bartlett多樣本方差齊性檢驗主要用於正態分佈的資料,對於非正態分佈的資料,檢驗效果不理想.Levene檢驗既可以用於正態分佈的資料,也可以用於非正態分佈的資料或分佈不明的資料,其檢驗效果比較理想.

方差分析的條件之一為方差齊,即各總體方差相等。因此在方差分析之前,應首先檢驗各樣本的方差是否具有齊性。常用方差齊性檢驗(testfor homogeneity ofvariance)推斷各總體方差是否相等。用自由度查界值表,若值大於等於界值,則P值小於等於相應的概率,反之,P值大於相應的概率。如果未經校正的值小於界值,則校正後的值更小,可不必再計算校正值。


PS:何為“自由度”?
   自由度,很多統計量的計算公式中都有自由度的概念,可為什麼同樣是計算標準差,總體標準差的自由度是n,而樣本標準差的自由度就是n-1?為什麼其它公式中的自由度還有n-2、n-3呢?它到底是什麼含意?在統計模型中,自由度指樣本中可以自由變動的變數的個數,當有約束條件時,自由度減少自由度計算公式:自由度=樣本個數-樣本資料受約束條件的個數,即df= n - k(df自由度,n樣本個數,k約束條件個數).

   一般總體方差(sigma^2),其實它是衡量所有資料對於中心位置(總體平均)平均差異的概念,所以也稱為離散程度,通常表示為sum(Xi-Xbar)^1/2/N,(有多少個數據就除多少)而樣本方差(S^2),則是利用樣本資料所計算出來估計總體變異用的(樣本統計量的基本目的:少量資料估計總體).一般習慣上,總體怎麼算,樣本就怎麼算,可是在統計上估計量(或叫樣本統計量)必須符合一個特性--無偏性,也就是估計量的數學期望值要等於被估計的總體引數=&gt;E(S^2)=sigma^2(無偏估計)。很不幸的,樣本變異數E(S^2)並不會等於sigma^2所以必須做修正,而修正後即為sum(Xi-Xbar)^2/(N-1).才會繼續帶出後來的自由度概念。通俗點說,一個班上有50個人,我們知道他們語文成績平均分為80,現在只需要知道49個人的成績就能推斷出剩下那個人的成績。你可以隨便報出49個人的成績,但是最後一個人的你不能瞎說,因為平均分已經固定下來了,自由度少一個了。例如,一組資料,平均數一定,則這組資料有n-1個數據可以自由變化;如一組資料平均數一定,標準差也一定,則有n-2個數據可以自由變化。

相關推薦

T檢驗F檢驗\自由度

1,T檢驗和F檢驗的由來    一般而言,為了確定從樣本(sample)統計結果推論至總體時所犯錯的概率,我們會利用統計學家所開發的一些統計方法,進行統計檢定。    通過把所得到的統計檢定值,與統計學家建立了一些隨機變數的概率分佈(probabilitydistribution)進行比較,我們可以知道在多

【通俗向】方差分析--T檢驗F檢驗的異同

最近在圖書館借了本《R和ASReml-R統計分析教程》,林元震和陳曉陽主編的關於R的書籍,當時看上這本書的原因在於裡面以統計學知識為主,作為R語言實戰的良好補充,雖然R語言實戰是一本相當詳實的介紹R語言的書,但是其中的統計學原理往往一筆帶過(雖然本書也不是很詳盡

統計學常用概念:T檢驗F檢驗、卡方檢驗、P值、自由度

1,T檢驗和F檢驗的由來 一般而言,為了確定從樣本(sample)統計結果推論至總體時所犯錯的概率,我們會利用統計學家所開發的一些統計方法,進行統計檢定。 通過把所得到的統計檢定值,與統計學家建立了一些隨機變數的概率分佈(probability distribution)進

線性迴歸標準化 R^2, T檢驗F檢驗

1、標準化對於多元線性迴歸需要對各個自變數進行標準化,排除單位的影響。標準化方法:即將原始資料減去相應變數的均數後再除以該變數的標準差,而標準化得到的迴歸方程稱為標準化迴歸方程,相應得迴歸係數為標準化迴歸係數。2、T檢驗T檢驗是對各個迴歸係數的檢驗,絕對值越大,sig就越小,

三大抽樣分佈:卡方分佈,t分佈F分佈的簡單理解

有很多統計推斷是基於正態分佈的假設,以標準正態分佈變數為基石而構造的三個著名統計量在實際中有廣泛的應用,這是因為這三個統計量不僅有明確背景,而且其抽樣分佈的密度函式有顯式表示式,它們被稱為統計中的“三大抽樣分佈”。這三大抽樣分佈即為著名的卡方分佈,t分佈和F分佈。 目錄

R Grubbs檢驗 Dixon檢驗 找出異常值

1、Grubbs檢驗#---------------程式碼範例#Grubbs檢驗程式碼例項:                                                                       #####################

T檢驗p-value含義及計算公式

T檢驗,亦稱student t檢驗(Student's t test),主要用於樣本含量較小(例如n<30),總體標準差σ未知的正態分佈資料。 T檢驗是用於小樣本(樣本容量小於30)的兩個平均值差異程度的檢驗方法。它是用T分佈理論來推斷差異發生的概率,從而

機器學習筆記之R語言基礎5(T,F檢驗

T檢驗 t檢驗分為單總體檢驗和雙總體檢驗。 單總體檢驗:【樣本平均數,總體平均數差異】 -檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著。 –當總體分佈是正態分佈,如總體標準差未知且樣本容量小於30,那麼樣本平均數與總體平均數的離差統計量呈t

卡方檢驗互信息

其中 學習 learn 介紹 ear div 合計 應該 python實現 在機器學習中,特征選擇主要有兩個目的: 1. 減少特征數量,提高訓練速度 2. 減少噪聲特征從而提高模型在測試集上的準確率。一些噪聲特征會導致模型出現錯誤的泛化,容易產生overfittin

時間序列2擬合檢驗預測#R

logs clas 診斷 mean 噪聲 移動平均 clu 常數 設定 一、擬合 1、自動擬合模型 要使用auto.arima( )函數需要先下載zoo和forecast程序包,並用library調用這兩個程序包。auto.arima()函數的命令格式如下 auto.ar

如何計算UDP/TCP檢驗checksum

rac pre board ews 檢查 例子 bar clip 報文結構 如何計算UDP/TCP檢驗和checksum一、下面的圖是一個UDP的檢驗和所需要用到的所有信息,包括三個部分:1.UDP偽首部2.UDP首部3.UDP的數據部分(切記不要遺漏該部分,否則就~吐血了

KMO檢驗Bartlett球形檢驗

KMO檢驗和Bartlett球形檢驗因子分析前,首先進行KMO檢驗和巴特利球體檢驗,KMO檢驗係數>0.5,(巴特利特球體檢驗的x2統計值的顯著性概率)P值<0.05時,問卷才有結構效度,才能進行因子分析,因子分析主要是你自己做了一份調查問卷,你要考量這份問卷調查來的資料信度和效度如何,能不能對你

置信區間假設檢驗的理解

置信區間和假設檢驗的理解 更新答案 數學理論的引入很大程度上是為了解決實際問題,或者是提供一種看待和理解現實世界的方式 置信區間(解決根據樣本推能夠相信的範圍):如果男女地位的主張是從一個極端男權到極端女權一個連續變化的值的話,人群(富強民主文明和諧美麗群體,主張男女平

Python金融系列第四篇:置信區間假設檢驗

作者:chen_h 微訊號 & QQ:862251340 微信公眾號:coderpai 第五篇:多元線性迴歸和殘差分析 第六篇:現代投資組合理論 第七篇:市場風險 第八篇:Fama-French 多因子模型 介紹 在上一章中,我們討論了隨機變

電腦科學採用訓練資料集,驗證資料集,測試資料集 的方法 為什麼不採用統計學中常用的假設檢驗呢? (引數檢驗 非引數檢驗

如題所說, 這個問題作為一個本科讀管理,碩士讀計算機卻旁修經濟學,博士在讀計算機的我來說感覺比較迷惑的。在管理學,經濟學,計算機這三門學科在解決優化問題的時候採用的方法大致相同,其核心都是統計學,管理學,電腦科學中採用的基礎方法,如線性迴歸,多元線性迴歸,廣義線性迴歸,決策樹,SVM,ID3,KNN等分類方法

f檢驗

樣本標準偏差的平方,即: 兩組資料就能得到兩個S2值 然後計算的F值與查表得到的F表值比較,如果 F < F表 表明兩組資料沒有顯著差異; F ≥ F表 表明兩組資料存在顯著差異。     通常的F檢驗例子包括:

假設檢驗P值那些事

文章目錄 假設檢驗和P值那些事 假設檢驗 P值 R中的實踐 參考文獻 假設檢驗和P值那些事 記得大學時候學習概率論與數理統計的時候,學習過假設檢驗,但我不記得課本上有提到過P值。後來翻閱了一些資料

首部檢驗計算

IP/ICMP/IGMP/TCP/UDP等協議的校驗和演算法都是相同的,演算法如下: 在傳送資料時,為了計算IP資料包的校驗和。應該按如下步驟: (1)把IP資料包的校驗和欄位置為0; (2)把首部看成以16位為單位的數字組成,依次進行二進位制反碼求和; (3)把得到的結果

多元線性迴歸模型的F檢驗

F檢驗    對於多元線性迴歸模型,在對每個迴歸係數進行顯著性檢驗之前,應該對迴歸模型的整體做顯著性檢驗。這就是F檢驗。當檢驗被解釋變數yt與一組解釋變數x1, x2 , ... , xk -1是否存在迴歸關係時,給出的零假設與備擇假設分別是 H0:b1 = b2 = ..

非引數檢驗卡方檢驗

卡方值的計算與意義   χ2值表示觀察值與理論值之問的偏離程度。計算這種偏離程度的基本思路如下。   (1)設A代表某個類別的觀察頻數,E代表基於H0計算出的期望頻數,A與E之差稱為殘差。   (2)顯然,殘差可以表示某一個類別觀察值和理論值的偏離程度,但如果將殘差簡單相加以表示各類別觀察頻數與期