1. 程式人生 > >R與t分佈(1) 概率密度函式

R與t分佈(1) 概率密度函式

在概率論和統計學中,學生t-分佈(Student's t-distribution),可簡稱為t分佈。應用在估計呈正態分佈的母群體之平均數。它是對兩個樣本均值差異進行顯著性測試的學生t檢定的基礎。學生t檢定改進了Z檢定(Z-test),因為Z檢定以母體標準差已知為前提。雖然在樣本數量大(超過30個)時,可以應用Z檢定來求得近似值,但Z檢定用在小樣本會產生很大的誤差,因此必須改用學生t檢定以求準確。

在母體標準差未知的情況下,不論樣本數量大或小皆可應用學生t檢定。在待比較的資料有三組以上時,因為誤差無法壓低,此時可以用變異數分析(ANOVA)代替學生t檢定。

t分佈的推導由英國人威廉·戈塞特(Willam S. Gosset)於1908年首先發表,當時他還在愛爾蘭都柏林的吉尼斯(Guinness)啤酒釀酒廠工作。酒廠雖然禁止員工發表一切與釀酒研究有關的成果,但允許他在不提到釀酒的前提下,以筆名發表t分佈的發現,所以論文使用了“學生”(Student)這一筆名。之後t檢定以及相關理論經由羅納德·費雪(Sir Ronald Aylmer Fisher)的發揚光大,為了感謝戈塞特的功勞,費雪將此分佈命名為學生t分佈(Student's t)。
參見[url=http://zh.wikipedia.org/wiki/%E5%AD%A6%E7%94%9Ft-%E5%88%86%E5%B8%83]維基百科[/url]
T的概率密度函式是[img]http://upload.wikimedia.org/math/2/f/1/2f1cbc52ffbbed4d169e95b9e5870383.png[/img]
v 等於n − 1。 T的分佈稱為t-分佈。引數v 一般被稱為自由度。

t分佈 - 特徵
1.以0為中心,左右對稱的單峰分佈;
2.t分佈是一簇曲線,其形態變化與n(確切地說與自由度ν)大小有關。自由度ν越小,t分佈曲線越低平;自由度ν越大,t分佈曲線越接近標準正態分佈(u分佈)曲線
t分佈,在概率統計中,在置信區間估計、顯著性檢驗等問題的計算中發揮重要作用。

set.seed(1000)
x<-seq(-5,5,length.out=1000)
y<-dt(x,1,0)

plot(x,y,col="red",xlim=c(-5,5),ylim=c(0,0.5),type='l',
xaxs="i", yaxs="i",ylab='density',xlab='',
main="The T Density Distribution")

lines(x,dt(x,5,0),col="green")
lines(x,dt(x,5,2),col="blue")
lines(x,dt(x,50,4),col="orange")

legend("topleft",legend=paste("df=",c(1,5,5,50)," ncp=", c(0,0,2,4)), lwd=1, col=c("red", "green","blue","orange"))


結果如下:

[img]http://dl2.iteye.com/upload/attachment/0103/2559/6312c617-5d43-385c-9147-4270b7c31546.jpeg[/img]