1. 程式人生 > >從 高斯 到 正態分佈 到 Z分佈 到 t分佈

從 高斯 到 正態分佈 到 Z分佈 到 t分佈

正態分佈是如何被高斯推匯出來的, 我感覺高斯更像是猜出了正態分佈。

詳見這篇文章:《正態分佈的前世今生》 http://songshuhui.net/archives/76501

說一說理解高斯推導過程中的難點:

1. log函式的出現:log函式的出現能把連乘化為求和方便計算,而且log是一對一的函式,不會損失資訊量(推導中的log即 ln)。

2. 為了求極大似然, 高斯其實做了一個逆向的假設L(θ;x1,x2,x3....xn)在 θ = 所有x的算數平均 處取到最大值,則此時其導數必定為0。

Z分佈的重要依據是正態分佈的可加性。由可加性可以推出n個服從N(μ, σ^2)的隨機變數,他們的平均值服從另一個正態分佈N(μ, (

σ/n)^2)。所以Z分佈的本質就在總體方差已知的情況下去判斷給定樣本的均值是否服從總體均值的正態分佈,通過均值的正態分佈N(μ, (σ/n)^2)來計算 p-value。

明白了Z分佈和Z檢測後,t檢測就不難理解了。上文提到Z檢測的必須以總體方差已知為前提,但是如果樣本很小而總體方差不知道的情況下就不能獲得總體的方差,所以t分佈的概率密度函式pdf其實是一個正態分佈的pdf乘以卡方分佈的pdf,分別表示均值和總體方差,由於卡方分佈有自由度,所以t分佈也有了自由度的概念。

注:卡方分佈表示v個服從同一個正態分佈隨機變數的平方和的概率分佈,v就是自由度,它也可以從方差的角度去作檢測。