1. 程式人生 > >正態分佈的前世今生(貳)

正態分佈的前世今生(貳)

6. 開疆拓土,正態分佈的進一步發展

19世紀初,隨著拉普拉斯中心極限定理的建立與高斯正態誤差理論的問世,正態分佈開始嶄露頭角,逐步在近代概率論和數理統計學中大放異彩。在概率論中,由於拉普拉斯的推動,中心極限定理髮展成為現代概率論的一塊基石。而在數理統計學中,在高斯的大力提倡之下,正態分佈開始逐步暢行於天下。

6.1 論劍中心極限定理

先來說說正態分佈在概率論中的地位,這個主要是由於中心極限定理的影響。 1776 年,拉普拉斯開始考慮一個天文學中的彗星軌道的傾角的計算問題,最終的問題涉及獨立隨機變數求和的概率計算,也就是計算如下的概率值

Sn=X1+X2++X
n

P(a<Sn<b)=?

在這個問題的處理上,拉普拉斯充分展示了其深厚的數學分析功底和高超的概率計算技巧,他首次引入了特徵函式(也就是對概率密度函式做傅立葉變換)來處理概率分佈的神妙方法,而這一方法經過幾代概率學家的發展,在現代概率論裡面佔有極其重要的位置。基於這一分析方法,拉普拉斯通過近似計算,在他的1812年發表的名著《概率分析理論》中給出了中心極限定理的一般描述:

定理:[拉普拉斯, 1812]  ei(i=1,n) 為獨立同分布的測量誤差,具有均值μ 和方差 σ2。如果 λ1,,λ2 為常數, a>0, 則有

P
i=1nλi(eiμ)
ai=1nλ2i
22πσa0ex22σ2dx.

這已經是比棣莫弗-拉普拉斯中心極限定理更加深刻的一個結論了,理科專業的本科生學習《概率論與數理統計》這門課程的時候,通常學習的中心極限定理的一般形式如下:

[林德伯格-列維 中心極限定理] 設X1,,Xn 獨立同分布,且具有有限的均值 μ 和方差 σ2 ,則在 n 時,有

n(X¯¯¯μ)σN(0,1).

多麼奇妙的性質,隨意的一個概率分佈中生成的隨機變數,在序列和(或者等價的求算術平均)的操作之下,表現出如此一致的行為,統一的規約到正態分佈。

central_limit_theorem中心極限定理

概率學家們進一步的研究結果更加令人驚訝,序列求和最終要匯出正態分佈的條件並不需要這麼苛刻,即便 X1,,Xn 並不獨立,也不具有相同的概率分佈形式,很多時候他們求和的最終的歸宿仍然是正態分佈。一切的紛繁蕪雜都在神祕的正態曲線下被消解,這不禁令人浮想聯翩。中心極限定理恐怕是概率論中最具有宗教神祕色彩的定理,如果有一位牧師拿著一本聖經向我證明上帝的存在,我是絲毫不會買賬;可是如果他向我展示中心極限定理並且聲稱那是神蹟,我可能會有點猶豫,從而樂意傾聽他的佈道。如果我能坐著時光機穿越到一個原始部落中,我也一定帶上中心極限定理,並勸說部落的酋長把正態分佈作為他們的圖騰。

中心極限定理雖然表述形式簡潔,但是嚴格證明它卻非常困難。中心極限定理就像一張大蜘蛛網,棣莫弗和拉普拉斯編織了它的雛形,可是這張網上漏洞太多,一個多世紀來,數學家們就像蜘蛛一樣前赴後繼,努力想把所有的漏洞都補上。在19世紀,泊松 (Siméon Denis Poisson, 1781-1840)、狄利克萊(Gustav Lejeune Dirichlet, 1805-1859)、柯西(Augustin-Louis Cauchy, 1789-1857)、貝塞爾(Friedrich Bessel, 1784-1846)這些大蜘蛛都曾經試圖對把這張網上的漏洞補上。從現代概率論的角度來看,整個19世紀的經典概率理論並沒有能輸出一個一般意義下嚴格的證明。而真正把漏洞補上的是來自俄羅斯的幾位蜘蛛俠:切比雪夫(Pafnuty Chebyshev, 1821-1894)、馬爾可夫(Andrey Andreyevich Markov, 1856-1922)和李雅普諾夫(Aleksandr Mikhailovich Lyapunov, 1857-1918)。俄羅斯是一個具有優秀的數學傳統的民族,產生過幾位頂尖的的數學家,在現代概率論的發展中,俄羅斯的聖彼得堡學派可以算是頂了半邊天。把漏洞補上的嚴格方案的雛形是從切比雪夫 1887年的工作開始的,不過切比雪夫的證明存在一些漏洞。馬爾可夫和李雅普諾夫都是切比雪夫的學生,馬爾科夫沿著老師的基於矩法的思路在蜘蛛網上辛勤編織,但洞還是補得不夠嚴實;李雅普諾夫不像馬爾可夫那樣深受老師的影響,他沿著拉普拉斯當年提出的基於特徵函式的思路,於1901年給出了一個補洞的方法,切比雪夫對這個方法大加讚賞,李雅普諾夫的證明被認為是第一個在一般條件下的嚴格證明;而馬爾科夫也不甘示弱,在 1913年基於矩法也把洞給補嚴實了。

clt_proof華山論劍

20世紀初期到中期,中心極限定理的研究幾乎吸引了所有的概率學家,這個定理儼然成為了概率論的明珠,成為了各大概率論武林高手華山論劍的場所。不知道大家對中心極限定理中的“中心”一詞如何理解,許多人都認為“中心”這個詞描述的是這個定理的行為:以正態分佈為中心。這個解釋看起來確實合情合理,不過並不符合該定理被冠名的歷史。事實上,20世紀初概率學家大都稱呼該定理為極限定理(Limit Theorem),由於該定理在概率論中處於如此重要的中心位置,如此之多的概率學武林高手為它魂牽夢繞,於是數學家波利亞於1920年在該定理前面冠以“中心”一詞,由此後續人們都稱之為中心極限定理。

數學家們總是極其嚴謹苛刻的,給定了一個條件下嚴格證明了中心極限定理。數學家就開始探尋中心極限定理成立的各種條件,詢問這個條件是否充分必要條件,並且進一步追問序列和在該條件下以什麼樣的速度收斂到正態分佈。1922年林德伯格(Jarl Waldemar Lindeberg, 1876-1932) 基於一個比較寬泛容易滿足的條件,給中心極限定理提出了一個很容易理解的初等證明,這個條件我們現在稱之為林德伯格條件。然後概率學家費勒 (William Feller, 1906-1970) 和列維就開始追問林德伯格 條件是充分必要的嗎?基於林德伯格的工作, 費勒和列維都於 1935 年獨立的得到了中心極限定理成立的充分必要條件,這個條件可以用直觀的非數學語言描述如下:

[中心極限定理充要條件] 假設獨立隨機變數序列 Xi 的中值為0, 要使序列和 S=i=1nXi 的分佈密度函式逼近正態分佈,以下條件是充分必要的

  • 如果 Xi相對於序列和S的散佈(也就是標準差)是不可忽略的,則 Xi 的分佈必須接近正態分佈
  • 對於所有可忽略的 Xi, 取絕對值最大的那一項,這個絕對值相對於序列和也是可忽略的

事實上這個充分必要條件發現的優先權,費勒和列維之間還著實出現了一些爭論,當然他們倆都是獨立的幾乎在同一時間解決了這個問題。在列維證明這個充分必要條件的過程中,列維發現了正態分佈的一個有趣的性質:我們在數理統計中都學過,如果兩個獨立隨機變數 X,Y 具有正態分佈,則S=X+Y 也具有正態分佈;奇妙的是這個定理的逆定理也成立:

[正態分佈的血統] 如果 X,Y 是獨立的隨機變數,且 S=X+Y 是正態分佈,那麼 X,Y 也是正態分佈。

正態分佈真是很奇妙,就像蚯蚓一樣具有再生的性質,你把它一刀兩斷,它生成兩個正態分佈;或者說正態分佈具有極其高貴的優良血統,正態分佈的組成成分中只能包含正態分佈,而不可能含有其它雜質。一流的數學家都是接近上帝的人,善於猜測上帝的意圖; 1928 年 列維就猜到了這個定理,並在1935年使用這個定理對中心極限定理的充分必要條件作了證明。有意思的是列維卻無法證明正態分佈的這個看上去極其簡單的再生性質,所以他的證明多少讓人覺得有些瑕疵。不過列維的救星很快就降臨了,1936 年概率學家克拉美(Harald Cramér, 1893-1985)證明列維的猜想完全正確。

中心極限定理成為了現代概率論中首屈一指的定理,事實上中心極限定理在現代概率論裡面已經不是指一個定理,而是指一系列相關的定理。統計學家們也基於該定理不斷的完善拉普拉斯提出的元誤差理論,並據此解釋為何世界上正態分佈如此常見。而中心極限定理同時成為了現代統計學中大樣本理論的基礎。

6.2 進軍近代統計學

花開兩朵,各表一枝。上面說了正態分佈在概率論中的發展,現在來看看正態分佈在數理統計學中發展的故事。這個故事的領銜主演是凱特勒(Adolphe Quetelet, 1796-1874)和高爾頓 (Francis Galton, 1822-1911)。

galton_quetelet凱特勒和高爾頓

由於高斯的工作,正態分佈在誤差分析中迅速確定了自己的地位。有了這麼好的工具,我們可能拍腦袋就認為,正態分佈很快就被人們用來分析其它的資料,然而事實卻出乎我們的意料,正態分佈進入社會領域和自然科學領域,可是經過一番周折的。

首先我要告訴大家一個事實:誤差分析和統計學是風馬牛不相及的兩個學科;當然這個事實存在的時間是19世紀初之前。統計學的產生最初是與“編制國情報告”有關,主要服務於政府部門。統計學面對的是統計資料,是對多個不同物件的測量;而誤差分析研究的是觀測資料,是對同一個物件的多次測量。因此觀測資料和統計資料在當時被認為是兩種不同行為獲取得到的資料,適用於觀測資料的規律未必適用於統計資料。 19世紀的統計資料分析處於一個很落後的狀態,和概率論沒有多少結合。概率論的產生主要和賭博相關,發展過程中與誤差分析緊密聯絡,而與當時的統計學交集非常小。將統計學與概率論真正結合起來推動數理統計學發展的便是我們的統計學巨星凱特勒。

凱特勒這名字或許不如其它數學家那麼響亮,估計很多人不熟悉,所以有必要介紹一下。 凱特勒是比利時人,數學博士畢業,年輕的時候曾追隨拉普拉斯學習過概率論。此人學識淵博,涉獵廣泛,腦門上的桂冠包括統計學家、數學家、天文學家、社會學家、國際統計會議之父、近代統計學之父、數理統計學派創始人。 凱特勒 的最大的貢獻就是將法國的古典概率理論引入統計學,用純數學的方法對社會現象進行研究。

1831年,凱特勒參與主持新建比利時統計總局的工作。他開始從事有關人口問題的統計學研究。在這種研究中,凱特勒發現,以往被人們認為雜亂無章的、偶然性佔統治地位的社會現象,如同自然現象一樣也具有一定的規律性。 凱特勒 蒐集了大量關於人體生理測量的資料,如體重、身高與胸圍等,並使用概率統計方法來對資料進行資料分析。但是當時的統計分析方法遭到了社會學家的質疑,社會學家們的反對意見主要在於:社會問題與科學實驗不同,其資料一般由觀察得到,無法控制且經常不瞭解其異質因素,這樣資料的同質性連帶其分析結果往往就有了問題,於是社會統計工作者就面臨一個如何判斷資料同質性的問題。凱特勒大膽地提出:

normal_fitness把一批資料是否能很好地擬合正態分佈,作為判斷該批資料同質的標準。

凱特勒提出了一個使用正態曲線擬合資料的方法,並廣泛的使用正態分佈去擬合各種型別的資料。由此, 凱特勒為正態分佈的應用拓展了廣闊的舞臺。正態分佈如同一把屠龍刀,在凱特勒 的帶領下,學者們揮舞著這把寶刀在各個領域披荊斬棘,攻陷了人口、領土、政治、農業、工業、商業、道德等社會領域,並進一步攻佔天文學、數學、物理學、生物學、社會統計學及氣象學等自然科學領域。

正態分佈的下一個推動力來自生物學家高爾頓,當正態分佈與生物學聯姻時,近代統計學迎來了一次大發展。高爾頓是生物統計學派的奠基人,他的表哥達爾文的鉅著《物種起源》問世以後,觸動他用統計方法研究遺傳進化問題。受凱特勒的啟發,他對正態分佈懷有濃厚的興趣,開始使用正態分佈去擬合人的身高、胸圍、以至考試成績等各類資料,發現正態分佈擬合得非常好。他因此相信正態曲線是適用於無數情況的一般法則。

然而,對高爾頓而言,這個無處不在的正態性給他帶來一些困惑。他考察了親子兩代的身高資料,發現遵從同一的正態分佈,遺傳作為一個顯著因素是如何發揮作用的?1877年,高爾頓設計了一個叫高爾頓釘板(quincunx, 或者Galton board)的裝置,模擬正態分佈的性質,用於解釋遺傳現象。

如下圖中每一點表示釘在板上的一顆釘子,它們彼此的距離均相等。當小圓球向下降落過程中,碰到釘子後皆以 1/2 的概率向左或向右滾下。如果有n排釘子,則各槽內最終球的個數服從二項分佈 B(n,1/2), 當n 較大的時候,接近正態分佈。

galton_quincunx高爾頓釘板

設想在此裝置的中間某個地方 AB 設一個擋板把小球截住,小球將在AB處聚成正態曲線形狀,如果擋板上有許多閥門,開啟一些閥門,則在底部形成多個大小不一的正態分佈,而最終的大正態分佈正是這些小正態分佈的混合。

galton_quincunx3高爾頓釘板解釋遺傳現象

高爾頓利用這個裝置創造性的把正態分佈的性質用於解釋遺傳現象。他解釋說身高受到顯著因素和其它較小因素的影響,每個因素的影響可以表達為一個正態分佈。遺傳作為一個顯著因素,類似圖中底部大小不一的正態分佈中的比較大的正態分佈,而多個大小不一正態分佈累加之後其結果仍然得到一個正態分佈。

高爾頓在研究身高的遺傳效應的時候,同時發現一個奇特的現象:高個子父母的子女,其身高有低於其父母身高的趨勢,而矮個子父母的子女,其身高有高於其父母的趨勢,即有“迴歸”到普通人平均身高去的趨勢,這也是“迴歸”一詞最早的含義。高爾頓用二維正態分佈去擬合父代和子代身高的資料,同時引進了迴歸直線、相關係數的概念,從而開創了迴歸分析這門技術。

可以說,高爾頓是用統計方法研究生物學的第一人,他用實際行動開拓了凱特勒的思想;為數理統計學的產生奠定了基礎。無論是 凱特勒 還是高爾頓,他們的統計分析工作都是以正態分佈為中心的,在他們的影響下,正態分佈獲得了普遍認可和廣泛應用,甚至是被濫用,以至有些學者認為19世紀是正態分佈在統計學中佔統治地位的時代。

6.3 數理統計三劍客

最後,我們來到了20世紀,正態分佈的命運如何呢?如果說19世紀是正態分佈在統計學中獨領風騷的話,20世紀則是數理統計學蓬勃發展、百花齊放的時代。 1901年,高爾頓和他的學生卡爾.皮爾遜(Karl Pearson, 1857-1936)、韋爾登(Walter Frank Raphael Weldon, 1860-1906) 創辦《生物計量 (Biometrika)》雜誌,成為生物統計學派的一面旗幟,引導了現代數理統計學的大發展。統計學的重心逐漸由歐洲大陸向英國轉移,使英國在以後幾十年數理統計學發展的黃金時代充當了領頭羊。

在20世紀以前,統計學所處理的資料一般都是大量的、自然採集的,所用的方法以拉普拉斯中心極限定理為依據,總是歸結到正態。到了19世紀末期,資料與正態擬合不好的情況也日漸為人們所注意:進入20世紀之後,人工試驗條件下所得資料的統計分析問題,逐漸被人們所重視。由於試驗資料量有限,那種依賴於近似正態分佈的傳統方法開始招致質疑,這促使人們研究這種情況下正確的統計方法問題。

在這個背景之下,統計學三大分佈χ2分佈、t分佈、F分佈逐步登上歷史舞臺。這三大分佈現在的理科本科生都很熟悉。在歷史上,這三個分佈和來自英國的現代數理統計學的三大劍客有著密切的關係。

three-swords數理統計三劍客

第一位劍客就是卡爾.皮爾遜,手中的寶劍就是χ2分佈。 χ2 分佈這把寶劍最早的鍛造者其實是物理學家麥克斯韋,他在推導空氣分子的運動速度的分佈的時候,發現分子速度在三個座標軸上的分量是正態分佈,而分子運動速度的平方

相關推薦

分佈前世今生

6. 開疆拓土,正態分佈的進一步發展 19世紀初,隨著拉普拉斯中心極限定理的建立與高斯正態誤差理論的問世,正態分佈開始嶄露頭角,逐步在近代概率論和數理統計學中大放異彩。在概率論中,由於拉普拉斯的推動,中心極限定理髮展成為現代概率論的一塊基石。而在數理統計學中,在高斯的大力提倡之下,正態分佈開始逐

分佈前世今生

也非常具有數學的美感。其標準化後的概率密度函式 更加的簡潔漂亮,兩個最重要的數學常量 π、e 都出現在這公式之中。在我個人的審美之中,它也屬於 top-N 的最美麗的數學公式之一,如果有人問我數理統計領域哪個公式最能讓人感覺到上帝的存在,那我一定投正態分佈的票。因為這個分佈戴著神祕的面紗

Excel圖表—標準分佈概率分佈圖概率密度函式圖及累積概率分佈圖的繪製

看似很簡單的一張Excel圖表,實際上也花了10多分鐘。這對於已經習慣了Spotfire這種資料視覺化軟體的我而言是不能接受的。 不過,功夫不負有心人,總算是畫出了教科書上的效果。 以下是一點小創新,如果提高資料粒度(資料粒度能夠滿足業務要求),有些問題的答案將一目瞭然

TWaver可視化編輯器的前世今生電力 雲計算 數據中心

變電站 fontsize 復雜 部署 ood 配置信息 來看 tar 右鍵 插播一則廣告(長期有效) TWaver需要在武漢招JavaScript工程師若幹 要求:對前端技術(JavasScript、HTML、CSS),對可視化技術(Canvas、WebGL)有濃厚的興

SQLMap的前世今生Part1

節點 如何 所在 having image character mysql 最大 格式 http://www.freebuf.com/sectool/77948.html 一、前言 談到SQL註入,第一時間就會想到神器SQLMAP,SQLMap是一款用來檢測與利用的SQ

java中字元與字串的前世今生

Unicode碼錶 在介紹char型別之前我們先介紹一下Unicode.以下是百度百科給出的解釋: Unicode(統一碼、萬國碼、單一碼)是電腦科學領域裡的一項業界標準,包括字符集、編碼方案等。Unicode 是為了解決傳統的字元編碼方案的侷限而產生的,它為

DevOps的前世今生2Dev和Ops矛盾緣何而來 ?

本文經授權轉載簡書作者:顧宇 原文:http://www.jianshu.com/p/c6573e63c752 前言 在#DevOps的前世今生# 1. DevOps編年史一文中,通過追溯 DevOps 活動產生的歷史起源,我們發現了 DevOps 是敏捷思想從軟體開發端(Dev)到系統維護端(O

DevOps的前世今生3 DevOps的目標和手段

本文經授權轉載簡書作者:顧宇 原文:http://www.jianshu.com/p/c6573e63c752 前言 在#DevOps的前世今生# 2. Dev和Ops矛盾緣何而來 ?一文中,通過Dev和Ops的歷史發展總結出了Dev和Ops矛盾的歷史淵源,以及 Dev 和 Ops 的核心矛盾:

DevOps的前世今生1DevOps編年史

本文經授權轉載簡書作者:顧宇 原文:http://www.jianshu.com/p/c6573e63c752 Time 1:2007 年 比利時,一個沮喪的獨立IT諮詢師 DevOps 的歷史要從一個比利時的獨立IT諮詢師說起。這位諮詢師的名字叫做Patrick Debois,他喜歡從各個角

【深度學習】Inception的前世今生--GoogLeNet

在2014年ILSVRC比賽上,GoogleNet 用了僅僅是AlexNet的12%的引數量,卻拿到了分類top-5的第一名。在之前的深度學習網路的設計中,會存在兩個重要缺陷: 1) 更深更寬的網路模型會產生巨量引數 2) 網路規模的加大會極大的增加計算

【深度學習】Inception的前世今生--Inception V3

論文題目:《Rethinking the Inception Architecture for Computer Vision》 論文連結:https://arxiv.org/abs/1512.00567 自從2014年GoogLeNet在ImageNet上

垃圾回收算法的前世今生

如果 內存回收 碎片 新生代 大片 全面 堆區 邊界 垃圾回收 1.引用計數法(java未采用) 2.標記-清除算發(jvm老年回收) 3.標記-壓縮算發(jvm老年回收) 4.復制算法(jvm新生代回收) 標記-清除算法 標記-清掃式垃圾回收器是一種直接的

圖像語義分割的前世今生轉載良心之作

解釋 運行 明顯 視覺 缺點 事情 img 裏的 deep    1998年以來,人工神經網絡識別技術已經引起了廣泛的關註,並且應用

分佈normal distribution與偏分佈skewed distribution

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

R語言實戰--隨機產生服從不同分佈函式的資料分佈,泊松分佈,並將資料寫入資料框儲存到硬碟

隨機產生服從不同分佈的資料 均勻分佈——runif() > x1=round(runif(100,min=80,max=100)) > x1 [1] 93 100 98 98 92 98 98 89 90 98 100 89

20.方差/標準差/數學期望/分佈/高斯函式數學篇--- OpenCV從零開始到影象人臉 + 物體識別系列

本文作者:小嗷 微信公眾號:aoxiaoji 吹比QQ群:736854977 本文你會找到以下問題的答案: 方差 標準差 數學期望 正態分佈 高斯函式 2.1 方差 方差描述隨機變數對於數學期望的偏離程度。(隨機變數可以

C#產生分佈、泊松分佈、指數分佈、負指數分佈隨機數原創

http://blog.sina.com.cn/s/blog_76c31b8e0100qskf.html 在程式設計過程中,由於資料模擬模擬的需要,我們經常需要產生一些隨機數,在C#中,產生一般隨機數用Random即可,但是,若要產生服從特定分佈的隨機數,就需要一定的演

C++生成隨機數:高斯/分佈gaussian/normal distribution

常用的成熟的生成高斯分佈隨機數序列的方法由Marsaglia和Bray在1964年提出,C++版本如下: #include <stdlib.h> #include <math.h> double gaussrand() { static double V1, V2, S

分佈Normal distribution與高斯分佈Gaussian distribution

正態分佈(Normal distribution)又名高斯分佈(Gaussian distribution),是一個在數學、物理及工程等領域都非常重要的概率分佈,在統計學的許多方面有著重大的影響力。 若隨機變數X服從一個數學期望為μ、標準方差為σ2的高斯分佈,記為: X

【程式設計師眼中的統計學7分佈的運用:之美

作者 白寧超 2015年10月15日18:30:07 摘要:程式設計師眼中的統計學系列是作者和團隊共同學習筆記的整理。首先提到統計學,很多人認為是經濟學或者數學的專利,與計算機並沒有交集。誠然在傳統學科中,其在以上學科發揮作用很大。然而隨著科學技術的發展和機器智慧的普及,統計學在機器智慧中的作用越來