什麼是中心極限定理?這裡有一份視覺化解釋
作者:Mike Freeman
編譯:Bot
編者按:中心極限定理是概率論中的一組重要定理,它的中心思想是無論是什麼分佈的資料,當我們從中抽取相互獨立的隨機樣本,且採集的樣本足夠多時,樣本均值的分佈將收斂於正態分佈。為了幫助更多學生理解這個概念,今天,UW iSchool的教師Mike Freeman製作了一些直觀的視覺化影象,讓不少統計學教授大呼要把它們用在課堂上。
本文旨在儘可能直觀地解釋統計學基礎理論之一——中心極限定理的核心概念。通過下文中的一系列動圖,讀者應該能真正理解這個定理,並從中汲取應用靈感,把它用於決策樹等其他專案。
需要注意的是,這裡我們不會介紹具體推理過程,所以它不涉及定理解釋。
教科書上的中心極限定理
在看視覺化前,我們先來回顧一下統計學課程對中心極限定理的描述。


一個簡單的例子
為了降低這個定理的理解門檻,首先我們來舉個簡單的例子。假設有一個包含100人的團體,他們在某些問題上的意見分佈在0-100之間。如果以視覺化的方式把他們的意見分數表示在水平軸上,我們可以得到下面這幅圖:深色豎線表示所有人意見分數的平均值。

假如你是一名社會科學家,你想知道這個團體的立場特點,並用一些資訊,比如上面的“平均意見得分”來描述他們。但可惜的是,由於時間、資金有限,你沒法一一詢問。這時候,你就可能需要對這100人進行抽樣。比方說,在有限的時間、資金條件內,你可以從中隨機抽取10個人作為自己的採訪物件(n=10),向他們詢問有關特定問題的具體想法:

如你所見,這些樣本的均值可能會和整個團體的總體均值有很大差異。那麼,怎麼取樣才能更可靠呢?
考慮多個樣本
假設我們可以從團體中採集多個樣本。雖然這種做法在現實中是客觀存在的(尤其是在政治民意調查中),但在這裡,我們會更多地將其作為一種解釋工具(當你進行重複取樣時,實際上會有一些意料之外的因素出現)。對於每個樣本,我們在每次取樣時都跟蹤樣本均值與整體平均值的差。
多次重複該過程,我們就能獲得樣本均值的分佈,它通常被稱為樣本均值分佈,或者(更簡單的)抽樣分佈。下面是對100人的團體進行多次抽樣後(每次10人),樣本均值的變化情況:

第一次取樣,樣本均值和總體均值有明顯偏差

可以發現,隨著抽樣次數逐漸增多,總體均值和樣本均值之間的差距正在不斷縮小。這是可以理解的,因為整個過程就相當於從100人中抽取更多樣本。但之前我們也說了,資金、時間是有限的,這沒有解決資源受限的問題,也無法反映人整個團體在特定問題上的立場。
為了瞭解每次計算樣本均值的效果,我們得先看看抽樣分佈的分佈情況。
理解分佈
鑑於上述視覺化影象在分佈上不夠直觀,所以在這裡,我們把原先表示每個意見的圓圈變成方塊,以直方圖的形式展現總體分佈的情況:

顯然,我們的資料分佈並不正常。雖然上圖中有些部分的曲線是符合正態分佈的,但大多數是不符合的,這段曲線沒法幫助我們理解這100個人的習性。相反地,我們可以從樣本均值的分佈情況著手,看看抽樣分佈的變化情況:


隨著取樣數量的增加,取樣分佈在視覺化中形成了一條鐘形曲線,符合正態分佈。如上所述,隨著重複取樣次數的增加,樣本均值(抽樣分佈的平均值)會變得越來越準確。
為什麼重要
當取樣的數量接近無窮大時,我們的抽樣分佈就會近似於正態分佈。這個統計學基礎理論意味著我們能根據個體樣本推斷所有樣本。結合正態分佈的其他知識,我們可以輕鬆計算出給定平均值的值的概率。同樣的,我們也可以根據觀察到的樣本均值估計總體均值的概率。
維基百科對於“中心極限定理”的定義:中心極限定理是概率論中的一組定理。中心極限定理說明,在適當的條件下,大量相互獨立隨機變數的均值經適當標準化後依分佈收斂於正態分佈。
在留言中,美國田納西州範德堡大學的醫學院生物統計學教授Frank Harrell留下了自己的風趣評論:“但是在所有定理中,中心極限定理是最後一個我想教給學生的東西。我想他們得先學好第一堂課,它包括一些設計、資料的意義、資料的穩健性、bootstrap、一些貝葉斯、高精度資料圖等等。”
讀完他的話,是不是覺得即便了解了這個定理,自己要學的東西還是很多呢?
原文地址(提供互動式視覺化,建議去看看): ofollow,noindex">mfviz.com/central-limit/
Github(包含視覺化元件程式碼): github.com/mkfreeman/central-limit