4-3 描述統計學:總體、樣本和誤差,基本統計量(版本:py3)
阿新 • • 發佈:2019-02-15
相關概念
1.取樣相關概念
- 總體:研究物件的全體
- 樣本:從總體中的隨機抽樣
- 取樣偏差:是由於抽樣過程中沒有達到足夠隨機而產生
抽樣的方式會嚴重影響樣本的隨機性,從而影響對總體的預測,抽樣的方法有多種,可以使用一定的方法來減小取樣誤差,然而取樣誤差是無法避免的。
2.誤差:不確定性的某種表示
-
標準差:使用標準差畫error bar;用於表徵資料分散程度
-
總體標準差:
-
樣本標準差:
-
- Bootstrap置信區間:用總體統計量的估計區間畫error bar;用於表徵資料的波動範圍
- 可重複取樣:抽取的個體仍可參加下次取樣,常用於估計總體統計量的置信區間
- 如何使用Bootstrap計算置信區間(Quantile演算法):用重取樣的取樣方法,計算統計量並排序,取相應的分位數,作為置信區間的邊界
推薦閱讀:如果你有興趣,可以閱讀《An Introduction to the Bootstrap》這本書瞭解更多關於Bootstrap的知識和其他計算置信區間的方法
- seaborn畫圖引數區別:1)使用標準差繪製error bar:ci=’sd’ 2)使用Bootstrap置信區間畫error bar:ci & n_boot
Error Bar
黑線即為Error Bar,在每一列上的Error Bar 表徵:在給定的置信區間下,統計量的範圍會在黑線內波動。
補充知識
1.取樣方法
抽樣的目的是用樣本推測總體的情況,這也是推斷統計需要的內容,取樣偏差的存在及大小會影響對總體引數的估計,因此對於取樣方法的選擇就尤為重要了
請閱讀:
- 隨機抽樣方法整理,瞭解不同的取樣方法,掌握基於分佈、基於累計概率分佈函式、基於不獨立樣本的取樣方法
2.置信區間的定義:
在統計學中,置信區間是指由樣本統計量所構造的總體引數的估計區間。在統計學中,置信區間是一個非常重要的概念。
請閱讀以下材料,瞭解置信區間的基本概念和置信區間的一個小應用
3.無偏估計
本節視訊列出的總體方差的估計公式是無偏,那麼為什麼要使用無偏估計,無偏估計又有什麼好處呢?請閱讀以下連結,瞭解無偏估計是什麼
統計學的知識是資料分析的基礎,瞭解了概率統計的概念之後,你可以更好的理解這些統計量是怎麼得來的,以及是怎樣反映總體特徵的
擴充套件閱讀
Bootstrap方法
Bootstrap是一種對引數的推斷方法,使用的是重複抽樣的方法,對多次抽樣得到的樣本進行分析,在掌握了Python的基礎知識之後,可以自己編寫程式碼實現,請參考:
抽樣的應用
如果你對抽樣的實際應用還有些模糊,閱讀以下連結,感受抽樣的魅力