1. 程式人生 > >4-3 描述統計學:總體、樣本和誤差,基本統計量(版本:py3)

4-3 描述統計學:總體、樣本和誤差,基本統計量(版本:py3)

相關概念

1.取樣相關概念

  • 總體:研究物件的全體
  • 樣本:從總體中的隨機抽樣
  • 取樣偏差:是由於抽樣過程中沒有達到足夠隨機而產生 
    抽樣的方式會嚴重影響樣本的隨機性,從而影響對總體的預測,抽樣的方法有多種,可以使用一定的方法來減小取樣誤差,然而取樣誤差是無法避免的。

2.誤差:不確定性的某種表示

  • 標準差:使用標準差畫error bar;用於表徵資料分散程度

    • 總體標準差:

    • 樣本標準差:

  • Bootstrap置信區間:用總體統計量的估計區間畫error bar;用於表徵資料的波動範圍 
    • 可重複取樣:抽取的個體仍可參加下次取樣,常用於估計總體統計量的置信區間
    • 如何使用Bootstrap計算置信區間(Quantile演算法):用重取樣的取樣方法,計算統計量並排序,取相應的分位數,作為置信區間的邊界 
      推薦閱讀:如果你有興趣,可以閱讀《An Introduction to the Bootstrap》這本書瞭解更多關於Bootstrap的知識和其他計算置信區間的方法
    • seaborn畫圖引數區別:1)使用標準差繪製error bar:ci=’sd’ 2)使用Bootstrap置信區間畫error bar:ci & n_boot

Error Bar

黑線即為Error Bar,在每一列上的Error Bar 表徵:在給定的置信區間下,統計量的範圍會在黑線內波動。

補充知識

1.取樣方法

抽樣的目的是用樣本推測總體的情況,這也是推斷統計需要的內容,取樣偏差的存在及大小會影響對總體引數的估計,因此對於取樣方法的選擇就尤為重要了 
請閱讀:

  • 隨機抽樣方法整理,瞭解不同的取樣方法,掌握基於分佈、基於累計概率分佈函式、基於不獨立樣本的取樣方法

2.置信區間的定義:

在統計學中,置信區間是指由樣本統計量所構造的總體引數的估計區間。在統計學中,置信區間是一個非常重要的概念。 
請閱讀以下材料,瞭解置信區間的基本概念和置信區間的一個小應用

3.無偏估計

本節視訊列出的總體方差的估計公式是無偏,那麼為什麼要使用無偏估計,無偏估計又有什麼好處呢?請閱讀以下連結,瞭解無偏估計是什麼

統計學的知識是資料分析的基礎,瞭解了概率統計的概念之後,你可以更好的理解這些統計量是怎麼得來的,以及是怎樣反映總體特徵的

擴充套件閱讀

Bootstrap方法

Bootstrap是一種對引數的推斷方法,使用的是重複抽樣的方法,對多次抽樣得到的樣本進行分析,在掌握了Python的基礎知識之後,可以自己編寫程式碼實現,請參考:

抽樣的應用

如果你對抽樣的實際應用還有些模糊,閱讀以下連結,感受抽樣的魅力