1. 程式人生 > >【統計學】資料描述方法(均值、中位數、眾數、標準差、離差、四分位數)

【統計學】資料描述方法(均值、中位數、眾數、標準差、離差、四分位數)

分佈中心的測量:
    均值:大多數時候所說的平均數,它的定義如下:
        均值=  所有數值的總和 / 所有數值的個數總和

    中位數:分類資料組的中間值(如果資料個數為偶數,則是兩個中間數值和的一半)
    眾數:資料組中出現次數最多的值(或者一組值)

異常值:比幾乎其他所有數字都要 大/小 很多的數值

加權平均值:對變數在數值中重要程度的解釋。每個數值被賦予一個權重,它對應的加權平均值是:
    加權平均值= (數值×對應權重)的總和 / 權重的總和 = ∑(x * w) / ∑w

數值總和=∑x
n表示樣本中數值的總數。
\bar{x} = 樣本均值 = 數值總和/數值總數 = \sum \frac{x}{n}

對稱性(偏態)(圖)


當一個分佈的左半部分與右半部分呈鏡面效果時它就是對稱分佈
當一個分佈的數值大多數分佈在左側時,它就是左偏分佈
當一個分佈的數值大多數分佈在有側時,它就右偏分佈

離散程度:資料組相對於其中心是如何分散的

極差: 最大值與最小值的差值
    極差 = 最大值 - 最小值

四分位數:
下四分位數:(第一四分位數或Q)將資料組最下部的1/4與上部的3/4分開。它是資料組下半部分的中位數。(如果資料組中的資料為奇數個,那麼除去資料組的中間值。)
中間四分位數:(第二四分位數或Q2)是總體的中位數
上四分位數:(第三四分位數或Q)將資料組最下部的3/4與上部的1/4分開。它是資料組上半部分的中位數。(如果資料組中的資料為奇數個,除去資料組的中間值。)

資料組的第n百分位數把資料分為下部的n%和上部的(100-n)%。如果一個數值正好在兩個百分
位數之間,通常說這個數值處於低位的百分位數。可以通過以下公式大致估計任一組資料的百分位數
    百分位數 = 小於該數值的資料個數 /  資料組中資料的總個數 * 100%

計算標準差
第一步,計算資料組的均值。通過對每個數值減去均值得到離差。對於每個數值:
    離差=數值-均值
第二步,求出所有離差的平方值。
第三步,將所有離差的平方值相加。
第四步,用離差的平方和除以數值總數減1
第五步,標準差是上述商的開方。綜上所述,標準差的計算,公式如下:
    標準差= 離差平方和 數值總數-1 開根號


極差經驗法法則:
    極差經驗法則中,標準差與極差的關係為:
        標準差 ≈ 極差/4
    如果知道分佈的極差(極差=最大值-最小值)我們就可以通過這個法則來估計標準差。另一方面,如果知道標準差,我們也可以通過這個法則來估計最大值與最小值,公式如下:
        最小值≈均值-(2×標準差)
        最大值≈均值+(2×標準差)
    當最大值與最小值為異常值時,極差經驗法則不再適用。

離差 = 數值 - 均值 =  x-\bar{x}
離差平方和 =  \sum (x-\bar{x})^2
標準差 = s =  \sqrt{\frac{\sum (x-\bar{x})^2}{n-1}}