第1章 統計與資料 第2章 資料的描述方法
阿新 • • 發佈:2018-11-26
- 統計的應用可以分為描述統計(即報表)和推斷統計(即預測建模)
- 樣本來源於總體,是試驗的產物,變數是每個試驗單元的特徵或屬性
- 推斷統計的五要素:總體、變數、樣本、推斷、可靠性
- 過程是講輸入轉化為輸出的一系列行動或操作,過程產生的一系列輸出被稱為樣本
- 所有資料可以分為定量資料或定性資料
- 有代表性的樣本指變數取值可以代表總體特徵的樣本
- 獲取有代表性的樣本的方法有:
- 簡單隨機抽樣
- 分層隨機抽樣
- 整群抽樣
- A(mn)=n!/(n-m)!;C(mn)=n!/m!(n-m)!
- 偏差有選擇偏差、無應答偏差、測量誤差
- 類別是指定性資料被分成幾個種類之一;類別頻率是指屬於某個類別的觀測個數;
- 類別相對頻率=類別頻率/類別總數
- 樣本方差s^2的除數為(n-1)使s^2使總體方差的一個無偏估計量
- 在實際應用中,求出樣本方差不是目的,是為了進一步預測總體方差才找出的
- 總體方差的除數為總體樣本數
- 利用均值和標準差來描述資料集
- 切比雪夫法則
- 經驗法則:適用於土墩形且對稱的資料集
- 大約有68%的觀測值落在總體均值±1*總體標準差的總體範圍內
- 大約有95%的觀測值落在總體均值±2*總體標準差的總體範圍內
- 大約有99.7%的觀測值落在總體均值±3*總體標準差的總體範圍內
- 有時,會用極差/4來得到一個較大的保守的標準差值;前提是土墩形資料
- p百分位點:對於升序資料集,第p個百分位點即有p%*N個預測值比它小,其餘比它大
- 四分位數即
- QL下四分位
- QM中位數
- QU上四分位
- 四分位數即
- z得分=(x-樣本均值)/樣本標準差
- 在資料集中,異常值:
- 被錯誤記錄的資料
- 來自不同的總體
- 來源正確,描述了一個稀有的事件
- 常見的檢測異常值的方法
- 箱線圖
- z得分
- 箱線圖基於四分位差:IQR=QU-QL
- 上內欄=QU+1.5IQR
- 下內欄=QL-1.5IQR
- 上外欄=QU+3IQR
- 下外欄=QL-3IQR
- 落在內欄和外欄之間的觀測值用*表示;在外欄外的用0表示
- 其實*即可疑的資料(或z的絕對值>2);0即高度可疑值(或z的絕對值>3)
- 隨著時間的推移產生並得到監控的資料即時間序列資料