1. 程式人生 > >第1章 統計與資料 第2章 資料的描述方法

第1章 統計與資料 第2章 資料的描述方法

  1. 統計的應用可以分為描述統計(即報表)和推斷統計(即預測建模)
  2. 樣本來源於總體,是試驗的產物,變數是每個試驗單元的特徵或屬性
  3. 推斷統計的五要素:總體、變數、樣本、推斷、可靠性
  4. 過程是講輸入轉化為輸出的一系列行動或操作,過程產生的一系列輸出被稱為樣本
  5. 所有資料可以分為定量資料或定性資料
  6. 有代表性的樣本指變數取值可以代表總體特徵的樣本
  7. 獲取有代表性的樣本的方法有:
    1. 簡單隨機抽樣
    2. 分層隨機抽樣
    3. 整群抽樣
  8. A(mn)=n!/(n-m)!;C(mn)=n!/m!(n-m)!
  9. 偏差有選擇偏差、無應答偏差、測量誤差
  1. 類別是指定性資料被分成幾個種類之一;類別頻率是指屬於某個類別的觀測個數;
    1. 類別相對頻率=類別頻率/類別總數
  2. 樣本方差s^2的除數為(n-1)使s^2使總體方差的一個無偏估計量
    1. 在實際應用中,求出樣本方差不是目的,是為了進一步預測總體方差才找出的
    2. 總體方差的除數為總體樣本數
  3. 利用均值和標準差來描述資料集
    1. 切比雪夫法則
    2. 經驗法則:適用於土墩形且對稱的資料集
      1. 大約有68%的觀測值落在總體均值±1*總體標準差的總體範圍內
      2. 大約有95%的觀測值落在總體均值±2*總體標準差的總體範圍內
      3. 大約有99.7%的觀測值落在總體均值±3*總體標準差的總體範圍內
    3. 有時,會用極差/4來得到一個較大的保守的標準差值;前提是土墩形資料
  4. p百分位點:對於升序資料集,第p個百分位點即有p%*N個預測值比它小,其餘比它大
    1. 四分位數即
      1. QL下四分位
      2. QM中位數
      3. QU上四分位
  5. z得分=(x-樣本均值)/樣本標準差
  6. 在資料集中,異常值:
    1. 被錯誤記錄的資料
    2. 來自不同的總體
    3. 來源正確,描述了一個稀有的事件
  7. 常見的檢測異常值的方法
    1. 箱線圖
    2. z得分
  8. 箱線圖基於四分位差:IQR=QU-QL
    1. 上內欄=QU+1.5IQR
    2. 下內欄=QL-1.5IQR
    3. 上外欄=QU+3IQR
    4. 下外欄=QL-3IQR
    5. 落在內欄和外欄之間的觀測值用*表示;在外欄外的用0表示
    6. 其實*即可疑的資料(或z的絕對值>2);0即高度可疑值(或z的絕對值>3)
  9. 隨著時間的推移產生並得到監控的資料即時間序列資料