描述統計學、推斷統計學、假設檢驗、計算person相關係數

阿新 • • 發佈：2019-02-18

'''
描述統計學
–集中趨勢
–離散趨勢
–偏態
假設檢驗
–基本原理
–基本概率

統計學可以分為：描述統計學與推斷統計學
描述統計學：使用特定的數字或圖表來體現資料的集中程度和離散程度。例：每次考試算的平均分，最高分，各個分段的人數分佈等，也是屬於描述統計學的範圍。
推斷統計學：根據樣本資料推斷總體資料特徵。例：產品質量檢查，一般採用抽檢，根據所抽樣本的質量合格率作為總體的質量合格率的一個估計。
應用：統計學的應用十分廣泛，可以說，只要有資料，就有統計學的用武之地。目前比較熱門的應用：經濟學，醫學，心理學等。

'''

# -*- coding: utf-8 -*-
from pandas import Series, DataFrame
import numpy as np
import math
import matplotlib.pyplot as plt

a=[98,83,65,72,79,76,75,94,91,77,63,83,89,69,64,78,63,86,91,72,71,72,70,80,65,70,62,74,71,76]

print( np.mean(a) ) # 75.9666666667
print( np.sort(a) )  
# [62 63 63 64 65 65 69 70 70 71 71 72 72 72 74 75 76 76 77 78 79 80 83 83 86 89 91 91 94 98]
print( np.sort(a)[14:16] )  # 包含起始位置、不包括結束位置  [74 75]
print( np.mean(np.sort(a)[14:16]) )  # 74.5

#眾數——資料中出現次數最多的數（所佔比例最大的數）
def get_mode(arr):
    mode = [];  
    arr_appear = dict((a, arr.count(a)) for a in arr);  # 統計各個元素出現的次數  
    if max(arr_appear.values()) == 1:
        return; 
    else:
        for k, v in arr_appear.items():  # 出現次數最多的數，就是眾數  
            if v == max(arr_appear.values()):  
                mode.append(k);
    return mode;

print( get_mode(a) );  # [72]
print( np.var(a) );  # 方差 93.2988888889
print( np.std(a) );  # 計算矩陣標準差 9.65913499693

a=Series(a)

print( a.skew() )  # 計算偏斜度  0.574289187335

print( a.kurt() )   # -0.428723747954

'''
偏度和峰度都是統計量 
一階矩是隨機變數的期望，二階矩是隨機變數平方的期望
偏度Skewness(三階) ——三階中心距除以標準差的三次方
峰度Kurtosis (四階) —— 概率密度在均值處峰值高低的特徵，常定義四階中心矩除以方差的平方，減去三；
'''

print( a.describe() ) # 描述
'''
count    30.000000
mean     75.966667
std       9.824260
min      62.000000
25%      70.000000
50%      74.500000
75%      82.250000
max      98.000000
dtype: float64
'''

df = DataFrame({'data1' : np.random.randn(5),
                'data2' : np.random.randn(5)})
print( df.cov() ) # E[(X-E(X))(Y-E(Y))]稱為隨機變數X和Y的協方差，記作COV(X，Y)，即COV(X，Y)=E[(X-E(X))(Y-E(Y))^T]
print( df.corr() )

###假設檢驗
'''
假設檢驗
基本思想
–小概率思想
–反證法思想
零假設與備擇假設——無罪推定原理
兩類錯誤
–第一類錯誤
–第二類錯誤

假設檢驗的基本步驟
1. 提出零假設
2. 建立檢驗統計量
3. 確定否定域/計算p-value
4. 得出結論

'''
from scipy import stats as ss
df=DataFrame({'data':[10.1,10,9.8,10.5,9.7,10.1,9.9,10.2,10.3,9.9]})
ss.ttest_1samp(a = df, popmean = 10)


print( ' ################################################# ' )

#計算person相關係數
a = np.array([[1, 1, 2, 2, 3],  
       [2, 2, 3, 3, 5],  
       [1, 4, 2, 2, 3]])   

# 可計算行與行之間的相關係數，np.corrcoef(a,rowvar=0)用於計算各列之間的相關係數，輸出為相關係數矩陣。
print( np.corrcoef(a) ) 
'''
[[ 1.      0.9759  0.1048]
 [ 0.9759  1.      0.179 ]
 [ 0.1048  0.179   1.    ]]
'''
print( np.corrcoef(a,rowvar=0) )  
'''
[[ 1.    -0.189  1.     1.     1.   ]
 [-0.189  1.    -0.189 -0.189 -0.189]
 [ 1.    -0.189  1.     1.     1.   ]
 [ 1.    -0.189  1.     1.     1.   ]
 [ 1.    -0.189  1.     1.     1.   ]]
'''

print( np.corrcoef(a)*0.5+0.5 ) #相關係數矩陣的值域由[-1,1]對映為[0,1]
'''
[[ 1.      0.988   0.5524]
 [ 0.988   1.      0.5895]
 [ 0.5524  0.5895  1.    ]]
'''

print( ' ################################################# ' )


def calc(data):
    n = len(data)
    niu = 0.0
    niu2 = 0.0
    niu3 = 0.0
    for a in data:
        niu += a
        niu2 += a**2
        niu3 += a**3
    niu/= n   #這是求E(X)
    niu2 /= n #這是E(X^2)
    niu3 /= n #這是E(X^3)
    sigma = math.sqrt(niu2 - niu*niu) #這是D（X）的開方，標準差
    return [niu,sigma,niu3] #返回[E（X）,標準差，E（X^3）]

def calc_stat(data):
    [niu,sigma,niu3] = calc(data)
    n = len(data)
    niu4 = 0.0
    for a in data:
        a -= niu
        niu4 += a ** 4
    niu4 /= n   
    skew = (niu3 - 3*niu*sigma**2 - niu**3)/(sigma**3)
    kurt =  niu4/(sigma**2)
    return [niu,sigma,skew,kurt] #返回了均值，標準差，偏度，峰度

if __name__ == "__main__":
    data = list(np.random.randn(10000))#關於此處的陣列與列表
    data2 = list(2*np.random.randn(10000))
    data3 = [x for x in data if x> -0.5]
    data4 = list(np.random.uniform(0,4,10000))
    [niu,sigma,skew,kurt] = calc_stat(data)
    [niu2,sigma2,skew2,kurt2] = calc_stat(data2)
    [niu3,sigma3,skew3,kurt3] = calc_stat(data3)
    [niu4,sigma4,skew4,kurt4] = calc_stat(data4)
    
    print (niu,sigma,skew,kurt)
    print (niu2,sigma2,skew2,kurt2)
    print (niu3,sigma3,skew3,kurt3)
    print (niu4,sigma4,skew4,kurt4)

    info = r'$\mu=%.2f,\ \sigma=%.2f,\ skew=%.2f,\ kurt=%.2f$'%(niu,sigma,skew,kurt)
    info2 = r'$\mu=%.2f,\ \sigma=%.2f,\ skew=%.2f,\ kurt=%.2f$'%(niu2,sigma2,skew2,kurt2)
    plt.text(1,0.38,info,bbox=dict(facecolor='red',alpha=0.25))
    plt.text(1,0.35,info2,bbox=dict(facecolor='green',alpha=0.25))
    #plt.text(x的位置，y的位置，面板內寫的資訊，標籤框的屬性=dict（facecolor='面板顏色'，alpha='深淺度'）)
    plt.hist(data,50,normed=True,facecolor='r',alpha=0.9)
    #hist直方圖/箱式圖(
    #將data中的元素分到50個等間隔的範圍內，返回每個範圍內元素的個數作為一個行向量，
    #50代表要分的元素的個數
    #
    #facecolor,alpha都是代表顏色的)
    plt.hist(data2,80,normed=True,facecolor='g',alpha = 0.8)
    plt.grid(True)
    plt.show()

描述統計學、推斷統計學、假設檢驗、計算person相關係數

''' 描述統計學 –集中趨勢 –離散趨勢 –偏態 假設檢驗 –基本原理 –基本概率統計學可以分為：描述統計學與推斷統計學 描述統計學：使用特定的數字或圖表來體現資料的集中程度和離散程度。例：每次考試算的平均分，最高分，各個分段的人數分佈等，也是屬於描述統計學的範圍

Android----獲得當前應用包名、當前activity的名字、推斷是否是系統桌面、service類

owin agen gac arr ddc add gets small cli 1、獲得當前應用包名 public static String getRunningActivityName(Context context) { ActivityManager acti

統計學常用概念：T檢驗、F檢驗、卡方檢驗、P值、自由度

1,T檢驗和F檢驗的由來一般而言，為了確定從樣本(sample)統計結果推論至總體時所犯錯的概率，我們會利用統計學家所開發的一些統計方法，進行統計檢定。通過把所得到的統計檢定值，與統計學家建立了一些隨機變數的概率分佈(probability distribution)進

統計學--假設檢驗過程

假設檢驗原理基礎：小概率原理，即一般認為小概率事件在一次隨機抽樣中不會發生。基本思想：先建立一個關於樣本所屬總體的假設，考察在假設條件下隨機樣本的特徵資訊是否屬小概率事件，若為小概率事件，則懷疑

電腦科學採用訓練資料集，驗證資料集，測試資料集的方法為什麼不採用統計學中常用的假設檢驗呢？（引數檢驗和非引數檢驗）

如題所說，這個問題作為一個本科讀管理，碩士讀計算機卻旁修經濟學，博士在讀計算機的我來說感覺比較迷惑的。在管理學，經濟學，計算機這三門學科在解決優化問題的時候採用的方法大致相同，其核心都是統計學，管理學，電腦科學中採用的基礎方法，如線性迴歸，多元線性迴歸，廣義線性迴歸，決策樹，SVM,ID3,KNN等分類方法

資料探勘基礎之統計學的假設檢驗實驗

本部落格根據非常好的excel資料而編寫，使用python語言操作，預計使用一週的時間更新完成。需要《非常好的excel資料》word文件，歡迎發郵件給[email protected]，免費發放。這篇部落格對應《非常好的excel資料》裡的第3章節。 1.假設檢驗實驗 1

從線性模型到廣義線性模型(2)——引數估計、假設檢驗

本文系轉載，原文連結：http://cos.name/2011/01/how-does-glm-generalize-lm-fit-and-test/ 1.GLM引數估計——極大似然法為了理論上簡化，這裡把GLM的分佈限定在指數分佈族。事實上，實際應用中

統計學3—假設檢驗

文章目錄假設檢驗步驟 Z 統計量與t 統計量 I型錯誤和II型錯誤隨機變數之差的方差樣本均值之差的分佈總體佔比置信區間假設檢驗步驟確定要進行襝驗的假設原假設

應用統計學與R語言實現學習筆記（六）——假設檢驗

Chapter 6 Hypothesis Test 本篇是第6章，內容是假設檢驗。 1.基本思想我們還是從問題開始討論。這回提個接地氣的問題——雄安新區批覆前後對該地區房價是否有差異？嗯，假設檢驗其實就是為了解決這類問題。假設檢驗的基本

【程式設計師眼中的統計學（6）】幾何分佈、二項分佈及泊松分佈：堅持離散

/** * 在n次伯努利試驗中，試驗r次才得到第一次成功的機率 P(X=r)=pq^{r-1} * @param p double型保留一位小數，表示成功的概率 * @param q double型保留一位小數，表示失敗的概率即1-p * @param r 整型，實驗次數 *

統計學假設檢驗(Hypothesis Testing)

什麼是假設檢驗：通過設定一個假設，然後通過收集資料、計算等操作來判斷這個假設是否成立。假設檢驗的步驟： 1. 設定 null hypothesis 和 alternative hypothe

統計學的假設檢驗

1.什麼是假設檢驗？假設檢驗是一種規則，它根據資料樣本所提供的證據，指定是肯定還是否定有關總體的宣告。基本原理是先對總體的特徵作出某種假設，然後通過抽樣研究的統計推理，對此假設應該被拒絕還是接受作出推斷。 2.假設檢驗的基本思想假設檢驗的基

統計學假設檢驗中 p 值的含義具體是什麼？

就從打賭開始說起。一日閒機無聊，我與樓主會飲於望胡樓。飲罷，兩人都不想主動買單，於是我提議以置硬幣來決定誰買單。規則是這樣的：有二十個一元硬幣，誰的菊花朝上多，誰就算贏。然後樓主先投，有十一個硬幣菊花朝上。他就得意洋洋的看我。然後我一扔，有十九個硬幣個個菊花朝天。樓主角色由紅轉白，由白轉黑。拍

Linux 的磁盤格式化、掛載、磁盤檢驗、等管理功能

OS 定義區別 vfat 例如取代 cal 執行 star df：列出文件系統的整體磁盤使用量du：檢查磁盤空間使用量fdisk：用於磁盤分區一、df命令列出系統的整體磁盤使用量 df命令參數功能：檢查文件系統的磁盤空間占用情況。可以利用該命令來獲取硬盤被占用了多少空

R語言︱異常值檢驗、離群點分析、異常值處理

fit sta 指標篩選繪圖都是圖形 class 分組一、異常值檢驗異常值大概包括缺失值、離群值、重復值,數據不一致。 1、基本函數 summary可以顯示每個變量的缺失值數量. 2、缺失值檢驗關於缺失值的檢測應該包括：缺失值數量、缺失值比例、

統計分析之引數檢驗與非引數檢驗、匹配樣本與獨立樣本、2樣本與K樣本介紹----附SPSS操作指南

最近幾天博主需要做一些計算生物學分析，重新溫習了一遍統計學的知識。由於博主此次使用的是非引數檢驗，將重點介紹非引數檢驗相關內容，仍然是深入淺出的風格，先放一些概念，再總結實際使用的技巧。寫在這裡，供大家參考學習。

機器學習中的概念---輸入空間、標記空間、樣本空間、假設空間、版本空間

一：輸入空間/特徵空間/屬性空間這三個概念都是指的X，都是指的輸入量二：標記空間/輸出空間指的是Y，指的是輸出量。（有時候，X-Y的所有對映也被當作Y，概念上有點混亂）一：樣本空間樣本空間的標準定義是：所有可能存在的、合理的、情況的

銀行會計學3（特點、核算的前提假設、物件和標準）

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 19.0px "PingFang SC" } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 19.0px "PingFang SC"; min-height: 26.0px

泛化能力、訓練集、測試集、K折交叉驗證、假設空間、欠擬合與過擬合、正則化（L1正則化、L2正則化）、超引數

泛化能力（generalization）：機器學習模型。在先前未觀測到的輸入資料上表現良好的能力叫做泛化能力（generalization）。訓練集（training set）與訓練錯誤（training error）：訓練機器學習模型使用的資料集稱為訓練集（tr

SPSS：T檢驗、方差分析、非參檢驗、卡方檢驗的使用要求和適用場景

一、T檢驗 1.1 樣本均值比較T檢驗的使用前提正態性；（單樣本、獨立樣本、配對樣本T檢驗都需要）連續變數；（單樣本、獨立樣本、配對樣本T檢驗都需要）獨立性；（獨立樣本T檢驗要求）方差齊性；（獨立樣本T檢驗要求） 1.2 樣本均值比較T

描述統計學、推斷統計學、假設檢驗、計算person相關係數

相關推薦