1. 程式人生 > >期望、方差、協方差、標準差

期望、方差、協方差、標準差

期望, 方差, 協方差,標準差

期望

概率論中描述一個隨機事件中的隨機變數的平均值的大小可以用數學期望這個概念,數學期望的定義是實驗中可能的結果的概率乘以其結果的總和。

定義

設P(x) 是一個離散概率分佈,自變數的取值範圍為{x1,x2,...,xn

}。其期望被定義為:

E(x)=∑k=1nxkP(xk)


設P(x) 是一個連續概率密度函式,其期望為:

E(x)=∫+∞−∞xp(x)dx

 

性質

期望服從線性性質,因此線性運算的期望等於期望的線性運算。

E(ax+by+c)=aE(x)+bE(y)+c


這個性質可以推廣:

E(∑k=1naixi+c)=∑k=1naiE(xi)+c


函式的期望:
離散

E(f(x))=∑k=1nf(xk)P(xk)


連續

E(f(x))=∫+∞−∞f(x)p(x)dx

 

但是,函式的期望不等於期望的函式,即E(f(x))≠f(E(x)) 。

設C為常數: E(C)=C
設C為常數: E(CX)=CE(X)
加法:E(X+Y)=E(X)+E(Y)
當X和Y相互獨立時,E(XY)=E(X)E(Y)
(注意,X和Y的相互獨立性可以通過下面的“協方差”描述)

意義

數學期望可以用於預測一個隨機事件的平均預期情況。

方差

方差是在概率論和統計方差衡量隨機變數或一組資料時的離散程度的度量,換句化說如果想知道一組資料之間的分散程度的話就可以使用方差來表示。

統計學方差

定義: 在統計描述中,方差用來計算每一個變數與總體均值之間的差異。為避免出現離均差總和為0, 離均差平均和受樣本含量的影響。統計學採用平均離均差平方來描述變數的變異程度。意思應該就是為了避免有的資料和均值的差值是正數,有的是負數,他們相加會相互抵消,所以用平方的形式來衡量。

公式

 

σ2=∑Ni=1(X−μ)2N


其中σ2為總體方差, X為變數, μ為整體均值,N為總體例數。

 

樣本方差

由於在實際環境中沒有辦法窮舉所有例子, 所以只能找出部分樣本資料,基於這部分樣本進行測算。可以把公式轉換為:

S2=∑ni=1(Xi−μ)2n−1


其中S2為樣本的方差,μ為採集樣本的均值, n為樣本的個數.

 

概率論方差

在概率論中, 設X是一個離散型隨機變數。
1. 定義: 在概率分佈中, 設X是一個離散型的隨機變數,若E((X−E(X))2)

存在,則稱它為X的方差,記為D(X),Var(X). 其中E(X)是X的期望,X是變數值。
2. 離散型隨機變數方差計算公式:
D(X)=E((X−E(X))2)=E(X2)−(E(X))2
3. 連續型變數X, 其定義域(a, b),概率密度函式為f(x), 連續型隨機變數X方差計算公式:
D(X)=∫ba(x−μ)2f(x)

 

標準差(Standard Deviation)

定義

又叫均方差, 是離均差平方的算數平方根。標準差能體現一個數據集的離散程度,平均數相同的兩組數,標準差未必相同。

公式

 

σ=方差−−−√=∑Ni=1(X−μ)2N−−−−−−−−−−−−√

 

標準差的意義

標準差和方差都是用來衡量樣本離散程度的量,那麼為什麼要有標準差呢? 因為方差和樣本的量綱不一樣。換句話說不在一個層次,怎麼理解這個層次,從公式來看方差是樣本和均值的平方和的平均。這裡有一個平方運算,這是導致量綱不在一個層次的原因。而標準差和均值的量綱(單位)是一致的,在描述一個波動範圍時標準差比方差更方便。

協方差(Covariance)

方差/ 標準差描述的是一維資料集合的離散程度, 但世界上現象普遍是多維資料描述的,那麼很自然就會想到現象和資料的相關程度,以及各維度間相關程度。
比如,一個產品賣的好不好有很多因素構成,比如產品質量,價格等。那麼價格質量之間是否由相關性呢?這個問題就可以用協方差來解決。

公式

期望值分別為E(X), E(Y)的兩個變數X,Y的協方差
Conv(X,Y)=E[(X−E(X))(Y−E(Y))]


=E(XY)−2E(X)E(Y)+E(X)E(Y)
=E(X協方差表示兩個變數的總體的誤差。這和只表示一個變數誤差的方差不同。如果兩個變數變化的趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身期望值。那麼兩個變數之間的協方差就是正。如果兩個變數的變化趨勢相反,即其中一個大於自身的期望值,另外一個小於自身期望值,那麼這兩個變數之間的協方差就是負值。如果X,Y之間是獨立的,那麼兩者的協方差就是0。Y)−E(X)E(Y)

 

協方差性質

  1. 同一個變數的協方差等於其方差Con(X, X) = Var(X)
  2. Con(aX, bY) = abCon(X, Y) a, b 為常量
  3. Con(X1 + X2, Y) = Con(X1, y) + Con(X2, y)

相關係數

協方差作為描述X和Y相關程度的量,在同一物理量綱下有一定作用。但同樣的兩個量採用不同的量綱使他們的協方差在數值上表現很大的差異,故引入如下概念:

η=Corr(X,Y)=Conv(X,Y)Var(X)Var(Y)−−−−−−−−−−−−√

 

相關關係

  1. 相關性是一個衡量線性獨立的無量綱數, 其取值在[ -1, 1] 之間。
  2. 相關性 corr = 1 時稱完全線性相關。
  3. 相關性 corr = -1 時稱完全線性負相關。
  4. 相關性 corr = 0 時稱不相關。

原文地址:https://blog.csdn.net/siyue0211/article/details/80309799