1. 程式人生 > >【機器學習系列之四】概率統計學習基礎

【機器學習系列之四】概率統計學習基礎

這部分介紹概率裡的重要概念,如隨機事件,貝葉斯概率公式。

統計裡描述資料分佈的重要概念如期望,方差,眾數,四分位數。

統計推斷裡的引數估計

 3.1 概率

隨機事件:某一事件可能發生,也可能不發生,則稱其為隨機事件

頻率:以拋硬幣為例,重複拋十次,若出現4次正面,6次反面。

記A:出現正面      B:出現反面

事件A的頻率為:P(A) = 4/10  其中4稱為事件A的頻數。

概率:使用頻率的穩定值作為該事件的概率近似值

條件概率:P(色盲患者|女性) = p(女性,且是色盲患者)/p(女性)

該公式說明的是:某人為女性,那麼她是色盲患者的概率是多少,換成公式可以表示為:

事件獨立性:事件A的發生與事件B是否發生無關,則稱兩個事件是獨立的。若事件A,事件B獨立,則有P(AB) = P(A)*P(B),這個性質在樸素貝葉斯演算法會用到。

全概率公式:P(色盲患者) = P(女性)*P(是女性,且是色盲患者) + P(男性)*P(是男性,且是色盲患者)。

全概率公式的思想就是:將事件A分解成幾個小事件,然後相加從而求得事件A的概率。

換成公式可表示為:

 

貝葉斯公式:與全概率公式解決問題相反,貝葉斯公式建立在條件概率的基礎上,用來尋找事件發生的起因。如圖:

在知道某人為色盲患者,那麼他可能是男性,也可能是女性,通過這條公式,可以推斷出該患者是女性的概率,與是男性的概率。

他的核心思想是:通過結果,推斷導致該結果的原因。用數學公式表示為:


3.2 描述性統計

3.2.1集中趨勢

集中趨勢是指某一組資料向中心值靠攏的傾向,測度集中趨勢就是尋找代表資料一般水平的代表值。常用的衡量標準有算術平均值,加權平均值,中位數,眾數。

算數平均值是表徵資料集中趨勢的一個統計它是一資料之和,除以這組資料個數/項數

點:它中位數眾數更少受到隨機因素影響,缺點是它更容易受到極端影響。


加權平均值

適用於對分組後的資料求均值,通過各組標誌值與各組頻數相乘的總和除以各組頻數之和得到。

 

中位數:是指一組資料按照大小排列後,處於中間位置上的變數值。它是集中趨勢的反映。

眾數:一組資料出現次數最多的變數值

3.2.2離散趨勢

離散趨勢是指反映一個變數遠離其中心值的程度。資料的離散程度越大,集中趨勢的測度值對該組資料的代表性就越差。

極差:一組資料的最大值,最小值的差。該標準未考慮資料的分佈情況,易受極端值的影響。

方差與標準差:它反映了每個資料與其平均數相比平均相差的數值。

 

對方差開根號就是標準差,它有計量單位且與變數值相同,因此它的實際意義要比方差清楚,但對社會經濟現象進行分析時,更多地使用標準差作為衡量標準。

四分位距:由圖示,可以算出四分差的距離為 115 − 105 = 10.

 

變異係數:也稱離散係數,用CV值表示,是標準差與均值之比。其值越大,離散程度越大。



3.3 樣本與總體

若研究物件很大,比如一個國家人民的生活水平,此時不能把一個國家的所有人都拿來研究,這時就用到了隨機取樣。通過樣本,可以近似的推斷總體的一些狀況。為了研究方便,常用X表示總體,X的概率分佈就表示了總體的中各個值的分佈情況。

常用樣本中的某些值來表徵總體的特性:如樣本均值,樣本方差,樣本標準差。

樣本均值:樣本均值不是穩健統計,容易受一場點影響。它是隨機向量{\displaystyle \textstyle \mathbf {X} }X平均數無偏估計


概率密度函式:是一個描述這個隨機變數的輸出值,在某個確定的取值點附近的可能性的函式。而隨機變數落在某個區域之內的概率為密度函式在該區域上的積分。

 

累積分佈函式:它是概率密度函式的積分。能完整的描述一個實隨機變數X的概率分佈。

 

正太分佈:這個分佈函式具有非常好的特性,使得它在諸多統計學科,離散科學方面都有著不可替代的影響力。比如,影象處理中最常用的濾波器型別就是高斯濾波器。(也就是所謂的正太分佈函式)。

它的概率密度函式為:


它的概率密度函式圖如下:


數學期望:它是實驗中每次可能結果的概率乘以其結果的總和。它反映了隨機變數平均取值的大小。用公式表示如下:

方差:用來衡量隨機變數或一組資料離散程度的度量,即它是度量隨機變數與期望(均值)之間的偏離程度。總體方差的計算公式為:


其中X為每個樣本值,表示期望,N為樣本個數。


3.4 統計推斷

3.4.1引數估計

引數估計問題就是根據樣本對未知引數,如數學期望,方差作出估計。常用的點估計和區間估計。

點估計:對某一統計量的估計,常用的方法有距估計,極大似然估計。

1.矩估計:它的主要思想是通過樣本矩及其函式,替換相應的總體矩及其函式,即替換原理。

例:要估計某一地區的平均收入(總體),可以在該地區隨機選取1萬人(樣本),計算他們的平均收入,然後把這一萬人的平均收入近似作為該地區的平均收入。

常用的引數估計有:

用樣本均值估計總體均值EX

用樣本方差估計總體方差DX

用樣本k階原點矩估計總體EXk,

用樣本的 p 分位數估計總體的 p 分位數,

      用樣本中位數估計總體中位數。

2.極大似然估計:它的使用條件是在總體分佈已知的情況下的引數估計法。“似然”=“看起來像“,因而它的基本思想就是似然原理:選擇導致某“結果”發生可能性最大的“原因”,作為似然原因。

例如:有人打靶,打中了10環,它最可能是由教練打的,而不是新手打的。

(1)若總體X為離散型,其概率分佈列為:

其中為未知引數,設(X1,X2,···,Xn)的一組觀測值為(x1,x2,x3,···,xn),易知樣本X1,X2,···,Xn取到觀測值x1,x2,···,xn的概率為:


這一概率隨  的取值而變化,它是  的函式,稱  為樣本的似然函式

(2)若總體X為連續型,其概率密度函式為:f(x,)。故它的似然函式為:


該式子就是似然函式,對似然函式求極值點,可得概率取最大時,的取值。

常用分佈表

標準正太分佈表