1. 程式人生 > >一些關於資料探勘所需要的統計基礎(5)

一些關於資料探勘所需要的統計基礎(5)

大家好~這一次我們來簡單說一些關於資料探勘所需要的統計學基礎。不會很深奧哦,我儘量用大白話把它解釋清楚。因為我也是大菜雞,也還在學習大哭

為了以後更好的完成我們的各項任務,所以有幾個概念呢在這裡預先做一下解釋和說明。

1. 均值

2. 方差

3. 大數定理

4. 中心極限定理

5. 假設檢測

6. p-value值的簡單介紹

前幾個概念都不難,主要是解釋最後兩個概念。

==================================

1. 均值

均值就是平均數······最為簡單的一個概念

                                                                   


在這裡不多做解釋了····

==================================

2. 方差

上過高中的朋友應該都知道它吧。方差是各個資料分別與其平均數之差的平方的和的平均數,用字母D表示。在概率論和數理統計中,方差(Variance)用來度量隨機變數和其數學期望(即均值)之間的偏離程度

                                                         

x 表示樣本的平均數,n 表示樣本的數量,xi 表示個體,而s^2就表示方差。

==================================

3. 大數定理

可以把它簡單的理解為:

當樣本的數量越來越多,那麼它的期望值,也就越接近平均值。當大量重複某一實驗時,最後的頻率無限接近事件概率。

==================================

4. 中心極限定理

簡單的理解為:

在適當條件下,大量相互獨立的、隨機的變數的均值,經過適當的標準化後,其分佈收斂於正態分佈。

==================================

5/6. 假設檢驗和p-value值的介紹

重點來了。有點小複雜。

用一個例子來說明一下吧

一個司機酒駕問題。分為四種情況。

(1)司機沒喝酒,酒駕檢測正常,沒超標,放行

(2)司機沒喝酒,酒駕檢測出了問題,(可能是裝置壞了啊,天氣不好啊,運氣太差啊),超標,被抓了

(3)司機喝酒了,酒駕檢測正常(運氣爆棚,沒查出來),沒超標,放行

(4)司機喝酒了,酒駕被抓(活該)

現在做一個原假設:司機沒喝酒

既然有原假設,那就也有備擇假設:司機喝酒了

我們將原假設當做一個標準(司機沒喝酒)去衡量一個事件,判斷司機到底有沒有喝酒。

--如果衡量的這個事件,發現這個事件發生的概率極低極低,那麼我們可以拒絕原假設。

--如果衡量的這個事件,發現這個事件發生的概率不是那麼低,是有可能的,那麼我們將不拒絕原假設。

如圖所示:

圖中藍色區域,表示沒喝酒的情況,也就是我們一開始原假設的情況。

圖中橙色區域,表示喝了酒的情況,也就是我們一開始備擇假設的情況。

我們現在呢,以“沒喝酒”這個標準去衡量司機到底有沒有喝酒這個事件

如果檢測出來的結果為上述第(2)種情況,即沒喝酒還被判斷為酒駕,這種極小概率發生的事件屬於下圖紅色塗抹區域:


這種極端的情況發生的概率之和,被稱為p-value。

再白話一點,假如酒精檢測判斷是否酒駕的標準為20mg/100ml。

一個司機沒有喝酒,但是酒駕檢查,發現他的酒精含量為21mg,出現這種事情的概率就屬於“極低概率事件”

當然不僅有可能是21mg,還有可能是22mg,23mg等等,都有可能,只不過這個可能性,都非常非常的低。

所有這些低概率事件之和得到一個的總值,即為p-value。

謝謝大家~