1. 程式人生 > >機器學習中概率論知識複習

機器學習中概率論知識複習

機器學習先驗知識概率論部分,發現看Machine Learning(-Andrew Ng)課程的時候中間有推導過程不是很明白,遂針對性複習。

知識內容組織結構,參考:《Probability Theory Review for Machine Learning》(Machine Learning-Andrew Ng,課程講義複習筆記2)

內容補充,參考維基百科。

1 基本概念

概率論在機器學習中扮演著一個核心角色,因為機器學習演算法的設計通常依賴於對資料的概率假設。

1.1 概率空間

說到概率,通常是指一個具有不確定性的event發生的可能性。例如,下週二下雨的概率。因此,為了正式地討論概率論,我們首先要明確什麼是可能事件。
正規說來,一個probability space

是由三元組(Ω,F,P)定義:
- Ω樣本空間
- F2Ω(Ω的冪集)為(可度量的)事件空間
- P為將事件EF對映到0~1真值區間的概率度量(概率分佈),可以將P看作概率函式
注: Ω的冪集2Ω——是Ω的所有子集的集合,符號:P(Ω):={U|UΩ}|Ω|=n個元素,|P(Ω)|=2n個元素。

假設給定樣本空間Ω,則對於事件空間F來說:
- F包含Ω本身和
- F對於並集閉合,例如:如果α,βF,則αβF
- F對於補集閉合,例如:如果αF,則(Ωα)F

Example1: 假如我們投擲一個(6面)骰子,那麼可能的樣本空間Ω={1,2,3,4,5,6}

。我們可能感興趣的事件是骰子點數是奇數還是偶數,那麼這種情況下事件空間就是F={,{1,3,5},{2,4,6}}.

可以看到樣本空間Ω為有限集時,就像上一個例子,我們通常令事件空間F2Ω。這種策略並不完全通用,但是在實際使用中通常是有效的。然而,當樣本空間為無限集時,我們需要仔細定義事件空間。
給定一個事件空間F,概率函式P需要滿足幾個公理:
- (非負)對於所有αF,P(α)0
- P(F)=1,事件空間的概率值為1
- (互斥事件的加法法則)對於所有α,βFαβ=,P(αβ)=P(α)+P(β)

Example2: 回到擲骰子的例子,假設事件空間F2Ω ,進一步地,定義F

上的概率函式P為:
P({1})=P({2})==P({6})=16
那麼這種概率分佈P可以完整定義任意給出事件的發生概率(通過可加性公理)。例如,投擲點數為偶數的概率為:
P({2,4,6})=P({2})+P({4})+P({6})=16+16+16=12
因為任意事件(此處指樣本空間內的投擲出各點數)之間都沒有交集

1.2 隨機變數

隨機變數在概率論中扮演著一個重要角色。最重要的一個事實是,隨機變數並不是變數,它們實際上是將(樣本空間中的)結果對映到真值的函式。我們通常用一個大寫字母來表示隨機變數。
Example3: 還是以擲骰子為例。 另X為取決於投擲結果的隨機變數。X的一個自然選擇是將i對映到值i,例如,將事件“投擲1點”對映到值1。我們也可以選擇一些特別的對映,例如,我們有一個隨機變數Y——將所有的結果對映到0,這就是一個很無聊的函式。或者隨機變數Z——當i為奇數時,將結果i對映到2i;當i為偶數時,將結果i對映到i

從某種意義上說,隨機變數讓我們可以將事件空間的形式概念抽象出來,通過定義隨機變數來採集相關事件。舉個例子,考慮Example1中投擲點數為奇/偶的事件空間。我們其實可以定義一個隨機變數,當結果i為奇數時取值為1,否則隨機變數取值為0。這種二元算計變數在實際中非常常見,通常以指示變數為人所知,它是因用於指示某一特定事件是否發生而得名。所以為什麼我們要引進事件空間?就是因為當一個人在學習概率論(更嚴格來說)通過計量理論來學習時,樣本空間和事件空間的區別非常重要。這個話題對於這個簡短的複習來說太前沿了,因此不會涉及。不管怎樣,最好記住事件空間並不總是簡單的樣本空間的冪集。
繼續,我們後面主要會討論關於隨機變數的概率。雖然某些概率概念在不使用隨機變數的情況下也能準確定義,但是隨機變數讓我們能提供一種對於概率論的更加統一的處理方式。取值為a的隨機變數X的概率可以記為:
P(X=a)PX(a)
同時,我們將隨機變數X的取值範圍記為:Val(X)

1.3 概率分佈,聯合分佈,邊緣分佈

我們經