機器學習中概率論知識複習
機器學習先驗知識概率論部分,發現看Machine Learning(-Andrew Ng)課程的時候中間有推導過程不是很明白,遂針對性複習。
知識內容組織結構,參考:《Probability Theory Review for Machine Learning》(Machine Learning-Andrew Ng,課程講義複習筆記2)
內容補充,參考維基百科。
1 基本概念
概率論在機器學習中扮演著一個核心角色,因為機器學習演算法的設計通常依賴於對資料的概率假設。
1.1 概率空間
說到概率,通常是指一個具有不確定性的event
發生的可能性。例如,下週二下雨的概率。因此,為了正式地討論概率論,我們首先要明確什麼是可能事件。
正規說來,一個probability space
-
-
-
注:
假設給定樣本空間
-
-
-
Example1: 假如我們投擲一個(6面)骰子,那麼可能的樣本空間
可以看到樣本空間
給定一個事件空間
- (非負)對於所有
-
- (互斥事件的加法法則)對於所有
Example2: 回到擲骰子的例子,假設事件空間
那麼這種概率分佈
因為任意事件(此處指樣本空間內的投擲出各點數)之間都沒有交集
1.2 隨機變數
隨機變數在概率論中扮演著一個重要角色。最重要的一個事實是,隨機變數並不是變數,它們實際上是將(樣本空間中的)結果對映到真值的函式。我們通常用一個大寫字母來表示隨機變數。
Example3: 還是以擲骰子為例。 另
從某種意義上說,隨機變數讓我們可以將事件空間的形式概念抽象出來,通過定義隨機變數來採集相關事件。舉個例子,考慮Example1中投擲點數為奇/偶的事件空間。我們其實可以定義一個隨機變數,當結果
繼續,我們後面主要會討論關於隨機變數的概率。雖然某些概率概念在不使用隨機變數的情況下也能準確定義,但是隨機變數讓我們能提供一種對於概率論的更加統一的處理方式。取值為
同時,我們將隨機變數
1.3 概率分佈,聯合分佈,邊緣分佈
我們經