自然語言處理(二)概率論資訊理論基礎
阿新 • • 發佈:2018-12-27
概率論
概率
概率的統計定義
- 頻率
事件A在n次重複隨機試驗中出現的次數與n的比值。 - 概率
在同一條件下做的大量重複試驗中,若事件A發生的頻率總是在一個確定的常數p附近擺動,並且逐漸穩定於p,那麼數p就表示事件A發生的可能性大小,併成為事件A的概率.
概率的公理化定義
設E是隨機試驗,Ω是E的樣本空間,對於E 的每一個事件A賦予一個實數值,
表示事件發生的可能性(記為
),則
為事件A的概率.概率必須滿足如下公理:
- 非負性
- 規範性
- 可加性
最大似然估計(MLE)
最大似然估計(Maximization likelihood estimation, MLE)
如果一個實驗的樣本空間是
,在相同情況下重複實驗N次,觀察到樣本
的次數維
,則
的相對頻率為:
由於
,因此
當N越來越大時,相對頻率
就越來越接近
的概率
.
在N很大情況下,我們用相對頻率來作為概率的估計值,即最大似然估計.
條件概率(conditional probability)
如果A和B是樣本空間
上的兩個事件,
,那麼在給定B時A的條件概率
為
全概率公式
貝葉斯法則(Bayes’ theorem)
貝葉斯決策理論
假設研究的分類問題有c個類別,各類別的狀態用 表示, ,對應於各類別 出現的先驗概率 ,在特徵空間中觀察到某一向量 是d維特徵空間上的某一點,且條件概率密度函式