1. 程式人生 > >自然語言處理(二)概率論資訊理論基礎

自然語言處理(二)概率論資訊理論基礎

概率論

概率

概率的統計定義

  • 頻率
    事件A在n次重複隨機試驗中出現的次數與n的比值。
  • 概率
    在同一條件下做的大量重複試驗中,若事件A發生的頻率總是在一個確定的常數p附近擺動,並且逐漸穩定於p,那麼數p就表示事件A發生的可能性大小,併成為事件A的概率.

概率的公理化定義
設E是隨機試驗,Ω是E的樣本空間,對於E 的每一個事件A賦予一個實數值,
表示事件發生的可能性(記為 P ( A

) P(A) ),則 P ( A ) P(A) 為事件A的概率.概率必須滿足如下公理:

  • 非負性
  • 規範性
    P ( Ω ) = 1 P(\Omega)=1
  • 可加性

最大似然估計(MLE)

最大似然估計(Maximization likelihood estimation, MLE)

如果一個實驗的樣本空間是 s 1 , s 2 , , s n s_1,s_2,\dots,s_n ,在相同情況下重複實驗N次,觀察到樣本 s k ( 1 k n ) s_k(1\leq k\leq n) 的次數維 n N ( s k ) n_N(s_k) ,則 s k s_k 的相對頻率為:
q N ( s k ) = n N ( s k ) N q_N(s_k) = \frac{n_N(s_k)}{N}
由於 i = 1 n n N ( s k ) = N \sum_{i=1}^nn_N(s_k) = N ,因此 i = 1 n q N ( s k ) = 1 \sum_{i=1}^nq_N(s_k)=1
當N越來越大時,相對頻率 q N ( s k ) q_N(s_k) 就越來越接近 s k s_k 的概率 P ( s k ) P(s_k) .
lim N q N ( s k ) = P ( s k ) \lim_{N\rightarrow \infty}q_N(s_k) = P(s_k)
在N很大情況下,我們用相對頻率來作為概率的估計值,即最大似然估計.

條件概率(conditional probability)

如果A和B是樣本空間 Ω \Omega 上的兩個事件, P ( B ) > 0 P(B)>0 ,那麼在給定B時A的條件概率 P ( A B ) P(A|B)
P ( A B ) = P ( A B ) P ( B ) P(A|B) = \frac{P(A\cap B)}{P(B)}

全概率公式

P ( A ) = P ( i = 1 n A B i ) = i = 1 n P ( A B i ) = i = 1 n P ( B i ) P ( A B i ) P(A) = P(\cup_{i=1}^nAB_i) = \sum_{i=1}^nP(AB_i) = \sum_{i=1}^nP(B_i)P(A|B_i)

貝葉斯法則(Bayes’ theorem)

P ( B i A ) = P ( B i ) P ( A B i ) j = 1 n P ( B j ) P ( A B j ) P(B_i|A) = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)}

貝葉斯決策理論

假設研究的分類問題有c個類別,各類別的狀態用 w i w_i 表示, i = 1 , 2 , , c i=1,2,\dots,c ,對應於各類別 w i w_i 出現的先驗概率 P ( w i ) P(w_i) ,在特徵空間中觀察到某一向量 x ˉ \bar{x} 是d維特徵空間上的某一點,且條件概率密度函式 P ( x