1. 程式人生 > >機器學習2:Naive Bayes(樸素貝葉斯)

機器學習2:Naive Bayes(樸素貝葉斯)

參考:https://blog.csdn.net/syoya1997/article/details/78618885貝葉斯模型的講解

貝葉斯模型

$$ P(H|E)=\frac{P(E|H)P(H)}{P(E)}$$,二分類中展開為$$P(H_{1}|E) =\frac{P(E|H_{1})P(H_{1})} { P(E|H_{1}) P(H_{1}) + P(E|H_{2}) P(H_{2})} $$

  • P(H) – 已知的先驗概率
  • P(H|E) – 我們想求的後驗概率,即在B事件發生後對於事件A概率的評估
  • P(E|H) – 在事件H下觀測到E的概率
  • P(E) – marginal likelihood(邊際似然),對於所有的假設都是相同的,因此不參與決定不同假設的相對概率
  • P(E|H)/P(E) – likelihood function(可能性函式),這是一個調整因子,通過不斷的獲取資訊,可以使得預估概率更接近真實概率

貝葉斯推斷的舉例理解:

在分類問題中,以神奇寶貝為例,有一群神奇寶貝樣本,要將其分成水系H1和非水系H2兩種。

首先,可以根據已有資料得到一個關於水系寶貝比例,這是一個先驗概率,記為P(H1);

其次,神奇寶貝具有攻擊力等多種特徵,這裡以一個特徵為例,得到每個水系樣本在該特徵值的分佈情況,進而得出水系樣本的該特徵的概率分佈情況。具體步驟為:比如使用高斯分佈,假設他們的特徵分佈近似於均值$ \mu $,方差為$ \delta $的高斯分佈,進而使用maximum likelyhood估計出水系樣本可能的概率分佈;

然後,根據上述概率分佈,可以在給定任何一個新樣本(特徵)的時候,得到條件概率:在水系中,該特徵值出現的概率P(E|H1);

最後,求P(E),表示出現該特徵值的整體概率,它包括所有樣本下的概率,P(E|H1)P(H1)+P(E|H2)P(H2),求解方法與上面類似。

經過此步驟之後,獲得任意一個新樣本(設其特徵值為E1),我門都可以得到該特徵值E1情況下,屬於水系寶貝的概率。

樸素貝葉斯理解:

上述例子中,只考慮了一個特徵的情況,在多個特徵的情況下,我們需要考慮聯合概率分佈的情況,即:每一個分類下,樣本在多個特徵組成的多維空間的分佈情況。樸素貝葉斯假設多維特徵相互獨立,因此,簡化了聯合概率分佈的模型(直接將樣本在各維空間的概率分佈相乘即可)。