1. 程式人生 > >樸素貝葉斯理論--自我理解

樸素貝葉斯理論--自我理解

例子-正向概率

還是拿質檢員的例子來做分析,假如我是一個質檢員,現在接到了三箱零件需要檢驗,其中第一箱有10個零件,第二箱有20個零件,第三箱有15個。半小時過去了,檢驗的結果出爐,第一箱有1個不合格,第二箱有3個不合格,第三箱2個不合格。

箱子 總零件個數 不合格
A 10 1
B 20 3
C 15 2

那現在我從這三個箱子中隨便拿取一個零件,這個零件是合格的概率是多少呢?我們假設事件D:零件合格,則:

P(D)=P(A)P(D|A)+P(B)P(D|B)+P(C)P(D|C)=(1/3)(9/10)+(1/3)(17/20)+(1/3)(13/15)=0.872 像這樣得出一個零件是合格的概率就計算出來了,但是在機器學習領域中,可能我們更想知道,給你一個樣本,這個樣本屬於哪個類目的問題,這也叫分類問題,這就涉及到反向概率的問題。

反向概率-樸素貝葉斯理論

現在我們假設這樣一個場景:你拿到了一個零件,這個零件是屬於哪個箱子?這個問題在機器學習中就是類比為:給你一個樣本,這個樣本有很多特徵,機器模型輸出該樣本屬於哪個類別。這樣我們來理解貝葉斯理論。

條件概率

P(A|B)=P(AB)P(B) P(A|B)表示事件B已經發生的前提下,事件A發生的概率,叫做事件B發生下事件A的條件概率,P(AB)表示事件A、事件B共同發生的概率,P(B)表示事件B發生的概率,這樣就計算就是一個條件概率。 我們結合上面零件合格這個場景繼續思考,如果我們知道了這件零件是合格的,那麼它是來自A、B、C三類中具體哪個類中?具體哪個類目我們肯定是不知道的,因為三個類目都有合格的零件,但是我們可以知道這件合格的零件來自每個類目的概率是多少,也就是求P(A|D)P(B|D)P(C|D),其中D表示這件零件是合格的概率,由條件概率知道: P(A|D)=P(AD)P(D)P(B|D)=P(BD)P(D)P(C|D)=P(CD)P(D) 其中 P(D) 已經在上面計算出來了, P(D)=0.872P(AD) 表示這件零件來自A箱子,並且是正品的概率,兩個條件是獨立的,所以我們計算為: P(AD)=P(A)P(D|A)=(1/3)(9/10)=0.3 於是我們可以計算合格商品來自每個箱子的概率: