1. 程式人生 > >機器學習筆記(參考吳恩達機器學習視訊筆記)17_貝葉斯分類器

機器學習筆記(參考吳恩達機器學習視訊筆記)17_貝葉斯分類器

17 貝葉斯分類器

貝葉斯分類是一種分類演算法的總稱,這種演算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。貝葉斯分類器的分類原理是通過某物件的先驗概率,利用貝葉斯公式計算出其後驗概率,即該物件屬於某一類的概率,選擇具有最大後驗概率的類作為該物件所屬的類。

17.1 貝葉斯定理

條件概率:事件A在另一個事件B已經發生條件下的概率,記作 P(A|B),A和B 可能是相互獨立的兩個事件,也可能不是。

表示 A,B 事件同時發生的概率,如果 A 和 B 是相互獨立的兩個事件,那麼:

上面的推導過程反過來證明了如果A和B是相互獨立的事件,那麼事件A發生的概率與B無關。

將條件概率公式稍做改變有:

先驗條件B有多種可能性,這裡引入全概率公式:

表示事件B的互補事件,從集合的角度來說是B的補集:在條件概率和全概率的基礎上,推匯出貝葉斯公式:

貝葉斯定理:

設試驗E的樣本空間為S,B為E的事件,為樣本空間S的一個劃分,且P(B)>0,P()>=0(i=1,2,…n),則有:

17.2 樸素貝葉斯分類器

假設有一個數據集,每一條由特徵和它的類別構成,特徵用來表示,類別由Y表示,具體的型別為。對於一條新的資料,假如只知道它的特徵,根據它的特徵來分類到具體的,這時就可以用貝葉斯演算法。即:

根據貝葉斯定理:

而樸素貝葉斯演算法的樸素之處在於:假設所有用於分類的特徵都是相互獨立的。可以推出如下公式:

綜上所述,樸素貝葉斯分類器可以表示為:

由於對於所有的,k=1,2…K,上式的分母都相同(均為),因此上式可以寫作:

17.3 樸素貝葉斯演算法

17.4 極大似然估計

在樸素貝葉斯演算法中通常採用極大似然估計先驗概率和條件概率

極大似然估計的原理,用一張圖片來說明,如下圖所示:

總結起來,最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的引數值。極大似然估計提供了一種給定觀察資料來評估模型引數的方法,即:“模型已定,引數未知”。通過若干次試驗,觀察其結果,利用試驗結果得到某個引數值能夠使樣本出現的概率為最大,則稱為極大似然估計。

(其中,為第j個特徵可能的取值。)