1. 程式人生 > >sklearn的機器學習之路:樸素貝葉斯

sklearn的機器學習之路:樸素貝葉斯

1. 基礎概念

什麼是樸素貝葉斯:貝葉斯分類是一類分類演算法的總稱,這類演算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單,也是常見的一種分類方法。

貝葉斯公式

P(Y|X)=P(X|Y)P(Y)P(X)
X:特徵向量 Y:類別

先驗概率P(X):先驗概率:是指根據以往經驗和分析得到的概率。
後驗概率P(Y|X):事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小。
類條件概率P(X|Y):在已知某類別的特徵空間中,出現特徵值X的概率密度。

樸素樸素貝葉斯演算法是假設各個特徵之間相互獨立

,也是樸素這詞的意思。那麼貝葉斯公式中P(X|Y)可寫成

P(X|Y)=P(x1|Y)P(x2|Y)P(xn|Y)
樸素貝葉斯公式:
P(Y|X)=P(x1|Y)P(x2|Y)P(xn|Y)P(Y)P(X)

三種常見模型


  • 多項式模型:多項式模型在計算先驗概率P(Yk)和條件概率P(xi|Yk)時,會做一些平滑處理,具體公式為:
    P(Yk)=NYk+αN+Kα

N:樣本數

NYk:類別為Yk的樣本數
K:總的類別個數
α:平滑值

P(xi|Yk)=NYk,xi+αNYk+nα

NYk,xi:類別為Yk,且特徵為x1的樣本數
n:特徵x1可以選擇的數量

  • 高斯模型
    當特徵是連續變數的時候,假設特徵分佈為正太分佈,根據樣本算出均值和方差,再求得概率。
    這裡寫圖片描述
  • 伯努利模型
    伯努利模型適用於離散特徵的情況,伯努利模型中每個特徵的取值只能是1和0。
    這裡寫圖片描述

演算法流程
1. 處理資料,得到m個具有n個特徵的樣本,這些樣本分別屬於

{Y1,Y2,Y3}類別(類別數量增多,這裡說明樸素貝葉斯處理多分類問題的流程)。
2. 通過資料分析可以得到每個特徵的類條件概率