機器學習十大演算法1----naive-bayesian

阿新 • • 發佈：2018-11-10

收集資料---》準備資料：數值型/布林----》分析資料：繪製特徵（資料大時，不管用）----》訓練演算法：不同獨立特徵的條件概率---》測試演算法：計算錯誤率----》使用：文件分類、語言遮蔽,
特點：資料較少時仍有效，但對資料的準備方式較為敏感適用於：標稱型資料

樸素貝葉斯分類的正式定義：

1、設 $x=\{a_1,a_2,...,a_m\}$ 為特徵向量，ai為第i個特徵的取值。

2、類別集合 $C=\{y_1,y_2,...,y_n\}$ 。

3、計算 $P(y_1|x),P(y_2|x),...,P(y_n|x)$ 。

4、如果 $P(y_k|x)=max\{P(y_1|x),P(y_2|x),...,P(y_n|x)\}$

，則 $x \in y_k$ 。

關鍵是計算第3步中的條件概率。

如果各個特徵屬性是條件獨立的，則根據貝葉斯定理有：

$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$

顯然我們只要將分子最大化皆可： $P(x|y_i)P(y_i)=P(a_1|y_i)P(a_2|y_i)...P(a_m|y_i)P(y_i)=P(y_i)\prod^m_{j=1}P(a_j|y_i)$

故，分類流程可分為3個階段：

第一階段——準備工作階段：主要工作是根據具體情況確定特徵屬性，並對每個特徵屬性進行適當劃分（形成特徵庫），然後由人工對一部分待分類項進行分類，形成訓練訓練集合（分類器的質量很大程度上由特徵屬性、特徵屬性劃分及訓練樣本質量決定）

第二階段——分類器訓練階段：其輸入是特徵屬性和訓練樣本，輸出是h(x)

第三階段——應用階段輸出g(x)

條件概率

特徵屬性為離散值時，統計訓練樣本中各個劃分在每個類別中出現的頻率用來估計P(a|y)

特徵屬性為連續值時，通常假定其值服從高斯分佈（也稱正態分佈）:

$g(x,\eta ,\sigma )=\frac{1}{\sqrt{2\pi }\sigma }e^-\frac{(x-\eta)^2}{2\sigma^2}$ $P(a_k|y_i)=g(a_k,\eta_{y_i},\sigma_{y_i})$

只要計算出訓練樣本中各個類別中此特徵項劃分的各均值和標準差即可。

當P(a|y)=0？

引入Laplace校準，它的思想非常簡單，就是對每類別下所有劃分的計數加1，這樣如果訓練樣本集數量充分大時，並不會對結果產生影響

虛擬碼：

1
def nb(庫,train_Set):
  for i in train_Set:
     if i in 庫：
          Vec[庫.index(i)]=1
     else: Vec[庫.index(i)]=0
  return Vec
2計算條件概率：
def nbp(Vec,lables):
   p0=zeros(len(Vec[0])),p1=zeros(len(Vec[0]))
   if lables[i]==1:
       p1/0+=Vec[i]
       p1/0demo=sum(Vec[i])
   p1/0p=p1/0/p1/0demo     
 3 分類  （比較大小）

p1=sum(vec2Classify*p1Vec)+math.log(pClass1)
p0=sum(vec2Classify*p0Vec)+math.log(1.0-pClass1)

機器學習十大演算法1----naive-bayesian

機器學習十大演算法1----naive-bayesian

新手入門機器學習十大演算法

機器學習十大演算法之決策樹（詳細）

機器學習十大演算法2----logistics迴歸

機器學習十大演算法之CART

機器學習十大演算法pdf下載

機器學習十大演算法

機器學習十大演算法都是何方神聖？看完你就懂了

機器學習十大演算法的核心思想、工作原理、適用情況及優缺點

用Python Scikit-learn 實現機器學習十大演算法--樸素貝葉斯演算法（文末有程式碼）

機器學習十大演算法---2 .邏輯迴歸

機器學習十大演算法--迴歸演算法（批量梯度下降）

機器學習十大演算法---8. 隨機森林演算法

機器學習-機器學習十大演算法

機器學習十大經典演算法：（1）C4.5演算法

圖解機器學習十大常用演算法

機器學習十大經典演算法：（2）k-means演算法

機器學習十大常用演算法彙總

機器學習十大常用演算法

機器學習十大經典演算法之K-近鄰演算法（學習筆記）

機器學習十大演算法1----naive-bayesian

相關推薦