【sklearn例項】1-貝葉斯演算法

阿新 • • 發佈：2018-11-11

問題

在這裡插入圖片描述

樸素貝葉斯求解

樸素貝葉斯公式：
求解思想：即求先驗概率與條件概率乘積的最大值
求解

注意：
本人求解過程中忘記了 Laplace 平滑 (⊙︿⊙)，但好在預測值裡面沒有學歷為博士的一項，所以不平滑也不影響預測，但這樣是不規範的。

程式碼

分析

1 讀取資料
2 資料切片，轉換（將字元型資料編碼）
3 劃分訓練集和測試集
4 匯入 sklearn 貝葉斯方法，擬合
5 預測輸入值

#匯入資料 read_csv

import pandas as pd
import numpy as np
c=pd.read_csv('career_data.csv')
print c

# 將特徵的離散資料 編碼 用 LabelEncoder()對標籤進行了編碼

from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y=class_le.fit_transform(c['enrolled'].values)

# 特徵編碼時直接用了 DataFrame 替換
c['985'].replace(['Yes','No'],[1,0],inplace=True)
c['education'].replace(['bachlor','master','phd'],[0,1,2],inplace=True)
c['skill'].replace(['C++','Java'],[0,1],inplace=True)
b=c.values[:,:-1]
print '\n','特徵值','\n', b
print '標籤值','\n',y

在這裡插入圖片描述

# 匯入貝葉斯方法進行擬合

#from sklearn.cross_validation import train_test_split
from sklearn.naive_bayes import  GaussianNB
#train_X,test_X, train_y, test_y = train_test_split(b,y,test_size=0.1) # test_size:測試集比例20%
clf = GaussianNB()
#clf.fit(train_X, train_y)
clf.fit(b,y)
prediction6=clf.predict(b)
print '兩個類別的先驗概率:',clf.class_prior_   #獲取兩個類別的先驗概率
#print(clf.feature_prob_)
print('The accuracy of the NaiveBayes is',metrics.accuracy_score(prediction6,y))
print clf.predict([[1,1,0]])
print clf.predict_proba([[1,1,0]])

在這裡插入圖片描述
可以看到，先驗概率與之前的計算相同，預測結果也是未錄取，但最後的預測出的兩個類別的概率與計算不同，分析主要是因為之前計算的僅僅是貝葉斯公式的分子，而程式計算的可能是是包含分母的完整的後驗概率。

總結：
1 資料讀取DataFrame 方法，read_csv 與read_table 還是不同的
2 標籤的編碼，通常都用LabelEnconder，有n類就用0~ n-1 表示出來
3 屬性編碼的辦法太笨，我考慮過用OneHotEncoder 方法，但該方法只能進行二值轉換（非0 即1 ），不適合本例，學歷屬性裡有三類；即便可以，我還是沒搞懂獨熱編碼的原理，編完後相當於給資料擴維了，比如學歷一項就會用[1,0] 與 [0,1] 來表示Yes 和 No ，那後續該如何擬合呢，維度和原來不一樣了啊？還有pandas 裡面的 pd.get_dummies(c[‘skill’])，結果也是一樣，如何把編碼後的每個屬性再組合為原始資料的維度？
4 嘗試了將資料劃分為訓練集和測試集，但是先驗類別與計算的不一樣了，是因為此時的先驗概率是訓練集的，而非原始資料集了。
5 嘗試了用BonulliNB 和 MultinormialNB 方法，前者預測一致，而多項式貝葉斯方法預測相反，查了一下：多項式NB以樣本出現的次數為特徵值，主要用於離散特徵分類，例如文字分類單詞統計。

希望得到指點。

【sklearn例項】1-貝葉斯演算法

問題樸素貝葉斯求解樸素貝葉斯公式：求解思想：即求先驗概率與條件概率乘積的最大值求解注意：本人求解過程中忘記了 Laplace 平滑 (⊙︿⊙)，但好在預測值裡面沒有學歷為博士的一項，所以不平滑也不影響預測，但這樣是不規範的

【Machine :Learning】樸素貝葉斯

1. 樸素貝葉斯：條件概率在機器學習演算法的應用。理解這個演算法需要一點推導。不會編輯公式。。核心就是在已知訓練集的前提條件下，算出每個特徵的概率為該分類的概率，然後套貝葉斯公式計算預測集的所有分類概率，預測型別為概率最大的型別 from numpy import * def l

【ML學習筆記】樸素貝葉斯演算法的demo（機器學習實戰例子）

礙於這學期課程的緊迫，現在需要儘快從課本上掌握一些ML演算法，我本不想經過danger zone，現在看來卻只能儘快進入danger zone，數學理論上的缺陷只能後面找時間彌補了。如果你在讀這篇文章，希望你不要走像我一樣的道路，此舉實在是出於無奈，儘量不要去做一個心

【機器學習】樸素貝葉斯基本介紹+程式碼實現

1. 基本概念根據先驗概率和似然函式來求後驗概率。一般用於分類任務。先驗概率：似然函式：後驗概率：根據條件獨立性假設：目標函式：即求解使後驗概率最大的類。訓練過程：即求各個單詞的條件概率，和類別的先驗概率。測試過程：根

【JAVA實現】樸素貝葉斯分類演算法

之前部落格提到的KNN演算法以及決策樹演算法都是要求分類器給出“該資料例項屬於哪一類”這類問題的明確答案，正因為如此，才出現了使用決策樹分類時，有時無法判定某一測試例項屬於哪一類別。使用樸素貝葉斯演算法則可以避免這個問題，它給出了這個例項屬於某一類別的概率值，

【機器學習】從貝葉斯角度理解正則化緩解過擬合

從貝葉斯角度理解正則化緩解過擬合原始的Linear Regression 假設有若干資料 (x1,y1),(x2,y2),...,(xm,ym)，我們要對其進行線性迴歸。也就是得到一個方程 y=ωTx+ϵ 注意，這裡忽略偏置，或者可以認為偏

【六】樸素貝葉斯演算法

文字分類的事件模型 Event Models for Text Classification 我們之前介紹了多元伯努利事件模型Multi-variate Bernoulli Event Model，這一方法使用向量{x1,x2,···}表示輸入文字，向量的長度為字典的長度，

【機器學習】樸素貝葉斯分類器

前言：在正式講述樸素貝葉斯分類器之前，先介紹清楚兩個基本概念：判別學習方法(Discriminative Learning Algorithm)和生成學習方法(Generative Learning Algorithm)。上篇博文我們使用Logist

sk-learn例項-用樸素貝葉斯演算法（Naive Bayes）對文字進行分類

簡介樸素貝葉斯（Naive Bayes）是一個非常簡單，但是實用性很強的分類模型，與基於線性假設的模型（線性分類器和支援向量機分類器）不同，樸素貝葉斯分類器的構造基礎是貝葉斯理論。抽象一些的說，樸素貝葉斯分類器會單獨考量每一維度特徵被分類的條件概率，進而綜合這些概率並對其所在的特

【學習筆記】Pattern Recognition&Machine Learning [1.2] Probability Theory(1)貝葉斯理論

這節講了概率論中的一些基本概念，這裡記錄一下對貝葉斯理論的理解。首先簡單描述一下貝葉斯理論。對於一個隨機事件，我們首先給出先驗分佈，不妨設為p(w)

【python和機器學習入門3】樸素貝葉斯1——過濾惡意留言

參考部落格：（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第四章4.5 一樸素貝葉斯理論二 demo：過濾網站惡意留言以線上社群留言為例。為了不影響社群的發展，我們要遮蔽侮辱性的言論，所以要構建一個快速過濾器，如果某

【IM】從貝葉斯角度理解生成式和判別式及引數估計方法

生成式和判別式及引數估計方法，綜合如下博文，參考《圖解機器學習》一書，有如下兩頁理解。 https://blog.csdn.net/fjssharpsword/article/details/79297306 https://blog.csdn.net/fjssharpsword/art

【機器學習實戰】樸素貝葉斯

一.概述二.理論基礎三.文件分類四.垃圾郵件過濾五.從個人廣告中獲取區域傾向六.程式碼問題總結七.總結一、概述貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本章首先介紹貝葉斯分類演算法的基礎——

【python與機器學習入門3】樸素貝葉斯2——垃圾郵件分類

參考部落格：樸素貝葉斯基礎篇之言論過濾器（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第四章4.6

【演算法】樸素貝葉斯法之分類演算法

樸素貝葉斯法之分類演算法說明本文只是對於樸素貝葉斯法的其中的一個分類演算法的學習。參考來源《統計學習方法》。一、輸入訓練資料 T={(x1,y1),(x2,y2),...(

【斯坦福---機器學習】複習筆記之樸素貝葉斯演算法

本講大綱： 1.樸素貝葉斯（Naive Bayes） 2.神經網路（Neural Networks） 3.支援向量機（Support vector machines） 1.樸素貝葉斯前面講的主要是是二元值的特徵，更一般化的是xi可以取{1，2，3

sklearn中的樸素貝葉斯模型及其應用

1.使用樸素貝葉斯模型對iris資料集進行花分類嘗試使用3種不同型別的樸素貝葉斯：高斯分佈型多項式型伯努利型 2.使用sklearn.model_selection.cross_val_score()，對模型進行驗證 from sklearn.datasets import load

第11次作業 sklearn中的樸素貝葉斯模型及其應用

1.使用樸素貝葉斯模型對iris資料集進行花分類嘗試使用3種不同型別的樸素貝葉斯：高斯分佈型多項式型伯努利型 from sklearn import datasets iris=datasets.load_iris() from sklearn.naive_bayes import G

機器學習實踐（九）—sklearn之樸素貝葉斯演算法

一、樸素貝葉斯演算法什麼是樸素貝葉斯分類方法屬於哪個類別概率大，就判斷屬於哪個類別概率基礎概率定義為一件事情發生的可能性 P(X) : 取值在[0, 1] 聯合概率、條件概率與相互獨立

樸素貝葉斯演算法優化與 sklearn 實現

1. 引言上一篇日誌中，我們主要介紹了貝葉斯演算法，並提供了 python 實踐：樸素貝葉斯演算法的推導與實踐但執行上一篇日誌中的示例，我們發現出現了下面的結果： ['love', 'my', 'dalmation'] 屬於非侮辱類 ['stu

【sklearn例項】1-貝葉斯演算法

問題

樸素貝葉斯求解

程式碼

相關推薦