機器學習系列之樸素貝葉斯演算法（監督學習-分類問題）

阿新 • • 發佈：2019-02-09

'''
@description ：一級分類：監督學習，二級分類：分類（離散問題），三級分類：貝葉斯演算法
    演算法優點：
        a 樸素貝葉斯模型發源於古典數學理論，有穩定的分類效率
        b 對缺失的資料不太敏感，演算法也比較簡
        c 分類問題準確度高、速度快
    演算法缺點：
        a 由於使用了樣本屬性獨立性的假設，所以如果樣本屬性有關聯時其效果不好
    應用場景：常用於文字分類問題
@author wolf
@time   2018-05-02
'''

from sklearn.datasets import fetch_20newsgroups
from 
 sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report


def naivebases():
    # 1 讀取資料，載入sscikitLearn官方資料集

    '''
    資料集官方地址：http://sklearn.apachecn.org/cn/0.19.0/datasets/twenty_newsgroups.html
    資料集背景：20類別，18846篇文章
    資料集類別：news.target_names，news.target
    檢視文章內容：
        orign_data = list(news.data)
        for x in range(10):
            print(orign_data[x])
            print("*" * 100)
    type(news.data) 是list不是ndarray
    ''' 


    news = fetch_20newsgroups(subset='all')

    # 2 資料集分割：訓練集、測試集

    '''
    通用標準：測試集佔比25%
    type(x_train) 是list不是ndarray
    '''

    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)

    # 3 特徵工程：資料集特徵抽取
    '''
    使用tf-idf演算法：
        a 提取文章內容中分詞（通用規則按空格，英文文章不需要處理，中文需要藉助開源工具jieba按中文語義拆分中文分詞）
        b 計算分詞在文章中重要性（大部分語氣詞詞頻很高，但不能代表文件的屬性）
        c tf-idf = tf（term frequnce分詞在文章中詞頻） * idf（inverse document frequnce）
         idf = log(總文件數/該分詞出現的文件數) log:對資料函式
        d 返回所有分詞（特徵）相對於文章的重要性矩陣 tf.get_feature_names()，返回結果預設是sparse矩陣：
            x_train.toarray()
        e type（x_train） <class 'scipy.sparse.csr.csr_matrix'>,scipy基於numpy，最終資料結構ndarray
          x_train.shape:(14134, 149647)
    ''' 

    tf = TfidfVectorizer()

    # 訓練集
    x_train = tf.fit_transform(x_train)

    # 測試集
    x_test = tf.transform(x_test)

    # 4 樸素貝葉斯演算法
    '''
    演算法思想：根據目標（測試集）分詞-特徵（根據tf-idf演算法計算出重要性的分詞並在分詞中刷選重要的分詞，預設是刷選出的
        全部重要分詞）在資料集（訓練集、測試集）
        計算文章歸屬類別的概率（貝葉斯概率），最終選中概率最大類別。為了保證計算出的概率不為0，概率計算中增加拉普拉
        斯平滑係數
    數學原理：
        聯合概率：P(A&B) = P(A) * P(B)
        條件概率：P(A|C, B|C) = P(A|C) * P(B|C)
        貝葉斯公式：P(C|F1,F2...) = P(F1,F2...|C) * P(C) / P(F1,F2...)
            Ni = P(F1,F2...|C) * P(C) 指定分類特徵分詞概率
            P(C) 總文章數指定類別的概率
            P(W) = P(F1,F2...) 指定特徵分詞概率
        拉普拉斯平滑係數: (Ni + a) / (m * a) a常為1、 m常為總特徵分詞數

    '''

    # 樸素貝葉斯模型
    mlt = MultinomialNB(alpha=1.0)
    mlt.fit(x_train, y_train)

    # 預測測試集類別
    y_predict = mlt.predict(x_test)
    print("預測的文章類別為：", y_predict)

    # 模型評估
    '''
    TP、FP、TN、FN構成混淆矩陣
    準確率(accuracy) = (TP+TN) / ALL
    精確率（precision） = TP / (TP + FP)
    召回率（recall） = TP / (TP + FN)
    F1-score = 2 * precision * recall / （precision + recall）表示模型的穩定性 
    '''
    print("準確率：", mlt.score(x_test, y_test))

    rp = classification_report(y_test, y_predict, target_names=news.target_names)
    print(rp)


if __name__ == "__main__":
    naivebases()

機器學習系列之樸素貝葉斯演算法（監督學習-分類問題）

''' @description ：一級分類：監督學習，二級分類：分類（離散問題），三級分類：貝葉斯演算法演算法優點： a 樸素貝葉斯模型發源於古典數學理論，有穩定的分類效率 b 對缺失的資料不太敏感，演算法也比較簡

李航統計學習方法之樸素貝葉斯法（含python及tensorflow實現）

樸素貝葉斯法樸素貝葉斯法數學表示式後驗概率最大化的含義樸素貝葉斯是一個生成模型。有一個強假設：條件獨立性。我們先看下樸素貝葉斯法的思想，然後看下條件獨立性具體數學表示式是什麼樣的。

資料探勘領域十大經典演算法之—樸素貝葉斯演算法（超詳細附程式碼）

簡介 NaïveBayes演算法，又叫樸素貝葉斯演算法，樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。屬於監督學習的生成模型，實現簡單，沒有迭代，並有堅實的數學理論（即貝葉斯定理）作為支撐。在大量樣本下會有較好的表現，不適用於輸入向量的特徵條件有關聯的場景。基本思想 (1)

我的第一篇學習筆記——使用樸素貝葉斯演算法對文件分類詳解

樸素貝葉斯演算法可以實現對文件的分類，其中最著名的應用之一就是過濾垃圾郵件。先做一個簡單的分類，以論壇的留言為例，構建一個快速的過濾器，來區分哪些留言是負面言論，哪些是正面言論。我對演算法思路的理解：首先計算訓練集中每個詞語分別在正面（負面）文件中出現的概率以及正面（負面

機器學習實踐（九）—sklearn之樸素貝葉斯演算法

一、樸素貝葉斯演算法什麼是樸素貝葉斯分類方法屬於哪個類別概率大，就判斷屬於哪個類別概率基礎概率定義為一件事情發生的可能性 P(X) : 取值在[0, 1] 聯合概率、條件概率與相互獨立

機器學習之樸素貝葉斯演算法與程式碼實現

樸素貝葉斯演算法與程式碼實現演算法原理樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。該演算法的優點在於簡單易懂、學習效率高、在某些領

【斯坦福---機器學習】複習筆記之樸素貝葉斯演算法

本講大綱： 1.樸素貝葉斯（Naive Bayes） 2.神經網路（Neural Networks） 3.支援向量機（Support vector machines） 1.樸素貝葉斯前面講的主要是是二元值的特徵，更一般化的是xi可以取{1，2，3

機器學習入門之樸素貝葉斯法

樸素貝葉斯法樸素貝葉斯法是基於貝葉斯定理和特徵條件獨立假設分類方法。對於給定訓練集，首先基於特徵條件獨立性的假設，學習輸入/輸出聯合概率（計算出先驗概率和條件概率，然後求出聯合概率）。然後基於此模型，給定輸入x，利用貝葉斯概率定理求出最大的後驗概率作為輸出y

機器學習實戰之樸素貝葉斯

問題1 來源：使用樸素貝葉斯過濾垃圾郵件描述：spamTest()和textParse()讀檔案時編譯通不過報錯：UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal

【python】機器學習實戰之樸素貝葉斯分類

一，引言　　前兩章的KNN分類演算法和決策樹分類演算法最終都是預測出例項的確定的分類結果，但是，有時候分類器會產生錯誤結果；本章要學的樸素貝葉斯分類演算法則是給出一個最優的猜測結果，同時給出猜測的概率估計值。 1 準備知識：條件概率公式相信學過概率論的同學對於概

機器學習實戰之樸素貝葉斯_程式碼註釋

#-*- coding: UTF-8 -*- from numpy import * def loadDataSet():#建立包含文件的訓練集和各文件對應的標籤列表 postinglist = [['my','dog','has','flea','problems',

《機器學習實戰》學習筆記之樸素貝葉斯（Naive Bayes）

原理假如郵箱中有n個單詞，如果returnVec[i]=0代表這個單詞在這封郵件中不出現， returnVec[i]=1代表這個單詞在郵件中出現了。設訓練集中每個郵件都有標記為是垃圾郵件和不是垃圾郵件，是垃圾郵件的分類為1，不是垃圾郵件的分類為0。演算法原理：

【ML學習筆記】樸素貝葉斯演算法的demo（機器學習實戰例子）

礙於這學期課程的緊迫，現在需要儘快從課本上掌握一些ML演算法，我本不想經過danger zone，現在看來卻只能儘快進入danger zone，數學理論上的缺陷只能後面找時間彌補了。如果你在讀這篇文章，希望你不要走像我一樣的道路，此舉實在是出於無奈，儘量不要去做一個心

機器學習筆記5——樸素貝葉斯演算法

在上一講中，我們瞭解到了樸素貝葉斯以及laplace平滑。這一小節中，我們將要改進樸素貝葉斯演算法。原有的樸素貝葉斯中的特徵值xi是隻取0和1兩個值，現在要對樸素貝葉斯進行一般化，以適應於特徵值取值範圍為{1,2,...,k}這種情況。一般化過程中，對p(x

生成學習演算法之樸素貝葉斯演算法

2 樸素貝葉斯演算法在GDA中，特徵向量是連續的實值向量。現在讓我們討論一種不同的學習演算法，在這個演算法中，是離散值。對於我們的激勵的例子，考慮使用機器學習建立一個電子郵件的垃圾郵件過濾器。這裡，我們希望根據它們是未經請求的商業（垃圾）電子郵件還是非垃圾郵件進行分

統計學習筆記之樸素貝葉斯

簡介如果說前面筆記中所介紹的方法跟統計沒什麼明顯聯絡的話，那麼這裡介紹的樸素貝葉斯就純粹在用基於統計的方法解決問題。首先樸素貝葉斯是基於貝葉斯和特徵條件獨立假設的分類方法。通過特徵條件獨立假設來學習輸入/輸出的聯合分佈（P(x,y)），同時根據貝葉斯定理預測給定輸入x的後

用Python Scikit-learn 實現機器學習十大演算法--樸素貝葉斯演算法（文末有程式碼）

1，前言很久不發文章，主要是Copy別人的總感覺有些不爽，所以整理些乾貨，希望相互學習吧。不囉嗦，進入主題吧，本文主要時說的為樸素貝葉斯分類演算法。與邏輯迴歸，決策樹一樣，是較為廣泛使用的有監督分類演算法，簡單且易於理解（號稱十大資料探勘演算法中最簡單的演算法）。但

Python機器學習筆記：樸素貝葉斯演算法

　　樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。對於大多數的分類演算法，在所有的機器學習分類演算法中，樸素貝葉斯和其他絕大多數的分類演算法都不同。比如決策樹，KNN，邏輯迴歸，支援向量機等，他們都是判別方法，也就是直接學習出特徵輸出Y和特徵X之間的關係，要麼是決策函式，要麼是條

《統計學習方法》+樸素貝葉斯演算法+C++程式碼（簡單）實現

首先，學習樸素貝葉斯演算法得了解一些基本知識，比如全概率公式和貝葉斯公式，這些知識隨便找一本書或者在網上都能夠獲得。在此，這裡僅關注貝葉斯演算法本身，以及其具體的實現（以例4.1的例子為參考）。貝葉斯演算法：程式設計實現以上演算法，

R語言之樸素貝葉斯演算法應用

樸素貝葉斯演算法在R語言中的應用，對應klaR包中的NaiveBayes（）方法。問題描述：主要通過樸素貝葉斯演算法對於測試資料集中的nmkat屬性值進行預測，我們使用的資料是KKNN包中的自帶資料m

機器學習系列之樸素貝葉斯演算法（監督學習-分類問題）

相關推薦