自然語言處理一：基於樸素貝葉斯的語種檢測

阿新 • • 發佈：2019-01-02

本文來自是對七月線上寒小陽自然語言處理課程的總結。

本文使用樸素貝葉斯完成一個語種檢測的分類器，準確度經過簡單的引數調優可以達到99.1%。

機器學習的演算法要取得好效果，離不開資料，咱們先拉點資料（twitter資料，包含English, French, German, Spanish, Italian 和 Dutch 6種語言）瞅瞅。

# 讀取資料
in_f = open('data.csv')
lines = in_f.readlines()
in_f.close()
# 把資料和標籤以list形式存入到dataset中
dataset = [(line.strip()[:-3], line.strip()[-2:]) for line in lines]

檢視資料的樣子

print（dataset[:5]）

[('1 december wereld aids dag voorlichting in zuidafrika over bieten taboes en optimisme',
  'nl'),
 ('1 mill\xc3\xb3n de afectados ante las inundaciones en sri lanka unicef est\xc3\xa1 distribuyendo ayuda de emergencia srilanka',
  'es'),
 ('1 mill\xc3\xb3n de fans en facebook antes del 14 de febrero y paty miki dani y berta se tiran en paraca\xc3\xaddas qu\xc3\xa9 har\xc3\xadas t\xc3\xba porunmillondefans',
  'es'),
 ('1 satellite galileo sottoposto ai test presso lesaestec nl galileo navigation space in inglese',
  'it'),
 ('10 der welt sind bei', 'de')]

為了一會兒檢測一下咱們的分類器效果怎麼樣，我們需要一份測試集。

所以把原資料集分成訓練集的測試集，咱們用sklearn自帶的分割函式。

from sklearn.model_selection import train_test_split
x, y = zip(*dataset)
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1)

模型要有好效果，資料質量要保證

我們用正則表示式，去掉噪聲資料

import re

def remove_noise(document):
    noise_pattern = re.compile("|".join(["http\S+", "\@\w+", "\#\w+"]))
    clean_text = re.sub(noise_pattern, "", document)
    return clean_text.strip()

remove_noise("Trump images are now more popular than cat gifs. @trump #trends http://www.trumptrends.html")

輸出為：

'Trump images are now more popular than cat gifs.'

下一步要做的就是抽取特徵，構建模型

from sklearn.feature_extraction.text import CountVectorizer
N = range(1, 10, 1)
test_score_list = []
for n in N:
    vec = CountVectorizer(
        lowercase=True,     # lowercase the text
        analyzer='char_wb', # tokenise by character ngrams
        ngram_range=(1, n),  # use ngrams of size 1 and 2
        max_features=1000,  # keep the most common 1000 ngrams
        preprocessor=remove_noise
    )
    vec.fit(x_train)

    # 把分類器import進來並且訓練
    from sklearn.naive_bayes import MultinomialNB
    classifier = MultinomialNB()

    classifier.fit(vec.transform(x_train), y_train)
    # 看看我們的準確率如何
    s = classifier.score(vec.transform(x_test), y_test)
    print('n-gram 的取值為',n,'所對應的精度取值',s)
    test_score_list.append(s)

由下圖可以看出當ngram的取值為4是精度最高：

畫出不同gram的不同取值對最後結果的影響

import matplotlib.pyplot as plt
plt.plot(N, test_score_list)
plt.title('Relationship of N and test_score')
plt.xlabel('N-gram')
plt.ylabel('test_score')
plt.show()

圖如下：

自然語言處理一：基於樸素貝葉斯的語種檢測

本文來自是對七月線上寒小陽自然語言處理課程的總結。本文使用樸素貝葉斯完成一個語種檢測的分類器，準確度經過簡單的引數調優可以達到99.1%。機器學習的演算法要取得好效果，離不開資料，咱們先拉點資料（twitter資料，包含English, French, Germa

資料探勘：基於樸素貝葉斯分類演算法的文字分類實踐

前言：如果你想對一個陌生的文字進行分類處理，例如新聞、遊戲或是程式設計相關類別。那麼貝葉斯分類演算法應該正是你所要找的了。貝葉斯分類演算法是統計學中的一種分類方法，它利用概率論中的貝葉斯公式進行擴充套件。所以，這裡建議那些沒有概率功底或是對概率論已經忘記差不多的讀者可

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

統計學習四：1.樸素貝葉斯

isp 基本基礎 ase 問題 math ots 特征正數全文引用自《統計學習方法》（李航）樸素貝葉斯(naive Bayes)法是以貝葉斯定理為基礎的一中分類方法，它的前提條件是假設特征條件相互獨立。對於給定的訓練集，它首先基於特征條件假設的前提條件，去學習

基於樸素貝葉斯分類器的 20-news-group分類及結果對比(Python3)

之前看了很多CSDN文章，很多都是根據stack overflow 或者一些英文網站的照搬。導致我看了一整天最後一點收穫都沒有。這個作業也借鑑了很多外文網站的幫助但是是基於自己理解寫的，算是一個學習筆記吧。環境是python3(海外留學原因作業是英文的，渣英語見諒吧）程式碼最後附上。 M

基於樸素貝葉斯算法的情感分類

set 求最大值記錄變焦 def ... rop ros 結果環境 win8, python3.7, jupyter notebook 正文什麽是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opi

kaggle | 基於樸素貝葉斯分類器的語音性別識別

概要：本實驗基於kaggle上的一個資料集，採用樸素貝葉斯分類器，實現了通過語音識別說話人性別的功能。本文將簡要介紹這一方法的原理、程式碼實現以及在程式設計過程中需要注意的若干問題，程式碼仍然是用MATLAB寫成的。關鍵字： MATLAB; 語音性別識別

MINIST | 基於樸素貝葉斯分類器的0-9數字手寫體識別

概要：本實驗基於MINIST資料集，採用樸素貝葉斯分類器，實現了0-9數字手寫體的識別。本文將簡要介紹這一方法的原理、程式碼實現以及在程式設計過程中需要注意的若干問題，程式碼仍然是用MATLAB寫成的。關鍵字： MATLAB; 影象處理; 數字手寫體識別

Python--基於樸素貝葉斯演算法的情感分類

環境 win8, python3.7, jupyter notebook 正文什麼是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opinion extraction），意見挖掘（Opinion mining），情感挖掘（Sentiment

基於樸素貝葉斯的垃圾郵件過濾

1.文字切分 #對於一個文字字串，可以使用Python的string.split()方法將其切分 mySent = 'This book is the best book on python or M.L. I have ever laid eyes upon' word

基於樸素貝葉斯分類演算法實現垃圾郵箱分類

貝葉斯決策理論在機器學習中，樸素貝葉斯是基於貝葉斯決策的一種簡單形式,下面給出貝葉斯的基本公式，也是最重要的公式：其中X是一個m*n的矩陣，m為他的樣本數，n為特徵的個數，即我們要求的是：在已知的樣本情況下的條件概率。 )表示

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

基於樸素貝葉斯的關於網際網路金融新聞分類（python實現）

中國網際網路金融發展迅速，2014年是中國網際網路金融起步的一年，但在短短的一年時間內，網際網路金融創業者們融資額度一再創高，雨後春筍般湧現出各類網際網路金融產品讓使用者眼花繚亂，隨著創業門檻的降低，在即將到來的2015年，網際網路金融必將在中國掀起熱潮。

基於樸素貝葉斯分類器的文字分類

實驗要求題目要求 1、用MapReduce演算法實現貝葉斯分類器的訓練過程，並輸出訓練模型； 2、用輸出的模型對測試集文件進行分類測試。測試過程可基於單機Java程式，也可以是MapRe

基於樸素貝葉斯的新聞分類

貝葉斯理論在我們有一大堆樣本（包含特徵和類別）的時候，我們非常容易通過統計得到 p(特徵|類別) . 大家又都很熟悉下述公式： #coding: utf-8 import os import time import random import

基於樸素貝葉斯的中文文字分類器(python實現，非呼叫)

本文將用樸素貝葉斯原理做一箇中文文字分類器。樸素貝葉斯完全可以勝任多分類任務。為了方便，這裡就先做個2分類的。理論部分：https://blog.csdn.net/montecarlostyle/article/details/79870860 我們事先準備兩

機器學習：半樸素貝葉斯分類器

請點選上面公眾號，免費訂閱。主要推送關於對演算法的思考以及應用的訊息。培養思維能力，注重過程，挖掘背後的原理，刨根問底。本著嚴謹和準確的態度，目標是撰寫實用和啟發性的文章，歡迎您的關注。 0

基於樸素貝葉斯的定位演算法

1 定位背景介紹一說到定位大家都會想到gps，然而gps定位有首次定位緩慢（具體可以參考之前的博文《LBS定位技術》）、室內不能使用、耗電等缺陷，這些缺陷大大限制了gps的使用。在大多數移動網際網路應用例如google地圖、百度地圖等，往往基於wifi、基站來進行定位。一般

狄利克萊過程模型(一)：非引數貝葉斯無限混合模型和Dirichlet過程

[作者按] 這篇文章是根據edwin Chen的部落格 http://blog.echen.me/2012/03/20/infinite-mixture-models-with-nonparametric-bayes-and-the-dirichlet-process/ 和

從爬取豆瓣影評到基於樸素貝葉斯的電影評論情感分析(上)

一、爬取豆瓣影評基本思路：先獲取每個電影的評論區連結，然後依次進入其評論區爬取評論。選取10部電影，每部200條評論。用到的包為：BeautifulSoup，urllib 這裡選取的連結為：豆瓣電影，開啟後內容如下：

自然語言處理一：基於樸素貝葉斯的語種檢測

相關推薦