樸素貝葉斯文字分類java實現

阿新 • • 發佈：2019-01-23


import java.io.File;
import java.util.ArrayList;
import java.util.Collections;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.data.util.IoUtil;

public 
 class NativeBayes {
    /**
     * 預設頻率
     */
    private double defaultFreq = 0.1;

    /**
     * 訓練資料的比例
     */
    private Double trainingPercent = 0.8;

    private Map<String, List<String>> files_all = new HashMap<String, List<String>>();

    private Map<String, List<String>> files_train = new 
 HashMap<String, List<String>>();

    private Map<String, List<String>> files_test = new HashMap<String, List<String>>();

    public NativeBayes() {

    }

    /**
     * 每個分類的頻率
     */
    private Map<String, Integer> classFreq = new HashMap<String, Integer>();

    private 
 Map<String, Double> ClassProb = new HashMap<String, Double>();

    /**
     * 特徵總數
     */
    private Set<String> WordDict = new HashSet<String>();

    private Map<String, Map<String, Integer>> classFeaFreq = new HashMap<String, Map<String, Integer>>();

    private Map<String, Map<String, Double>> ClassFeaProb = new HashMap<String, Map<String, Double>>();

    private Map<String, Double> ClassDefaultProb = new HashMap<String, Double>();

    /**
     * 計算準確率
     * @param reallist 真實類別
     * @param pridlist 預測類別
     */
    public void Evaluate(List<String> reallist, List<String> pridlist){
        double correctNum = 0.0;
        for (int i = 0; i < reallist.size(); i++) {
            if(reallist.get(i) == pridlist.get(i)){
                correctNum += 1;
            }
        }
        double accuracy = correctNum / reallist.size();
        System.out.println("準確率為：" + accuracy);
    }

    /**
     * 計算精確率和召回率
     * @param reallist
     * @param pridlist
     * @param classname
     */
    public void CalPreRec(List<String> reallist, List<String> pridlist, String classname){
        double correctNum = 0.0;
        double allNum = 0.0;//測試資料中，某個分類的文章總數
        double preNum = 0.0;//測試資料中，預測為該分類的文章總數

        for (int i = 0; i < reallist.size(); i++) {
            if(reallist.get(i) == classname){
                allNum += 1;
                if(reallist.get(i) == pridlist.get(i)){
                    correctNum += 1;
                }
            }
            if(pridlist.get(i) == classname){
                preNum += 1;
            }
        }
        System.out.println(classname + " 精確率(跟預測分類比較):" + correctNum / preNum + " 召回率（跟真實分類比較）:" + correctNum / allNum);
    }

    /**
     * 用模型進行預測
     */
    public void PredictTestData() {
        List<String> reallist=new ArrayList<String>();
        List<String> pridlist=new ArrayList<String>();

        for (Entry<String, List<String>> entry : files_test.entrySet()) {
            String realclassname = entry.getKey();
            List<String> files = entry.getValue();


            for (String file : files) {
                reallist.add(realclassname);


                List<String> classnamelist=new ArrayList<String>();
                List<Double> scorelist=new ArrayList<Double>();
                for (Entry<String, Double> entry_1 : ClassProb.entrySet()) {
                    String classname = entry_1.getKey();
                    //先驗概率
                    Double score = Math.log(entry_1.getValue());

                    String[] words = IoUtil.readFromFile(new File(file)).split(" ");
                    for (String word : words) {
                        if(!WordDict.contains(word)){
                            continue;
                        }

                        if(ClassFeaProb.get(classname).containsKey(word)){
                            score += Math.log(ClassFeaProb.get(classname).get(word));
                        }else{
                            score += Math.log(ClassDefaultProb.get(classname));
                        }
                    }

                    classnamelist.add(classname);
                    scorelist.add(score);
                }

                Double maxProb = Collections.max(scorelist);
                int idx = scorelist.indexOf(maxProb);
                pridlist.add(classnamelist.get(idx));
            }
        }

        Evaluate(reallist, pridlist);

        for (String cname : files_test.keySet()) {
            CalPreRec(reallist, pridlist, cname);
        }

    }

    /**
     * 模型訓練
     */
    public void createModel() {
        double sum = 0.0;
        for (Entry<String, Integer> entry : classFreq.entrySet()) {
            sum+=entry.getValue();
        }
        for (Entry<String, Integer> entry : classFreq.entrySet()) {
            ClassProb.put(entry.getKey(), entry.getValue()/sum);
        }


        for (Entry<String, Map<String, Integer>> entry : classFeaFreq.entrySet()) {
            sum = 0.0;
            String classname = entry.getKey();
            for (Entry<String, Integer> entry_1 : entry.getValue().entrySet()){
                sum += entry_1.getValue();
            }
            double newsum = sum + WordDict.size()*defaultFreq;

            Map<String, Double> feaProb = new HashMap<String, Double>();
            ClassFeaProb.put(classname, feaProb);

            for (Entry<String, Integer> entry_1 : entry.getValue().entrySet()){
                String word = entry_1.getKey();
                feaProb.put(word, (entry_1.getValue() +defaultFreq) /newsum);
            }
            ClassDefaultProb.put(classname, defaultFreq/newsum);
        }
    }

    /**
     * 載入訓練資料
     */
    public void loadTrainData(){
        for (Entry<String, List<String>> entry : files_train.entrySet()) {
            String classname = entry.getKey();
            List<String> docs = entry.getValue();

            classFreq.put(classname, docs.size());

            Map<String, Integer> feaFreq = new HashMap<String, Integer>();
            classFeaFreq.put(classname, feaFreq);

            for (String doc : docs) {
                String[] words = IoUtil.readFromFile(new File(doc)).split(" ");
                for (String word : words) {

                    WordDict.add(word);

                    if(feaFreq.containsKey(word)){
                        int num = feaFreq.get(word) + 1;
                        feaFreq.put(word, num);
                    }else{
                        feaFreq.put(word, 1);
                    }
                }
            }    


        }
        System.out.println(classFreq.size()+" 分類, " + WordDict.size()+" 特徵詞");
    }

    /**
     * 將資料分為訓練資料和測試資料
     * 
     * @param dataDir
     */
    public void splitData(String dataDir) {
        // 用檔名區分類別
        Pattern pat = Pattern.compile("\\d+([a-z]+?)\\.");
        dataDir = "testdata/allfiles";
        File f = new File(dataDir);
        File[] files = f.listFiles();
        for (File file : files) {
            String fname = file.getName();
            Matcher m = pat.matcher(fname);
            if (m.find()) {
                String cname = m.group(1);
                if (files_all.containsKey(cname)) {
                    files_all.get(cname).add(file.toString());
                } else {
                    List<String> tmp = new ArrayList<String>();
                    tmp.add(file.toString());
                    files_all.put(cname, tmp);
                }
            } else {
                System.out.println("err: " + file);
            }
        }

        System.out.println("統計資料:");
        for (Entry<String, List<String>> entry : files_all.entrySet()) {
            String cname = entry.getKey();
            List<String> value = entry.getValue();
            // System.out.println(cname + " : " + value.size());

            List<String> train = new ArrayList<String>();
            List<String> test = new ArrayList<String>();

            for (String str : value) {
                if (Math.random() <= trainingPercent) {// 80%用來訓練 , 20%測試
                    train.add(str);
                } else {
                    test.add(str);
                }
            }

            files_train.put(cname, train);
            files_test.put(cname, test);
        }

        System.out.println("所有檔案數:");
        printStatistics(files_all);
        System.out.println("訓練檔案數:");
        printStatistics(files_train);
        System.out.println("測試檔案數:");
        printStatistics(files_test);

    }

    /**
     * 列印統計資訊
     * 
     * @param m
     */
    public void printStatistics(Map<String, List<String>> m) {
        for (Entry<String, List<String>> entry : m.entrySet()) {
            String cname = entry.getKey();
            List<String> value = entry.getValue();
            System.out.println(cname + " : " + value.size());
        }
        System.out.println("--------------------------------");
    }

    public static void main(String[] args) {
        NativeBayes bayes = new NativeBayes();
        bayes.splitData(null);
        bayes.loadTrainData();
        bayes.createModel();
        bayes.PredictTestData();

    }

}

所有檔案數:
sports : 1018
auto : 1020
business : 1028
--------------------------------
訓練檔案數:
sports : 791
auto : 812
business : 808
--------------------------------
測試檔案數:
sports : 227
auto : 208
business : 220
--------------------------------
分類, 39613 特徵詞
準確率為：0.9801526717557252
sports 精確率(跟預測分類比較):0.9956140350877193 召回率（跟真實分類比較）:1.0
auto 精確率(跟預測分類比較):0.9579439252336449 召回率（跟真實分類比較）:0.9855769230769231
business 精確率(跟預測分類比較):0.9859154929577465 召回率（跟真實分類比較）:0.9545454545454546

統計資料:
所有檔案數:
sports : 1018
auto : 1020
business : 1028
--------------------------------
訓練檔案數:
sports : 827
auto : 833
business : 825
--------------------------------
測試檔案數:
sports : 191
auto : 187
business : 203
--------------------------------
分類, 39907 特徵詞
準確率為：0.9759036144578314
sports 精確率(跟預測分類比較):0.9894736842105263 召回率（跟真實分類比較）:0.9842931937172775
auto 精確率(跟預測分類比較):0.9836956521739131 召回率（跟真實分類比較）:0.9679144385026738
business 精確率(跟預測分類比較):0.9565217391304348 召回率（跟真實分類比較）:0.9753694581280788

樸素貝葉斯文字分類java實現

import java.io.File; import java.util.ArrayList; import java.util.Collections; import java.util.HashMap; import java.util.HashSet;

利用Python實現樸素貝葉斯文字分類

Python是一種面向物件、解釋型計算機程式設計語，作者是Guido van Rossum（吉多·範羅蘇姆），1991年公開正式發行。粗糙進行歸納：（1）Python是純粹自由軟體，原始碼和直

樸素貝葉斯文字分類(python程式碼實現)

樸素貝葉斯（naive bayes）法是基於貝葉斯定理與特徵條件獨立假設的分類方法。優點：在資料較少的情況下仍然有效，可以處理多分類問題。缺點：對入輸入資料的準備方式較為敏感。使用資料型別：標稱型資料。下面從一個簡單問題出發，介紹怎麼使用樸素貝葉

sklearn——樸素貝葉斯文字分類

在不去除停用詞的情況下用樸素貝進行文字分類 # 從sklearn.datasets裡匯入20類新聞文字資料抓取器。 from sklearn.datasets import fetch_20newsgroups # 從網際網路上即時下載新聞樣本,subset='all'引數

sklearn——樸素貝葉斯文字分類5

在這次的貝葉斯試驗中，用到了交叉驗證，就是假如把資料集分成10份，每次取其中的一份作為test資料，會得到10個測試的準確率，我們可以求10份的平均值，作為這一次的準確率。當我們求出測試集的矩陣大小為(18846, 173452),我們可以看出17萬個詞，其實在選擇特徵時

sklearn——樸素貝葉斯文字分類6

使用了countVectorizer和TfidfVectorizer兩個統計統計模型，來比較使用哪個模型效果更好（其實都知道tfidf比較好，數學之美中比較好講解），我們將通過影象可以看出兩個統計模型的效果，並且使用了交叉驗證#使用交叉驗證 from sklearn.dat

樸素貝葉斯文本分類簡單介紹

得到貝葉斯公式 image under ner 由於需要多少 orm 本文介紹樸素貝葉斯算法如何對文本進行分類。比如，每個用戶的購物評論就是一篇文本，識別出這篇文本屬於正向評論還是負面評論就是分類的過程，而類別就是：{正面評論，負面評論}。正面評論為Positive

詳解使用EM算法的半監督學習方法應用於樸素貝葉斯文本分類

post target 集中之間大量 ise 網上 tar 多項式 1.前言　　對大量需要分類的文本數據進行標記是一項繁瑣、耗時的任務，而真實世界中，如互聯網上存在大量的未標註的數據，獲取這些是容易和廉價的。在下面的內容中，我們介紹使用半監督學習和EM算法，充分結合大

樸素貝葉斯文本分類（詳解）

詞向量列表出現下標 put The 標註問題 else from numpy import zeros,array from math import log def loadDataSet(): #詞條切分後的文檔集合，列表每一行代表一個email p

機器學習之樸素貝葉斯(NB)分類演算法與Python實現

樸素貝葉斯（Naive Bayesian）是最為廣泛使用的分類方法，它以概率論為基礎，是基於貝葉斯定理和特徵條件獨立假設的分類方法。一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假

樸素貝葉斯（二）實現NBCorpus分類（附程式碼和資料）

公式：（P(x)為常數，可忽略不考慮）平滑：Nyk是類別為yk的樣本個數，n是特徵的維數，Nyk,xi是類別為yk的樣本中，第i維特徵的值是xi的樣本個數，α是平滑值。在對NBCorpus詞分類時，帶入上面的公式可得：某詞屬於某類別的概率 = （該類別該詞的個數 + 1/

樸素貝葉斯法分類器的Python3 實現

本篇文章是我在讀了李航的<統計學習方法>後手寫的演算法實現之一原理請參考統計學習方法第四章樸素貝葉斯法-李航程式碼如下: # - * - coding: utf - 8 -*- # # 作者：田豐 # 郵箱：[email pr

分類演算法-----樸素貝葉斯原理和python實現

本文主要介紹一下內容：1貝葉斯，2 樸素貝葉斯的推導，3 最大似然估計的推到過程，4樸素貝葉斯的計算步驟，5 貝葉斯估計 1 貝葉斯假設有兩類資料p1(x,y)表示（x,y）屬於類別1，用p2(x,y)表示（x,y）屬於類別2，那麼對於一個新的資料集（x,y），可以

使用樸素貝葉斯算法簡單實現垃圾郵件過濾

垃圾郵件相關性得到因此 block align 介紹 14. 影響一、算法介紹樸素貝葉斯法，簡稱NB算法，是貝葉斯決策理論的一部分，是基於貝葉斯定理與特征條件獨立假設的分類方法：首先理解兩個概念： · 先驗概率是指根據以往經驗和分析得到的概率，它往往作為“由因求

樸素貝葉斯演算法的python實現

import numpy as np import re #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']

機器學習之樸素貝葉斯演算法與程式碼實現

樸素貝葉斯演算法與程式碼實現演算法原理樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。該演算法的優點在於簡單易懂、學習效率高、在某些領

樸素貝葉斯原理及python實現

一、貝葉斯演算法引入樸素貝葉斯演算法是基於貝葉斯定理和特徵條件獨立假設的分類法，是一種基於概率分佈的分類演算法。貝葉斯分類演算法，通俗的來講，在給定資料集的前提下，對於一個

樸素貝葉斯演算法之python實現　統計學習方法例4.2實戰

　本人在自學李航老師的統計學習方法，在學習樸素貝葉斯章節時，其中概念非常好理解，但是準備想把課本中的例題實戰一下時卻犯了難，有點無從下手的感覺，主要是因為怎麼去合理的去寫，提高程式碼的適應性以及重複利用率。　在網上找了蠻多部落格，大部分都是是判斷情感詞等，其中有篇部落

資料探勘十大演算法（九）：樸素貝葉斯 python和sklearn實現

第三個演算法終於算是稍有了解了，其實當你結合資料瞭解了它的實現原理後，你會發現確實很樸素。這裡對樸素貝葉斯演算法做一個介紹和總結，包括（原理、一個程式碼示例、sklearn實現），皆為親自實踐後的感悟，下面進入正文。原理：首先我們需要了解概率論的一些簡單知識：

【機器學習】樸素貝葉斯基本介紹+程式碼實現

1. 基本概念根據先驗概率和似然函式來求後驗概率。一般用於分類任務。先驗概率：似然函式：後驗概率：根據條件獨立性假設：目標函式：即求解使後驗概率最大的類。訓練過程：即求各個單詞的條件概率，和類別的先驗概率。測試過程：根

樸素貝葉斯文字分類java實現

相關推薦