Unigram 和bigram 對yelp資料集進行垃圾評論識別分類 python

阿新 • • 發佈：2019-01-30

依舊是對yelp資料集處理，之前效果不理想，後來仔細看了論文，用的是SVMlight分類器…（使用方法見上一篇文章），效果就差不多了。。。。

過程就是對英文進行處理（去停用，去高頻和低頻），化為詞袋模型，處理成SVMlight的格式，進行分類。貼部分程式碼。

對資料處理：

for c in cos:
    cis_2=[]
    id = c.split(' ')[0]
    content = c[len(id) + 2:-4]
    s = nltk.stem.SnowballStemmer('english')
    content = s.stem(content)

    # 分割成句子、分割成單詞 

    sentences = nltk.sent_tokenize(content)
    words = []
    for sen in sentences:
        words.extend(nltk.word_tokenize(sen))
    # 去除停用詞
    stopwords = nltk.corpus.stopwords.words('english')
    filtered = [w for w in words if (w not in stopwords)]

    #2-gram
    for i in range(len(filtered)):
        c=filtered[i]
        cis_2.append(c)
    for 
 i in range(len(filtered) - 1):
        c = filtered[i] + filtered[i + 1]
        cis_2.append(c)

    contents.append(cis_2)

形成詞典去除低頻和高頻


#去掉低頻詞高頻
d=defaultdict(int)
for m in contents:
    for n in m:
        d[n] +=1
print(d.items())

contents = [[token for token in text if 3000>d[token] >5 
]
         for text in contents]
#形成字典
dictionary = corpora.Dictionary(contents)
print(len(dictionary))
#將文字轉化為詞袋模型的向量，返回的一個個二元組
#比如（0，2）代表第0個次出現了2次
corpus = [dictionary.doc2bow(text) for text in contents]

這裡寫圖片描述

還可以，recall還有提升，畢竟具體預處理細節也不知道

Unigram 和bigram 對yelp資料集進行垃圾評論識別分類 python

依舊是對yelp資料集處理，之前效果不理想，後來仔細看了論文，用的是SVMlight分類器…（使用方法見上一篇文章），效果就差不多了。。。。過程就是對英文進行處理（去停用，去高頻和低頻），化為詞袋模型，處理成SVMlight的格式，進行分類。貼部分程式碼。

R_Studio(關聯)對Groceries資料集進行關聯分析

　　　　　　RGui的arules程式包裡含有Groceries資料集，該資料集是某個雜貨店一個月真實的交易記錄，共有9835條消費記錄，169個商品 #install.packages("arules") libra

[譯]使用 Pandas 對 Kaggle 資料集進行統計資料分析

原文地址：EXPLORATORY STATISTICAL DATA ANALYSIS WITH A KAGGLE DATASET USING PANDAS 原文作者：Strikingloo 譯文出自：掘金翻譯計劃本文永久連結：github.com/xitu/gold-m…

Tensorflow學習教程------利用卷積神經網路對mnist資料集進行分類_利用訓練好的模型進行分類

#coding:utf-8 import tensorflow as tf from PIL import Image,ImageFilter from tensorflow.examples.tutorials.mnist import input_data def imageprepare(ar

keras RNN、LSTM對IMDB資料集進行分類

本文介紹如何基於keras採用RNN和LSTM對IMDB資料集進行分類。示例程式碼： from keras.layers import SimpleRNN from keras.models import Sequential from keras.layers import Embedd

Bobo老師機器學習筆記第七課-使用PCA對MNIST資料集進行降噪

問題1：什麼是MNIST資料集？ MNIST 資料集來自美國國家標準與技術研究所, National Institute of Standards and Technology (NIST). 訓練集 (training set) 由來自 250 個不同人手寫的數字構成

TensorFlow深度學習實戰（一）：AlexNet對MNIST資料集進行分類

概要進來一段時間在看深度學習中經典的CNN模型相關論文。同時，為了督促自己學習TensorFlow，通讀論文之後開始，利用TensorFlow實現各個模型，復現相關實驗。這是第一篇論文講解的是AlexNet，論文下載網址為：ImageNet Classific

[PyTorch小試牛刀]實戰三·DNN實現邏輯迴歸對FashionMNIST資料集進行分類

[PyTorch小試牛刀]實戰三·DNN實現邏輯迴歸對FashionMNIST資料集進行分類內容還包括了網路模型引數的保存於載入。資料集下載地址程式碼部分 import torch as t import torchvision as tv import numpy as n

使用libsvm對MNIST資料集進行實驗

svm_type c_svc kernel_type linear 使用線性分類器 nr_class 2二分類 total_sv 15支援向量個數 rho 0.307309 label 1 -1 nr_sv 8 7正負類的支援向量（SV）個數 SV 1 1:7.213038 2:0.198066 1 1:-

樸素貝葉斯對鳶尾花資料集進行分類

注：本人純粹為了練手熟悉各個方法的用法使用高斯樸素貝葉斯對鳶尾花資料進行分類程式碼： 1 # 通過樸素貝葉斯對鳶尾花資料進行分類 2 3 from sklearn import datasets 4 from sklearn.model_selection import train_

使用KNN對MNIST資料集進行實驗

之前使用SVM對MNIST資料集進行了分類實驗，得到了98.46%的分類正確率（見：使用libsvm對MNIST資料集進行實驗）。今天用python寫了個小程式，來測試一下KNN的分類效果。由於KNN的計算量太大，還沒有使用KD-tree進行優化，所以對於60000訓練

使用Decision Tree對MNIST資料集進行實驗

之前已經對MNIST使用過SVM和KNN的方法進行分類，效果看起來還不錯。今天使用決策樹來實驗，看看結果如何。使用的Decision Tree中，對MNIST中的灰度值進行了0/1處理，方便來進行分類和計算熵。使用較少的測試資料測試了在對灰度值進行多分類的情況下，分類結

Tensorflow（五）使用CNN對MNIST資料集進行分類

在tensorflow（二）中對MNIST資料集進行分類使用單層神經網路，梯度下降法以0.2的學習因子迭代了100次取得了92%的準確率，這個網路很簡單，使用較大的學習因子也不會出現梯度爆炸或者梯度消失的情況，但是在複雜些的網路，比如這裡用到的三層CNN網路使用0.2的學習因

【深度學習】IMDB資料集上電影評論二分類

任務描述根據電影評論的文字內容來將電影劃分為正面或者負面。 IMDB資料集 50000條兩級分化的評論。正面負面各為50%。 # 載入資料 from keras.datasets import imdb (train_data, train_labels), (test

資料處理-------利用jieba對資料集進行分詞和統計頻數

一，對txt檔案中出現的詞語的頻數統計再找出出現頻率多的二，程式碼： import re from collections import Counter import jieba def cut_word(datapath): with open(

Delphi中使用cxGrid對資料集進行Sort和Locate操作

　　核心提示：在編寫某個系統時，由於使用了資料集型別無關技術(即資料集可能是ADOQuery，也有可能是TClientDataSet等等)。當需要對資料進行排序和查詢時，只好利用cxGrid自身的功能來實現：fun... 在編寫某個系統時，由於使用了資料集型別無關技術(即資料集可能是ADOQuery，也有可

使用PCA對資料集進行降維

使用PCA對資料集進行降維一、實驗準備 1、實驗內容和目的使用主成分分析(PCA)對鳶尾花資料集進行降維操作，其中要求繪製出降維後的資料分佈散點圖並說明降維後的維度，提取的主成分的特徵值其中資料集檔案為iris.data.txt。

keras對貓、狗資料集進行分類（三）

使用已訓練模型對貓狗圖片進行測試，以及視覺化模型訓練過程。示例程式碼： # # 視覺化卷積神經網路 # # 人們常說，深度學習模型是“黑盒子”，學習表示難以提取並以人類可讀的形式呈現。 # 雖然對於某些型別的深度學習模型來說這是部分正確的，但對於小行星來說絕對不是這樣。 # 由con

利用python對泰坦尼克號資料集進行分析

一、資料來源資料集來自於Kaggle。Kaggle是一個數據分析建模的應用競賽平臺。當然也可以從其它地方下。二、相關工具 2.1 Python 3.5.2 2.2 Anaconda 3 三、牛刀小試 3.1 匯入訓練資料集 import pandas as

Spark中元件Mllib的學習11之使用ALS對movieLens中一百萬條（1M）資料集進行訓練，並對輸入的新使用者資料進行電影推薦

1解釋 spark-1.5.2 資料集：http://grouplens.org/datasets/movielens/ 一百萬條（1M）資料劃分：將樣本評分表以key值切分成3個部分，分別用於訓練 (60%，並加入使用者評分), 校驗 (20

Unigram 和bigram 對yelp資料集進行垃圾評論識別分類 python

相關推薦