使用機器學習完成中文文字分類

阿新 • • 發佈：2018-11-10

資料集來自七月線上練習

import jieba
import pandas as pd
import random
from sklearn.model_selection import train_test_split                #劃分訓練/測試集
from sklearn.feature_extraction.text import CountVectorizer         #抽取特徵
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer
'''
讀入資料
'''
df_technology = pd.read_csv("H:/NLP_project/NLP_project/data/technology_news.csv")
df_technology = df_technology.dropna()

df_car = pd.read_csv("H:/NLP_project/NLP_project/data/car_news.csv")
df_car = df_car.dropna()

df_entertainment = pd.read_csv("H:/NLP_project/NLP_project/data/entertainment_news.csv")
df_entertainment = df_entertainment.dropna()

df_military = pd.read_csv("H:/NLP_project/NLP_project/data/military_news.csv")
df_military = df_military.dropna()

df_sports = pd.read_csv("H:/NLP_project/NLP_project/data/sports_news.csv")
df_sports = df_sports.dropna()

'''
資料預處理
'''
technology =df_technology.content.values.tolist()[1000:21000]
car =df_car.content.values.tolist()[1000:21000]
entertainment=df_entertainment.content.values.tolist()[:20000]
military = df_military.content.values.tolist()[:20000]
sports = df_sports.content.values.tolist()[:20000]              #個類別隨機抽取20000個數

#停用詞
stopwords = pd.read_csv('H:/NLP_project/NLP_project/data/stopwords.txt',index_col=False,quoting=3,sep="\t",names=['stopword'])
stopwords = stopwords['stopword'].values


def preprocess_text(content_lines,sentences,category):
    for line in content_lines:
            segs = jieba.lcut(line)
            segs = filter(lambda x:len(x)>1,segs)               #過濾長度小於1的字元
            segs = filter(lambda x:x not in stopwords,segs)    #去停用詞
            sentences.append((" ".join(segs),category))
    return sentences

sentences = []
preprocess_text(technology, sentences, 'technology')
preprocess_text(car, sentences, 'car')
preprocess_text(entertainment, sentences, 'entertainment')
preprocess_text(military, sentences, 'military')
preprocess_text(sports, sentences, 'sports')

random.shuffle(sentences)

x,y = zip(*sentences)           #將sentence中的內容和標籤分別賦值給x,y
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=1234)         #利用模型劃分測試集和驗證集

使用CountVectorizer進行特徵提取，使用MultinomialNB分類訓練

vec = CountVectorizer(                 #特徵提取
    analyzer='word',
    ngram_range=(1,4),                 #詞特徵變為*，**，***
    max_features=20000)                #對文字抽取詞袋模型特徵
vec.fit(x_train)                       #從訓練集fit特徵

'''
使用貝葉斯分類器訓練，結果為0.87424
'''
classfier = MultinomialNB()
classfier.fit(vec.transform(x_train),y_train)
print(classfier.score(vec.transform(x_test),y_test))

使用TF-IDF進行特徵提取：

vec=TfidfVectorizer(analyzer='word', ngram_range=(1,4), max_features=20000)
vec.fit(x_train)                       #從訓練集fit特徵

'''
使用TF-IDF提取特徵，結果為0.8755
'''
classfier = MultinomialNB()
classfier.fit(vec.transform(x_train),y_train)
print(classfier.score(vec.transform(x_test),y_test))

更換訓練模型，使用SVM訓練，得到結果為：0.8851，測試時間相對較長

vec=TfidfVectorizer(analyzer='word', ngram_range=(1,4), max_features=20000)
vec.fit(x_train)                       #從訓練集fit特徵

'''
使用TF-IDF提取特徵，使用SVM訓練，結果為0.8851
'''
classfier = SVC(kernel='linear')
classfier.fit(vec.transform(x_train),y_train)
print(classfier.score(vec.transform(x_test),y_test))

另外，在訓練時可以新增進交叉驗證部分，使用交叉驗證能提高準確率，因為資料分類為5類，因此在選取Kfold交叉驗證時要儘量保證裡邊的樣本類別是相對均衡的,程式碼參考如下：

from sklearn.cross_validation import StratifiedKFold
from sklearn.metrics import accuracy_score, precision_score
import numpy as np

 def stratifiedkfold_cv(x, y, clf_class, shuffle=True, n_folds=5, **kwargs):
     stratifiedk_fold = StratifiedKFold(y, n_folds=n_folds, shuffle=shuffle)
     y_pred = y[:]
     for train_index, test_index in stratifiedk_fold:
         X_train, X_test = x[train_index], x[test_index]
         y_train = y[train_index]
         clf = clf_class(**kwargs)
         clf.fit(X_train,y_train)
         y_pred[test_index] = clf.predict(X_test)
     return y_pred

 NB = MultinomialNB()
 print (precision_score(y, stratifiedkfold_cv(vec.transform(x),np.array(y),NB), average='macro'))

使用機器學習完成中文文字分類

資料集來自七月線上練習 import jieba import pandas as pd import random from sklearn.model_selection import train_test_split #劃分訓練/測試集 from sk

【火爐煉AI】機器學習039-NLP文字分類器

【火爐煉AI】機器學習039-NLP文字分類器 (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2， NLTK 3.3) 前面我們學習了很多用NLP進行文字的分詞，文字分塊，建立詞袋模型等，這些步驟可以

中文文字分類（機器學習演算法原理與程式設計實踐筆記）

以文字分類演算法為中心，詳細介紹一箇中文文字分類專案的流程及相關知識，知識點涉及中文分詞、向量空間模型、TF-IDF方法、幾個典型的文字分類演算法；主要有樸素貝葉斯演算法，kNN最近鄰演算法。所用到的外部庫：jieba 分詞、Scikit-Learning

OpenCV3 SVM ANN Adaboost KNN 隨機森林等機器學習方法對OCR分類

轉摘自http://www.cnblogs.com/denny402/p/5032839.html opencv3中的ml類與opencv2中發生了變化，下面列舉opencv3的機器學習類方法例項：用途是opencv自帶的ocr樣本的分類功能，其中神經網路和adaboost訓練速度很慢，效

吳恩達機器學習 - 邏輯迴歸——多元分類吳恩達機器學習 - 邏輯迴歸——多元分類

原吳恩達機器學習 - 邏輯迴歸——多元分類 2018年06月19日 20:47:49 離殤灬孤狼閱讀數：98 更多

【火爐煉AI】機器學習042-NLP文字的主題建模

【火爐煉AI】機器學習042-NLP文字的主題建模 (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2， NLTK 3.3) 文字的主題建模時用NLP來識別文字文件中隱藏的某種模式的過程，可以發現該文件

機器學習：幾種分類識別問題

分類和識別是機器學習領域非常常見的一類問題，比如之前非常火熱的 ImageNet 挑戰賽，還有人臉識別，人臉表情識別等，接觸機器學習的一般來說，都是從識別開始，因為識別比較簡單直觀，而且大家都對目前識別領域比較常見的幾個資料集比如 MNIST, CIFAR-10, CIFAR-100 還

中文文字分類

將文字進行分類是自然語言處理當中最主要的工作之一，本文處理很重要的一項工作就是對文字進行向量化，本文不做詳細的介紹，只是採用TF-IDF的方法對文字進行向量化，然後分別採用SVM, Bayes, RandomForest

轉:機器學習演算法原理解析 - 分類

轉：http://www.cnblogs.com/swordfall/p/9517988.html 常見分類模型與演算法距離判別法，即最近鄰演算法KNN；貝葉斯分類器；線性判別法，即邏輯迴歸演算法；決策樹；支援向量機；神經網路； 1. KNN分類演算法

一種強化學習在NLP文字分類上的應用模型

在胳膊骨折修養的這段期間，系統的學習了一下強化學習相關的知識。正好今天看到了黃民烈老師團隊2018年在AAAI上發表的paper《Learning Structured Representation for Text Classification via Reinforcement Lear

達觀資料曾彥能：如何用深度學習做好長文字分類與法律文書智慧化處理

在NLP領域中，文字分類輿情分析等任務相較於文字抽取，和摘要等任務更容易獲得大量標註資料。因此在文字分類領域中深度學習相較於傳統方法更容易獲得比較好的效果。正是有了文字分類模型的快速演進，海量的法律文書可以通過智慧化處理來極大地提高效率。我們今天就來分析一下當前state of art的文

【機器學習筆記08】分類器（softmax迴歸)

基本定義首先給出softmax的數學定義，如下: hθ(x(i))=[p(y(i)=1∣x(i);θ)p(y(i)=2∣x(i);θ)⋮p(y(i)=k∣x(i);θ)]=1∑j=1keθjTx(i)[eθ1Tx(i)eθ2Tx(i)⋮eθkTx(i)]

如何用深度學習做好長文字分類與法律文書智慧化處理[轉]

在NLP領域中，文字分類輿情分析等任務相較於文字抽取，和摘要等任務更容易獲得大量標註資料。因此在文字分類領域中深度學習相較於傳統方法更容易獲得比較好的效果。正是有了文字分類模型的快速演進，海量的法律文書可以通過智慧化處理來極大地提高效率。我們今天就來分析一下當前state o

機器學習演算法--KNN近鄰分類演算法

KNN近鄰分類演算法演算法思想：存在一個樣本資料集合，也稱為訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類對應的關係。輸入沒有標籤的資料後，將新資料中的每個特徵與樣本集中資料對應的特徵進行比較，提取出樣本集中特徵最相似資

機器學習演算法之：分類演算法概述

By joey周琦常見的分類演算法大致可以分為三類：直接給一個discriminant function，直接確定輸入feature x的屬於哪一類。這類演算法有SVM probabilistic discriminative model.該類方法直接給P(C

吳恩達機器學習——邏輯迴歸和分類演算法

高效使用軟體如下所示，是一個函式，這是一個求theta和x的積的和的公式，這個問題我們可以輕鬆地通過矩陣的方式解決。將theta和x以如下形式表示，theta和x的矩陣的積就是這個函式的結果。求解theta的值進行邏輯分解： Th

吳恩達機器學習練習3——多元分類與神經網路

Logistic迴歸——手寫數字識別視覺化資料集該訓練樣本為5,000張20*20的書寫數字的灰度圖。 X：5000*400 y : 5000*1 在X中隨機選取100張影象並顯示 function [h, display_array] = displ

CNN-中文文字分類-開源專案-自定義資料集

最近參加學校的一個數據分析比賽，因為自己前面自學了一些基本的機器學習演算法，但其實還處於入門階段，便參加了。選擇了一道中文文字分類的題目。今日頭條使用者畫像選題背景：隨著機器創作能力越來越強，今後社會媒體上將會產生越來越多的機器創作者自動生產的內容。有效

機器學習小作業KNN分類（上）

資料預處理 1.1首先第4列資料並不影響分類結果，所以將其剔除 1.2資料集太過於奇葩，所以做了歸一化處理 1.3因為做的是分類，所以我想把值控制在0-1，所以採用的歸一化方法是：(dataSet - min)/(max-min) 1.4打亂資料集，因為本

KMeans機器學習對客戶價值分類

對原始資料進行資料清洗，生成LRFMC資料 L：成為會員時常 R：最後一次使用服務 F：使用服務總次數 M：使用服務總深度 C：平均獲得折扣值最後使用KMeans機器學習分類演算法就LRFMC指標進行分類，估計客戶價值 #python3.6.5 #-*- co

使用機器學習完成中文文字分類

相關推薦