基於協同訓練的半監督文字分類演算法

阿新 • • 發佈：2018-11-09

標籤：半監督學習，文字分類
作者：煉己者
---
本部落格所有內容以學習、研究和分享為主，如需轉載，請聯絡本人，標明作者和出處，並且是非商業用途，謝謝！
如果大家覺得格式看著不舒服，也歡迎大家去看我的簡書

半監督學習文字分類系列

用半監督演算法做文字分類(sklearn)
sklearn半監督學習(sklearn)
基於自訓練的半監督文字分類演算法

一. 摘要

本文主要講述基於協同訓練的半監督演算法做文字分類，用三個差異性比較大的分類器對未標註資料進行標註，它們可以進行交叉驗證，大大提升了對未標註資料標記的置信度(簡單理解就是三個分類器同時對一個未標註資料標記一樣的標籤，那麼這個標籤就可信了)，從而提高分類器標註的準確率

二. 操作流程

1. 文字預處理

這裡就不再贅述，參考這篇文章：中文文字預處理流程
這上面的流程很完整，而且有程式碼，你只需要按著那個操作來即可

2. 協同訓練的操作方法

操作思路：

把資料data平均分成三份data1,data2,data3(也就是把上面操作之後得到的文字向量均分成三份)
寫一個函式：包含三個分類演算法。就是構建三個差異性較大的分類器，我採用的是SVM，貝葉斯，xgboost三種演算法。
用data1訓練SVM分類器，用data2訓練貝葉斯分類器，用data3訓練xgboost分類器。這樣我們就得到了三個初步訓練好的分類器。
接下來就是對剩下的所有未標註資料進行操作了，未標註資料一條一條過
操作思路：假設有10條未標註資料，第一條取出來了，三個分類器對它進行預測。有以下三種可能：
- 如果大家預測的都一樣，那就把它連同預測的標籤加入到總的訓練集data裡。
- 如果有兩個預測的一樣，另外一個分類器預測的不一樣，比如SVM和貝葉斯預測的一樣，xgboost的不一樣，就把它們倆的標註結果放到data3裡，然後再讓xgboost對更新的data3進行訓練。
- 如果大家都預測的不一樣，就把它放回未標註資料中

這樣操作的目的就是為了不斷地訓練三個分類器，讓它們最終對未標註資料預測的結果一樣。這樣一條一條未標註資料地過，直到未標註資料為空，最終過完。

3. 測試結果

我選了5000條資料進行預測。

測試的操作流程

把測試資料用同樣的方法轉化成文字向量

上面訓練過程中會儲存模型，怎麼操作可以看這篇文章：
如何儲存sklearn訓練好的演算法模型
你把所有的模型都儲存到一個目錄下了，那麼我們進行預測的時候怎麼批量地讀取這些模型呢？簡單地說就是怎麼把目錄下所有的檔案的檔名讀取到一個列表上。看這裡—— python如何獲取目錄下的所有檔名
讀取模型，呼叫sklearn裡的函式計算精度。因為儲存的模型太多了，我是每種模型取100個左右，做測試，然後畫折線圖，看看精度的變化情況。

先放圖，看結果

1）這是svm的結果，我們發現訓練到後面，模型的效果在降低

svm

2）這是bayes的結果，一開始有點詭異，但後面趨於穩定

bayes

3）這是xgboost的結果，很鬼畜，不知道為什麼會如此波動

xgboost

從模型效果上來講，我選出了每種模型效果最好的情況

SVM：0.62
bayes：0.67
xgboost：0.75

4.結論

從圖中觀察，我們發現：svm先升後降，bayes先升後穩定，而xgboost很鬼畜。但是效果xgboost是最強的。這裡面的原因我知識有限，暫時無法解釋，大夥要是有什麼想法可以在底下評論，我們可以交流交流

基於協同訓練的半監督文字分類演算法

標籤：半監督學習，文字分類作者：煉己者 --- 本部落格所有內容以學習、研究和分享為主，如需轉載，請聯絡本人，標明作者和出處，並且是非商業用途，謝謝！如果大家覺得格式看著不舒服，也歡迎大家去看我的簡書半監督學習文字分類系列用半監督演算法做文字分類(sklearn) sklearn半監督學習(

基於機器學習的文字分類演算法的研究

1. 簡述文字分類的方法屬於有監督的學習方法，分類過程包括文字預處理、特徵抽取、降維、分類和模型評價。本文首先研究了文字分類的背景，中文分詞演算法。然後是對各種各樣的特徵抽取進行研究，包括詞項頻率-逆文件頻率和word2vec，降維方法有主成分分析法和潛在索引分析，最後是對分類演算法進行研究，

資料科學個人筆記：推薦系統之推薦演算法（基於內容+標籤+半監督學習模型）

一、基於內容的模型（一）推薦系統冷啟動問題使用者冷啟動：給新使用者推薦物品冷啟動：新物品被推薦系統冷啟動：為新開發的網站（還沒有使用者和使用者行為，只有一些物品資訊）設計推薦系統冷啟動問題的一些解決方案：1.推薦熱門；2.用註冊資訊進行粗粒度的個性化；3.

基於樸素貝葉斯分類器的文字分類演算法（上）

轉載請保留作者資訊：作者：phinecos（洞庭散人） Preface 本文緣起於最近在讀的一本書-- Tom M.Mitchell的書中第6章詳細講解了貝葉斯學習的理論知識，為了將其應用到實際中來，參考了網上許多資料，從而得此文。文章將分為兩個部分，第一部分將介紹貝葉斯學習的相關理論()。第二部

【分類——筆記01】基於稀疏編碼的半監督影象分類研究

/****************************************************************************** 1.《基於稀疏編碼的半監督影象分類研究》作者：陳漢英學科：計算機應用技術完成時間：2014年4月 *****

文字分類——演算法效能評估

內容提要資料集英文語料中文語料評估指標召回率與準確率 F1-評測值微平均與巨集平均混淆矩陣優秀的文字分類模型必須經得住真實資料集的驗證，因而分類器

半監督的GAN演算法

ImprovedGAN $ Loss = Loss_{supervised} + \lambda * Loss_{unsupervised} $ 第二項形式與原始的GAN模型類似。參考： Improved Techniques for Training GANs 程式碼： https://

基於協同表徵的人臉識別(CRC)演算法

1.標準的基於協同表徵的人臉識別(CRC)問題流程如下： (1)構建訓練樣本字典矩陣A和測試樣本y。假設訓練用的人臉庫中有a個人，每人b張人臉影象。對每張影象進行特徵提取。特徵提取的方法有：基於影象畫素點數值的方法，基於支援向量機的方法，基於子空間分析的方法，基於馬爾科夫鏈模型的方法，基於集合特

從零開始的文字TF-IDF向量構造和基於餘弦相似度的文字分類

一、任務需求 1、給定資料庫裡面的N行資料每行代表一篇文章，屬性分別是[id, title, summuary,content] ，從mysql資料庫獲取資料並生成DataFrame格式的資料，有兩列，分別是id 和con

基於tflearn使用lstm實現文字分類

模型訓練部分程式碼 # -*- coding: utf-8 -*- from __future__ import division, print_function, absolute_import import tflearn import os import numpy import jie

基於ML-KNN的多標籤分類演算法

最近有一個專案需要用多標籤分類思想來建模，之前對這塊不是太瞭解，查了一些論文，發現目前主流的演算法包括ML-KNN、ML-DT、Rank-SVM、CML等，其中ML-KNN演算法思想最簡單，結合原始論文，本文大概介紹下演算法思想和程式碼實現。 ML-KNN

文字分類演算法之--貝葉斯分類演算法的實現Java版本

package com.vista;import com.vista.ChineseSpliter;import com.vista.ClassConditionalProbability;import com.vista.PriorProbability;import com.vista.Trainin

文字分類演算法--樸素貝葉斯

貝葉斯定理貝葉斯定理用公式表示： p(Y|X)=P(X|Y)P(Y)p(X) 其中，p(Y)是先驗概率，P(Y|X)是後驗概率，也就是要求的概率。樸素貝葉斯演算法原理樸素貝葉斯分類演算法是一種生成模型。訓練的過程是學習聯合概率分佈p(x,

文字分類演算法綜述

業務背景最近一段時間在今日頭條國際化部門實習，做的文字質量工作。主要是文字分類，就是用一些機器學習或者深度學習的方法過濾掉低俗的新聞。因為做的是小語種，比如說法語，德語，意語，泰米爾語等，標註力量特別有限，有些語種甚至找不到標註人員。在這種情況下，要通過模型準確的識別出低俗新

基於tensorflow 的cnn實現文字分類

# coding: utf-8 # In[72]: import os, xlrd import codecs, re import jieba import rarfile import os import jieba.analyse # In[22]:

文字分類演算法之--KNN演算法的簡介

1、KNN演算法的簡介 kNN演算法就是找到k個最相似的樣本，這些樣本所在的類，就是當前文件的所屬的類。如下圖：綠色圓圈表示你想分類的文字，其他是已知類別的樣本。圖中其他形狀和綠色圓圈的距離代表了相似

基於Tensorflow的LSTM-CNN文字分類模型

題記前段時間再看QA方面的文章，讀了一篇paper（《LSTM-based deep learning model for non-factoid answer selection》）中，使用了LSTM-CNN模型來做answer與question的語義抽取。受此啟發

一種根據關鍵字進行分類的文字分類演算法

這樣我們可以得出這個演算法的重點： 1.提取關鍵字如何自動提取關鍵字呢？我們知道IDF值在一定程度上可以表達一個詞的重要程度，像“我的”，“你的”這樣的關鍵字肯定無法判斷出文章的類別，他們的IDF值也是較低的。而“AK47”，“火箭炮”這樣的關鍵字可以

文字處理——基於 word2vec 和 CNN 的文字分類：綜述 & 實踐（一）

導語傳統的向量空間模型（VSM）假設特徵項之間相互獨立，這與實際情況是不相符的，為了解決這個問題，可以採用文字的分散式表示方式(例如 word embedding形式)，通過文字的分散式表示，把文字表示成類似影象和語音的連續、稠密的資料。這樣我們就可以把深度學習方法遷移到文字

fastrtext︱R語言使用facebook的fasttext快速文字分類演算法

FastText是Facebook開發的一款快速文字分類器，提供簡單而高效的文字分類和表徵學習的方法，不過這個專案其實是有兩部分組成的。理論介紹可見部落格：NLP︱高階詞向量表達（二）——FastText（簡述、學習筆記）本輪新更新的fastr

基於協同訓練的半監督文字分類演算法

半監督學習文字分類系列

一. 摘要

二. 操作流程

1. 文字預處理

2. 協同訓練的操作方法

操作思路：

3. 測試結果

測試的操作流程

先放圖，看結果

1）這是svm的結果，我們發現訓練到後面，模型的效果在降低

2）這是bayes的結果，一開始有點詭異，但後面趨於穩定

3）這是xgboost的結果，很鬼畜，不知道為什麼會如此波動

從模型效果上來講，我選出了每種模型效果最好的情況

4.結論

相關推薦