cnn、rnn實現中文文字分類（基於tensorflow）

阿新 • • 發佈：2019-02-10

tensorflow版本：

In[33]: tf.__version__
Out[33]:'1.2.1'

首先是資料獲取：

curl  -O    "http://thuctc.thunlp.org/source/THUCNews.zip"

資料主要是財經、彩票、房產、股票、家居等相關主題的資料現在之後用unzip 解壓既可以，再抽取10個主題的資料，參考的部落格是每個主題抽取6500條資料，其中每個主題5000用於訓練，1000用於測試，500用於驗證

抽取資料的python程式碼如下，原部落格寫了個shell指令碼，我用python寫了個：

import 
 os
import glob
import shutil
import random
basepath="/Users/shuubiasahi/Desktop/THUCNews/"
newpath="/Users/shuubiasahi/Desktop/tensorflow/text/"
listpath=list(map(lambda  x:basepath+str(x)+"/",list(filter(lambda  x:not str(x).startswith("."),os.listdir(basepath)))))
def copy(listpath,MAXCOUNT=6500):
for  path in listpath 
:
        newdir=newpath+ str(path).split("/")[-2]
        print(newdir)
if not os.path.exists(newdir):
            os.mkdir(newdir)
        files=glob.glob(path+"*.txt")
if len(files)<MAXCOUNT:
            resultlist=[]
for i in range(MAXCOUNT):
                resultlist.append(random.choice(files))
else: 
            resultlist=random.sample(files,MAXCOUNT)
for file in resultlist:
            shutil.copy(file,newdir)
if  __name__=='__main__':
    copy(listpath)
    print("抽取成功")

把資料整合到一個檔案裡面去，格式如下：

標籤+“\t”+實際文字內容

分為訓練集合測試集、驗證集合，涉及到程式碼如下：

#!/usr/bin/python
# -*- coding: utf-8 -*-
"""
將文字整合到 train、test、val 三個檔案中
"""
import  os
basepath="/Users/shuubiasahi/Desktop/tensorflow/text/"
trainpath="/Users/shuubiasahi/Desktop/tensorflow/train/"
def _read_file(filename):
    with open(filename,'r',encoding='utf-8') as f:
"""
           u3000中文全形下的空格
"""
return  f.read().replace('\n','').replace('\t','').replace('\u3000','')
def  save_file(dirname):
"""
將多個檔案整合並存到3個檔案中
        dirname:原資料目錄
檔案內容格式:類別\t內容
"""
    f_train=open(trainpath+"cnews.train.txt",'w',encoding='utf-8')
    f_test = open(trainpath +"cnews.test.txt",'w', encoding='utf-8')
    f_val = open(trainpath +"cnews.val.txt",'w', encoding='utf-8')
for category in os.listdir(dirname):
        catdir=os.path.join(dirname,category)
if not os.path.isdir(catdir):
continue
        files=os.listdir(catdir)
        print(len(files))
        count=0
for cur_file in files:
            filename=os.path.join(catdir,cur_file)
            content=_read_file(filename)
if count<5000:
                f_train.write(category+"\t"+content+"\n")
            elif count<6000:
                f_test.write(category+"\t"+content+"\n")
else:
                f_val.write(category +'\t'+ content +'\n')
            count+=1
        print("finish:",category)
    f_train.close()
    f_test.close()
    f_val.close()
if  __name__=='__main__':
    save_file(basepath)
    print(len(open(trainpath+"cnews.train.txt",'r', encoding='utf-8').readlines()))
    print(len(open(trainpath +"cnews.test.txt",'r', encoding='utf-8').readlines()))
    print(len(open(trainpath +"cnews.val.txt",'r', encoding='utf-8').readlines()))

預處理程式碼說明：

read_file()：讀取上一部分生成的資料檔案，將內容和標籤分開返回;
_build_vocab():構建詞彙表，這裡不需要對文件進行分詞，單字的效果已經很好，這一函式會將詞彙表儲存下來，避免每一次重複處理;
_read_vocab():讀取上一步儲存的詞彙表，轉換為{詞：id}表示;
_read_category():將分類目錄固定，轉換為{類別: id}表示;
_file_to_ids():基於上面定義的函式，將資料集從文字轉換為id表示;
to_words():將一條由id表示的資料重新轉換為文字;
preocess_file():一次性處理所有的資料並返回;
batch_iter():為神經網路的訓練準備批次的資料。

#!/usr/bin/python
# -*- coding: utf-8 -*-
from collections  importCounter
import tensorflow.contrib.keras as kr
import  numpy as  np
import os
trainpath="/Users/shuubiasahi/Desktop/tenso

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    cnn、rnn實現中文文字分類（基於tensorflow）
      
								
								            
						
                



tensorflow版本：


In[33]: tf.__version__Out[33]:'1.2.1'




首先是資料獲取：

curl  -O    "ht 

  
 

    

    
    大作業之中文文字分類（終稿）
       
 import os
import numpy as np
import sys
from datetime import datetime
import gc

path = 'H:\大三上大作業\python大作業\date'
import jieba
with open(r'H:\大三上大作業\py 

  
 

    

    
    如何使用BERT實現中文的文字分類（附程式碼）
       
  
  
 
 
  如何使用BERT模型實現中文的文字分類
  
   前言
   Pytorch
   
    readme
    引數表
    演算法流程
    
     1. 概述
     2. 讀取資料
     3. 特徵轉換
     4. 模型訓練
     5. 模型測試
 

  
 

    

    
    TensorFlow使用CNN實現中文文字分類
       
 
 讀研期間使用過TensorFlow實現過簡單的CNN情感分析（分類），當然這是比較low的二分類情況，後來進行多分類情況。但之前的學習基本上都是在英文詞庫上訓練的。斷斷續續，想整理一下手頭的專案資料，於是就拾起讀研期間的文字分類的小專案，花了一點時間，把原來英文文字分類的專案，應用在中文文字分類，效 

  
 

    

    
    1.CNN圖片單標籤分類（基於TensorFlow實現基礎VGG16網路）
      本文所使用的開源資料集（kaggle貓狗大戰）： 
www.kaggle.com/c/dogs-vs-c… 
國內百度網盤下載地址： 
pan.baidu.com/s/12ab32UNY… 
利用本文程式碼訓練並生成的模型（對應專案中的model資料夾）： 
pan.baidu.com/s/1tBkVQKoH 

  
 

    

    
    2.CNN圖片多標籤分類（基於TensorFlow實現驗證碼識別OCR）
      上一篇實現了圖片CNN單標籤分類（貓狗圖片分類任務） 
地址：juejin.im/post/5c0739… 
預告：下一篇用LSTM+CTC實現不定長文字的OCR，本質上是一種不固定標籤個數的多標籤分類問題 
本文所用到的10w驗證碼資料集百度網盤下載地址（也可使用下文程式碼自行生成）： 
pan.baidu 

  
 

    

    
    中文文字分類（機器學習演算法原理與程式設計實踐筆記）
      
							
							
							以文字分類演算法為中心，詳細介紹一箇中文文字分類專案的流程及相關知識，知識點涉及中文分詞、向量空間模型、TF-IDF方法、幾個典型的文字分類演算法；主要有樸素貝葉斯演算法，kNN最近鄰演算法。 
所用到的外部庫：jieba 分詞、Scikit-Learning
 

  
 

    

    
    利用transformer進行中文文字分類（資料集是復旦中文語料）
      利用TfidfVectorizer進行中文文字分類（資料集是復旦中文語料） 
利用RNN進行中文文字分類（資料集是復旦中文語料）   
利用CNN進行中文文字分類（資料集是復旦中文語料）  
和之前介紹的不同，重構了些程式碼，為了使整個流程更加清楚， 

  
 

    

    
    mongodb中文文字資料（新聞評論）預處理程式碼（python+java）
       
 
  
  
 
 
  中文文字資料預處理
  
   
    Mongodb資料匯出到txt文件
    將檔案按行寫入陣列
    文字批量修改（加字尾等）
   
  
 
  
 Mongodb資料匯出到txt文件 
 #python
# coding=utf-8
from pymongo  

  
 

    

    
    NLP --- 文字分類（基於概率的隱語意分析（PLSA）詳解）
       
 
 
 上一節我們詳細的講解了SVD的隱語意分析，一旦提到這個，大家腦海裡應該立刻有如下的矩陣形式： 
  
 我們通過矩陣的分解對文字資料進行壓縮，壓縮量很可觀，尤其是原始的矩陣的維度很高時壓縮的更可觀，因為k通常要遠遠小於n。如上圖等號左邊的矩陣其實就是我們的文字的詞向量組成的，我們知道一篇文章的詞 

  
 

    

    
    NLP --- 文字分類（基於SVD的隱語意分析（LSA））
       
 
 
 上一節我們詳細的講解了基於SVM的文字分類，這種分類在很早就出現了，雖然是文字分類中有效的分類手段，但是因為建立的向量是很多維的，因此容造成維度災難，同時SVM的沒有能力處理一詞多義和一義多詞問題，例如同義詞也分別被表示成獨立的一維，計算向量的餘弦相似度時會低估使用者期望的相似度；而某個詞項有多 

  
 

    

    
    邏輯迴歸和樸素貝葉斯演算法實現二值分類（matlab程式碼）
      
								
								            
						
                


資料簡介：共有306組資料，每組資料有三個屬性(x1,x2,x2)，屬於0類或者1類。

資料序號末尾為1的是測試集，有31組；其他的作為訓練集，有275組。


clear
clc
load(' 

  
 

    

    
    機器學習——文字分類（TF-IDF）
      
                
首先，文字資料屬於非結構化資料，一般要轉換成結構化的資料，一般是將文字轉換成“文件-詞頻矩陣”，矩陣中的元素使用詞頻或者TF-IDF。
TF-IDF的主要思想是：如果某一個詞或短語在一篇文章中出現的頻率高，並且在其他文章中很少出現，則認為此詞或短語具有很好的類別區分能力，適 

  
 

    

    
    一、Spring-Data-Jpa 初體驗（基於SpringBoot）
      閒話少說，首先動起來(基於springboot+gradle)： 
1、引入依賴 
 
 dependencies {    compile 'org.springframework.boot:spring-boot-starter-data-jpa:2.1.1.RELEASE'    testCompile 

  
 

    

    
    linux網路程式設計之用select方法實現io複用（基於udp）
      
                
1、基本概念

　　IO多路複用是指核心一旦發現程序指定的一個或者多個IO條件準備讀取，它就通知該程序。IO多路複用適用如下場合：
　　（1）當客戶處理多個描述字時（一般是互動式輸入和網路套介面），必須使用I/O複用。
　　（2）當一個客戶同時處理多個套介面時，而這種情況是 

  
 

    

    
    MNIST資料集實現手寫數字識別（基於tensorflow）
      
                主要應用了下面幾個方法來提高準確率;

使用隨機梯度下降（batch）
	使用Relu啟用函式去線性化
	使用正則化避免過擬合
	使用帶指數衰減的學習率
	使用滑動平均模型
	使用交叉熵損失函式來刻畫預測值和真實值之間的差距的損失函式
第一步，匯入MNIST資料集

from 

  
 

    

    
    linux網路程式設計之用select函式實現io複用（基於TCP）引發的思考
      
                
1、基本概念

　　 IO多路複用是指核心一旦發現程序指定的一個或者多個IO條件準備讀取，它就通知該程序。IO多路複用適用如下場合：
　　（1）當客戶處理多個描述字時（一般是互動式輸入和網路套介面），必須使用I/O複用。
　　（2）當一個客戶同時處理多個套介面時，而這種情況 

  
 

    

    
    基於opencv分類（基於TensorFlow 的訓練模型inception_v1）
      
                #include<opencv2\opencv.hpp>
#include <opencv2\dnn.hpp>
using namespace std;
using namespace cv;
using namespace cv::dnn;
stri 

  
 

    

    
    資料庫實現增刪改查（基於Swing）
      
                package main;


import view1.MyLogin;


public class Main {
public static void main(String[] args) {
MyLogin l = new MyLogin();
l.login(); 

  
 

    

    
    吳恩達作業9：卷積神經網路實現手勢數字的識別（基於tensorflow）
      
                提供資料集程式碼放在cnn_utils.py裡。

import math
import numpy as np
import h5py
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorfl