實訓項目：基於TextCNN汽車行業評論文本的情感分析

阿新 • • 發佈：2018-11-24

1.0 mode model 配置 drop 批處理預測 3.2 評論

基於TextCNN汽車行業評論文本的情感分析

　　　　使用卷積神經網絡對汽車行業評論文本進行情感分析。

　　數據集

　　　　爬取汽車之家車主口碑評論文本，抽取口碑中最滿意以及最不滿意評論文本，分別作為正向情感語料庫和負向情感語料庫。

　　　　語料庫基本信息如下：

　　　 訓練集(data/ch_auto_train.txt): 40000 = 20000(pos) + 20000(neg)
      驗證集(data/ch_auto_dev.txt): 10000 = 5000(pos) + 5000(neg)
      測試集(data/ch_auto_test.txt): 20000 = 10000(pos) + 10000(neg)

　　預處理

　　　　utils.py為數據的預處理代碼。

　　　　cat_to_id(): 分類類別以及id對應詞典{pos:0, neg:1};
　　　　build_word2id(): 構建詞匯表並存儲，形如{word: id};
　　　　load_word2id(): 加載上述構建的詞匯表;
　　　　build_word2vec(): 基於預訓練好的word2vec構建訓練語料中所含詞語的word2vec;
　　　　load_corpus_word2vec(): 加載上述構建的word2ve;
　　　　load_corpus(): 加載語料庫：train/dev/test;
　　　　batch_index(): 生成批處理id序列。

　　　　經過數據預處理，數據的格式如下：

　　　　x: [1434, 5454, 2323, ..., 0, 0, 0]
　　　　y: [0, 1]

　　　　x為構成一條語句的單詞所對應的id。 y為onehot編碼: pos-[1, 0], neg-[0, 1]。

　　CNN卷積神經網絡

　　　　配置項

　　　　　　CNN可配置的參數如下所示，在cnn_model.py中。

class CONFIG():
    update_w2v = True           # 是否在訓練中更新w2v
    vocab_size = 37814          # 詞匯量，與word2id中的詞匯量一致
    n_class  
= 2                 # 分類數：分別為pos和neg
    max_sen_len = 75            # 句子最大長度
    embedding_dim = 50          # 詞向量維度
    batch_size = 100            # 批處理尺寸
    n_hidden = 256              # 隱藏層節點數
    n_epoch = 10                # 訓練叠代周期，即遍歷整個訓練樣本的次數
    opt = ‘adam‘                # 訓練優化器：adam或者adadelta
    learning_rate = 0.001       # 學習率；若opt=‘adadelta‘，則不需要定義學習率
    drop_keep_prob = 0.5        # dropout層，參數keep的比例
    num_filters = 256           # 卷積層filter的數量
    kernel_size = 3             # 卷積核的尺寸；nlp任務中通常選擇2,3,4,5
    print_per_batch = 100       # 訓練過程中,每100詞batch叠代，打印訓練信息
    save_dir = ‘./checkpoints/‘ # 訓練模型保存的地址
    ...

　　　　訓練與驗證

　　　　　　train_and_eva.py中的train()進行訓練。

加載word2vec==========================
加載train語料庫========================
總樣本數為：40000
各個類別樣本數如下：
pos 20000
neg 20000
加載dev語料庫==========================
總樣本數為：10000
各個類別樣本數如下：
pos 5000
neg 5000
加載test語料庫=========================
總樣本數為：20000
各個類別樣本數如下：
pos 10000
neg 10000
Training and evaluating...
Epoch: 1
Iter:      0, Train Loss:   0.71, Train Acc:  51.00%, Val Loss:   0.86, Val Acc:  49.96%, Time: 0:00:04 *
Iter:    100, Train Loss:   0.29, Train Acc:  89.00%, Val Loss:   0.26, Val Acc:  89.16%, Time: 0:04:37 *
Iter:    200, Train Loss:   0.22, Train Acc:  93.00%, Val Loss:    0.2, Val Acc:  91.85%, Time: 0:09:05 *
Iter:    300, Train Loss:  0.082, Train Acc:  96.00%, Val Loss:   0.17, Val Acc:  93.26%, Time: 0:13:26 *
Epoch: 2
Iter:    400, Train Loss:   0.16, Train Acc:  96.00%, Val Loss:   0.17, Val Acc:  93.19%, Time: 0:17:52 
Iter:    500, Train Loss:   0.11, Train Acc:  97.00%, Val Loss:   0.17, Val Acc:  93.51%, Time: 0:22:11 *
Iter:    600, Train Loss:   0.16, Train Acc:  97.00%, Val Loss:   0.15, Val Acc:  94.22%, Time: 0:26:36 *
Iter:    700, Train Loss:   0.15, Train Acc:  91.00%, Val Loss:   0.15, Val Acc:  94.05%, Time: 0:30:54 
Epoch: 3
Iter:    800, Train Loss:   0.11, Train Acc:  95.00%, Val Loss:   0.15, Val Acc:  94.13%, Time: 0:35:13 
Iter:    900, Train Loss:  0.058, Train Acc:  97.00%, Val Loss:   0.16, Val Acc:  94.33%, Time: 0:39:37 *
Iter:   1000, Train Loss:  0.048, Train Acc:  98.00%, Val Loss:   0.15, Val Acc:  94.33%, Time: 0:43:53 
Iter:   1100, Train Loss:  0.054, Train Acc:  97.00%, Val Loss:   0.16, Val Acc:  94.10%, Time: 0:48:21 
Epoch: 4
Iter:   1200, Train Loss:  0.065, Train Acc:  96.00%, Val Loss:   0.16, Val Acc:  94.52%, Time: 0:52:43 *
Iter:   1300, Train Loss:  0.056, Train Acc:  97.00%, Val Loss:   0.17, Val Acc:  94.55%, Time: 0:57:09 *
Iter:   1400, Train Loss:  0.016, Train Acc: 100.00%, Val Loss:   0.17, Val Acc:  94.40%, Time: 1:01:30 
Iter:   1500, Train Loss:    0.1, Train Acc:  97.00%, Val Loss:   0.16, Val Acc:  94.90%, Time: 1:05:49 *
Epoch: 5
Iter:   1600, Train Loss:  0.021, Train Acc:  99.00%, Val Loss:   0.16, Val Acc:  94.28%, Time: 1:10:00 
Iter:   1700, Train Loss:  0.045, Train Acc:  99.00%, Val Loss:   0.18, Val Acc:  94.40%, Time: 1:14:16 
Iter:   1800, Train Loss:  0.036, Train Acc:  98.00%, Val Loss:   0.21, Val Acc:  94.10%, Time: 1:18:36 
Iter:   1900, Train Loss:  0.014, Train Acc: 100.00%, Val Loss:    0.2, Val Acc:  94.18%, Time: 1:22:59

在驗證集上的最佳效果為94.90%。

　　　　測試

　　　　　　train_and_eva.py中的test()進行測試。

INFO:tensorflow:Restoring parameters from ./checkpoints/sa-model
Precision, Recall and F1-Score...
             precision    recall  f1-score   support
        pos       0.96      0.96      0.96     10000
        neg       0.96      0.96      0.96     10000
avg / total       0.96      0.96      0.96     20000

Confusion Matrix...
[[9597  403]
 [ 449 9551]]

在測試集上的準確率達到了95.74%，且各類的precision, recall和f1-score都超過了95%。

　　預測

　　　　predict.py中的predict()進行預測

>> test = [‘噪音大、車漆很薄‘, ‘性價比很高，價位不高，又皮實耐用。‘]
 >> print(predict(test, label=True))
INFO:tensorflow:Restoring parameters from ./checkpoints/sa-model
[‘neg‘, ‘pos‘]

實訓項目：基於TextCNN汽車行業評論文本的情感分析

1.0 mode model 配置 drop 批處理預測 3.2 評論基於TextCNN汽車行業評論文本的情感分析　　　　使用卷積神經網絡對汽車行業評論文本進行情感分析。　　數據集　　　　　　　　爬取汽車之家車主口碑評論文本，抽取口碑中最滿意以及最不滿意評論文本

java實訓項目-模擬自動擋汽車

enter 命令 dia out rake 提取邊框 wid 不能 Java程序設計課程設計項目名稱 ? 項目名稱：自動擋汽車操作模擬系統的設計與實現英文名稱：Design and Implementation of Operation Simulation Syste

自然語言交流系統 phxnet團隊創新實訓項目博客（六）

xtu 成了動畫動畫控制自然通過 nim ipp play 從你進入軟件開始，你就建立了和服務器的聯系。這是一段和服務器的長連接，直到你退出此軟件。 2D文字聊天界面大致實現了文字輸入、發送消息、接收消息、你可以通過點擊按鈕讓機器人開啟聊天模式或者學習模式、又或是進

自然語言交流系統 phxnet團隊創新實訓項目博客（五）

階段掌握上進聯合之間運動沒有 mod 系列 3DMax方面所涉及的專業知識：（1）一下的關於3DMax中對於人物的設計和操作均需要在對3DMax基礎知識熟練掌握的情況下進行的。（2）骨骼架設：首先對導入到3DMa

自然語言交流系統 phxnet團隊創新實訓項目博客（八）

aud 權限 use 開始 write 創新技術 read 交流在本項目中使用到的“文本轉語音”的技術總結：文本轉語音，使用的是科大訊飛的接口，因為此作品之中語音包不是重點，所以語音包的轉換我們統一調用的科大訊飛的語音包接口，依舊是在線的文字轉語音

自然語言交流系統 phxnet團隊創新實訓項目博客（十一）

函數 num 所有權初始數組 sys ram 概率計算過程神經網絡的計算過程神經網絡結構如下圖所示，最左邊的是輸入層，最右邊的是輸出層，中間是多個隱含層，隱含層和輸出層的每個神經節點，都是由上一層節點乘以其權重累加得到，標上“+1”的圓圈為截距項b，對輸入層外每個

自然語言交流系統 phxnet團隊創新實訓項目博客（十）

catch 上下技術分享聯系 cnblogs 支付寶 while ner bsp 關於本項目中使用到的庖丁分詞的總結： Paoding 詳細介紹庖丁中文分詞庫是一個使用Java開發的，可結合到Lucene應用中的，為互聯網、企業內部網使用的中文搜索引擎分詞組

安卓實訓第四天--基於HttpClient來完畢數據在server和設備間的交互。

-i post aries 補充 addition odi tracking -m 回調上午：老師首先回想了昨天作業。首先在安卓project中的TOOLS文件裏，解析字節流那裏，不用改變。而是把server端的編碼方式變為UTF-8，然後將在安卓project

米撲科技的開源項目：sitemap-php 自動生成網站地圖

about ng- 搜索引擎 end 網站 regular seo anr demo 米撲科技旗下的產品，近期正在做SEO網站優化，其中子需求之一是調研實現了網站地圖（sitemap.xml）封裝簡化了許多功能模塊，現在分享出來，源代碼可在Github上下載，有簡單的示例

實戰項目：EMOS集成郵件平臺

運營 pos 郵件 sql dns 服務商登陸 mysql 4.2 實戰項目：EMOS集成郵件平臺用戶郵箱系統：http://mailAnonymous.cn/郵件服務器管理平臺http://mailAnonymous.cn/extman 項目需求:隨著公司規模不斷擴大，

COCOS2D-X 3.0在MAC下創建新IOS項目：

col size clas ios 版本號 ons -m 創建版本首先進入：CocoStudio\Source\3.0\cocos2d-x\tools\cocos2d-console\bin 運行 ./cocos new -p com.aaaa -l cpp

環法競猜項目：H5與原生APP交互方式

一個 lua shp stringify response else all alert 延遲 APP調用H5函數（1）登錄功能——調起APP的登錄頁面操作：點擊h5頁面的"去登錄"按鈕，執行appLogin函數，檢測window對象是否有WebViewJavascri

二：搭建一個webpack3.5.5項目：建立項目的webpack配置文件

utf-8 更改使用方法 dom echo 文件名後綴 node www 第一步： npm init -y 【初始文件】 npm info webpack / bower info webpack【查看版本,用bower的時候要先 npm install bower】

世界級的開源項目：TiDB 如何重新定義下一代關系型數據庫

事情 mon 窗口邊界下一代能力想是問題表現著名的開源分布式緩存服務 Codis 的作者，PingCAP 聯合創始人& CTO ，資深 infrastructure 工程師的黃東旭，擅長分布式存儲系統的設計與實現，開源狂熱分子的技術大神級別人物。即使在

軟件工程作業個人項目： wc項目，統計文本文件的字符數、單詞數和行數。

platform 行數文本文件 chang cpp word 文件的 string || 1、代碼來源： http://www.cnblogs.com/changjiangcheng/p/5304120.html 2、platform: windows VC++

個人項目：WC

case efault 編程 ++ default 文件功能 tdi pri 我用的語言是C語言，編程環境是VS STUDIO2017，首先我建立了一個功能菜單，可以通過switch選擇功能，然後我用指針找到文件，然後打開文件，在對裏面的字符一一進行判斷，再輸出對應功能的

高級軟件工程2017第4次作業——團隊項目：選題、進度安排與需求規格說明書

www. 一周 .html 註意事項 .cn 內容 div 支持 abc Deadline：2017-10-16（周一）21：00pm （註：以下內容參考福大作業，北航作業 ) 一、團隊組成和選題情況說明（10分）介紹團隊組成，錄一段視頻或者發一張團隊合影，提

Maven項目：Spring Boot版本的辦公自動化系統

maven spring boot spring data jpa 權限最近在閑暇時間基於Maven開發了一個Spring Boot版本的辦公自動化系統,本系統是一個權限管理系統。本項目依然采用了大家十分熟悉的JSP架構，數據訪問層是基於Spring Data JPA開發，數據訪問層在沒有提

項目總結------基於龍尚芯片的通話短信設計（1）

龍尚 at 通話一、常用網絡類型網絡描述相關通訊技術GSM移動聯通2GGSM,GPRS,EGPRS (EDGE)CDMA電信2GCDMATDS-CDMA移動3GTDS-CDMA,TDS-HSDPA,TDS-HSUPA,TDS-HSPA(HSDPA and HSUPA)WCDMA聯通3GWCDMA,H

Android開源項目：GifView——Android顯示GIF動畫

down pan 常用 ets ole lan parse googl ima 下載：http://code.google.com/p/gifview/downloads/list 簡介：android中現在沒有直接顯示gif的view,只能通過mediaplay來顯示，

實訓項目：基於TextCNN汽車行業評論文本的情感分析

基於TextCNN汽車行業評論文本的情感分析

數據集

預處理

CNN卷積神經網絡

配置項

訓練與驗證

測試

預測

相關推薦

　　數據集

　　預處理

　　CNN卷積神經網絡

　　　　配置項

　　　　訓練與驗證

　　　　測試

　　預測