python_NLP實戰之情感分析

阿新 • • 發佈：2018-12-18

情感分析的基本方法有：詞法分析，基於機器學習的分析，混合分析

詞法分析運用了由預標記詞彙組成的詞典，使用詞法分析器將輸入文字轉換為單詞序列，將每個新的單詞與字典中的詞彙進行匹配。

機器學習方法的關鍵是合適特徵的選擇。通常有unigram,bigrams,trigrams選為特徵向量

實戰電影評論情感分析

分為5部分

1、訓練或者載入一個詞向量生成模型

2、建立一個用於訓練集的ID矩陣

3、建立LSTM計算單元

4、訓練

5、測試

step1：載入並分析資料

# encoding:utf-8

import numpy as np

wordsList = np.load('wordsList.npy')
print('載入word列表')
wordsList = wordsList.tolist()
wordsList = [word.decode('UTF-8')
             for word in wordsList]
wordVectors = np.load('wordVectors.npy')
print('載入文字向量')

print(len(wordsList))
print(wordVectors.shape)

import os
from os.path import isfile, join

pos_files = ['pos/' + f for f in os.listdir(
    'pos/') if isfile(join('pos/', f))]
neg_files = ['neg/' + f for f in os.listdir(
    'neg/') if isfile(join('neg/', f))]
num_words = []
for pf in pos_files:
    with open(pf, "r", encoding='utf-8') as f:
        line = f.readline()
        counter = len(line.split())
        num_words.append(counter)
print('正面評價完結')

for nf in neg_files:
    with open(nf, "r", encoding='utf-8') as f:
        line = f.readline()
        counter = len(line.split())
        num_words.append(counter)
print('負面評價完結')

num_files = len(num_words)
print('檔案總數', num_files)
print('所有的詞的數量', sum(num_words))
print('平均檔案詞的長度', sum(num_words) / len(num_words))

step2：將文字生成一個索引矩陣

import re

strip_special_chars = re.compile("[^A-Za-z0-9 ]+")
num_dimensions = 300  # Dimensions for each word vector


def cleanSentences(string):
    string = string.lower().replace("<br />", " ")
    return re.sub(strip_special_chars, "", string.lower())


max_seq_num = 250
ids = np.zeros((num_files, max_seq_num), dtype='int32')
file_count = 0
for pf in pos_files:
  with open(pf, "r", encoding='utf-8') as f:
    indexCounter = 0
    line = f.readline()
    cleanedLine = cleanSentences(line)
    split = cleanedLine.split()
    for word in split:
      try:
        ids[file_count][indexCounter] = wordsList.index(word)
      except ValueError:
        ids[file_count][indexCounter] = 399999  # 未知的詞
      indexCounter = indexCounter + 1
      if indexCounter >= max_seq_num:
        break
    file_count = file_count + 1

for nf in neg_files:
  with open(nf, "r",encoding='utf-8') as f:
    indexCounter = 0
    line = f.readline()
    cleanedLine = cleanSentences(line)
    split = cleanedLine.split()
    for word in split:
      try:
        ids[file_count][indexCounter] = wordsList.index(word)
      except ValueError:
        ids[file_count][indexCounter] = 399999  # 未知的詞語
      indexCounter = indexCounter + 1
      if indexCounter >= max_seq_num:
        break
    file_count = file_count + 1

np.save('idsMatrix', ids)

step3：輔助函式，用來生成一批訓練資料集

def get_train_batch():
    labels = []
    arr = np.zeros([batch_size, max_seq_num])
    for i in range(batch_size):
        if (i % 2 == 0):
            num = randint(1, 11499)
            labels.append([1, 0])
        else:
            num = randint(13499, 24999)
            labels.append([0, 1])
        arr[i] = ids[num - 1:num]
    return arr, labels


def get_test_batch():
    labels = []
    arr = np.zeros([batch_size, max_seq_num])
    for i in range(batch_size):
        num = randint(11499, 13499)
        if (num <= 12499):
            labels.append([1, 0])
        else:
            labels.append([0, 1])
        arr[i] = ids[num - 1:num]
    return arr, labels

step4：模型設定

import tensorflow as tf

tf.reset_default_graph()

labels = tf.placeholder(tf.float32, [batch_size, num_labels])
input_data = tf.placeholder(tf.int32, [batch_size, max_seq_num])
data = tf.Variable(
    tf.zeros([batch_size, max_seq_num, num_dimensions]), dtype=tf.float32)
獲得文字向量
data = tf.nn.embedding_lookup(wordVectors, input_data)

配置LSTM的數量
lstmCell = tf.contrib.rnn.BasicLSTMCell(lstm_units)
避免過擬合
lstmCell = tf.contrib.rnn.DropoutWrapper(cell=lstmCell, output_keep_prob=0.5)
輸入模型中，用來展開整個網路
value, _ = tf.nn.dynamic_rnn(lstmCell, data, dtype=tf.float32)

weight = tf.Variable(tf.truncated_normal([lstm_units, num_labels]))
bias = tf.Variable(tf.constant(0.1, shape=[num_labels]))
value = tf.transpose(value, [1, 0, 2])
last = tf.gather(value, int(value.get_shape()[0]) - 1)
prediction = (tf.matmul(last, weight) + bias)

定義正確的評估函式以及正確率評估引數
correct_pred = tf.equal(tf.argmax(prediction, 1), tf.argmax(labels, 1))
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(
    logits=prediction, labels=labels))
optimizer = tf.train.AdamOptimizer(lr).minimize(loss)

saver = tf.train.Saver()

with tf.Session() as sess:
    if os.path.exists("models") and os.path.exists("models/checkpoint"):
        saver.restore(sess, tf.train.latest_checkpoint('models'))
    else:
        if int((tf.__version__).split('.')[1]) < 12 and int((tf.__version__).split('.')[0]) < 1:
            init = tf.initialize_all_variables()
        else:
            init = tf.global_variables_initializer()
        sess.run(init)

    iterations = 100
    for step in range(iterations):
        next_batch, next_batch_labels = get_test_batch()
        if step % 20 == 0:
            print("step:", step, " 正確率:", (sess.run(
                accuracy, {input_data: next_batch, labels: next_batch_labels})) * 100)

    if not os.path.exists("models"):
        os.mkdir("models")
    save_path = saver.save(sess, "models/model.ckpt")
    print("Model saved in path: %s" % save_path)

python_NLP實戰之情感分析

情感分析的基本方法有：詞法分析，基於機器學習的分析，混合分析詞法分析運用了由預標記詞彙組成的詞典，使用詞法分析器將輸入文字轉換為單詞序列，將每個新的單詞與字典中的詞彙進行匹配。機器學習方法的關鍵是合適特徵的選擇。通常有unigram,bigrams,trigrams選

機器學習實戰--酒店情感分析分類

Python爬蟲人工智慧大資料（公眾號）資料集：正面評價：2000_pos.txt 商務大床房，房間很大，床有2M寬，整體感覺經濟實惠不錯! 早餐太差，無論去多少人，那邊也不加食品的。酒店應該重視一下這個問題了。賓館在小街道上，不大好找，但還好北京熱心同胞很多~ 前臺

電商大資料專案（二）-推薦系統實戰之實時分析以及離線分析

電商大資料專案-推薦系統實戰（一）環境搭建以及日誌，人口，商品分析http://blog.51cto.com/6989066/2325073電商大資料專案-推薦系統實戰之推薦演算法http://blog.51cto.com/6989066/2326209電商大資料專案-推薦系統實戰之實時分析以及離線分析htt

ML.NET教程之情感分析(二元分類問題)

機器學習的工作流程分為以下幾個步驟：理解問題準備資料載入資料提取特徵構建與訓練訓練模型評估模型執行使用模型理解問題本教程需要解決的問題是根據網站內評論的意見採取合適的行動。

自然語言處理之情感分析與觀點挖掘

觀點、情感以及與之相關的許多概念，如評價、評估、態度、感情、情緒和心情，與我們主觀的感覺和感受密切相關。這些是人類心理活動的核心要素，也是影響人們日常行為的關鍵因素。情感分析也稱為觀點挖掘，是一個旨在利用可計算的方法從自然語言文字中提取觀點和情感資訊的研究課題。一.情感分

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分)

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分) 輸出結果 1、測試物件 data1= '今天上海的天氣真好！我的心情非常高興！如果去旅遊的話我會非常興奮！和你一起去旅遊我會更加幸福！' data2= '今天上海天氣真差,非常討厭下雨,把

python_NLP實戰之中文分詞技術

一、規則分詞 1.1 正向最大匹配演算法 # 正向最大匹配演算法 MM法規則分詞 class MM(object): def __init__(self): self.window_size=3 def cut(self,text)

python_NLP實戰之詞性標註與命名實體識別

一、詞性標註 jieba詞性標註結合規則和統計的方法，詞典匹配和HMM共同作用二、命名實體識別 HMM將分詞作為字標記來解決，其中有兩條獨立性假設 1、輸出觀察值之間相互獨立 2、狀態轉移過程中，當前狀態只與前一狀態有關 CRF也是一種用來標記和切分序列化資料的統計

python_NLP實戰之豆瓣讀書資料聚類

用k_means對豆瓣讀書資料聚類 1、讀取資料以及資料預處理 book_data = pd.read_csv('data/data.csv') #讀取檔案 print(book_data.head()) book_titles = book_data['title'

語義分析之情感分析

紙上得來終覺淺，一直苦於沒有小專案來看看鍛鍊下自己，相信很多初學程式設計的同學也一樣，那就是不知道自己到底學的怎麼樣，而且也覺得沒有一個實際的專案來幫助提高自己的實際動手能力，理論總是美好的，在實際的專案中會碰到這樣那樣的小問題，而且每一個問題都不是書上全部講到的，就比如我將

文字分類之情感分析 – 樸素貝葉斯分類器

情感分析正成為研究和社交媒體分析的熱點領域，尤其是在使用者評論和微博上。它是文字挖掘的一種特殊情況，一般關注在識別正反觀點上，雖然它常不很準確，它仍然是有用的。為簡單起見（因為訓練資料容易獲取），我將重點放在2個可能的情感分類：積極的和消極的。 NLTK 樸素貝葉斯分

NLP之情感分析：SnowNLP

blog bash 提取關鍵字用戶 nic 你們 nltk .cn 推薦一安裝與介紹 SnowNLP是一個python寫的類庫，可以方便的處理中文文本內容，是受到了TextBlob的啟發而寫的，由於現在大部分的自然語言處理庫基本都是針對英文的，於是寫了一個方便處理中文

文字挖掘之情感分析（一）

一、文字挖掘文字挖掘則是對文字進行處理，從中挖掘出來文字中有用的資訊和關鍵的規則，在文字挖掘領域應用最往廣泛的是對文字進行分類和聚類，其挖掘的方法分為無監督學習和監督學習。文字挖掘還可以劃分為7大類：關鍵詞提取、文字摘要、文字主題模型、文字聚類

Word2vec之情感語義分析實戰（part3）--利用分散式詞向量完成監督學習任務

引言這篇部落格將基於前面一篇部落格Part2做進一步的探索與實戰。 demo程式碼與資料：傳送門單詞的數值化表示前面我們訓練了單詞的語義理解模型。如果我們深入研究就會發現，Part2中訓練好的模型是由詞彙表中單詞的特徵向量所組成的。這些特徵向量

大數據項目實戰之Python金融應用編程(數據分析、定價與量化投資)

python金融大數據項目實戰之Python金融應用編程(數據分析、定價與量化投資)分享網盤地址：https://pan.baidu.com/s/1bpyGttl 密碼: bt56內容簡介本教程介紹使用Python進行數據分析和金融應用開發的基礎知識。課程從介紹簡單的金融應用開始，帶領學員回顧Python的基

Py：數據挖掘之對個人微信朋友圈好友的性別、區域、昵稱、簽名信息進行情感分析——Jason niu

簽名信息 col ram gif -s post 區域 ons AR #Py：數據挖掘之對微信朋友圈好友的性別、區域、昵稱、簽名信息進行情感分析——Jason niu import os import re import csv import time import jso

讀書筆記博客實戰之搜索引擎索引和流量漲跌策略分析[圖]

讀書筆記寫在前面：最近百度動作頻繁，變化十分大，以至於很多網站都出現了流量的大範圍波動，引起了站長們的思考和分析猜測，但通過數據來分析是最可靠的觀點，那麽我們今天就來分析一下這幾天百度在流量漲跌方面有什麽變化吧。實戰分析：讀書筆記博客，主要用於教育類話題的寫作和學習，采用老域名制作的新站，通過該網頁的排名變化

數據分析實戰之豆瓣小說知多少？

int 語言編程語言 bsp 數據分析 art 一個數據查詢 http GraphQL 既是一種用於 API 的查詢語言也是一個滿足你數據查詢的運行時。 GraphQL來自Facebook，它於2012年開始開發，2015年開源。 GraphQL與編程語言無關，可以使用

深度學習專案實戰--對於評論的情感分析

標籤：機器學習該專案通過分析影評進行判斷該評價的情感方向專案準備: 實現思想實現效果現在開始我們的專案程式碼

NLP情感分析之情感分類

情感分析與情感分類情感分析（sentiment analysis）是近年來國內外研究的熱點，其任務是幫助使用者快速獲取、整理和分析相關評價資訊，對帶有情感色彩的主觀性文字進行分析、處理、歸納和推理。情感分析包含較多的任務，如情感分類（sentiment classification）、觀

python_NLP實戰之情感分析

實戰電影評論情感分析

相關推薦