電商產品評論資料情感分析程式碼詳解

阿新 • • 發佈：2019-01-03

本章程式碼建議在linux下面執行，windows下安裝gensim會比較麻煩。

我是在python3.5.2的pycharm下執行的

下面程式碼的意思是從評論資料中抽取品牌是美的的資料（15-1）

#-*- coding: utf-8 -*-
import pandas as pd

inputfile = '../data/huizong.csv' #評論彙總檔案
outputfile = '../data/meidi_jd.txt' #評論提取後儲存路徑
data = pd.read_csv(inputfile, encoding = 'utf-8')
data = data[[u'評論']][data[u'品牌'] == u'美的']
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')

這裡一句話概括接下來的去重概念，文字去重和機械壓縮去重

文字去重指的是資料條之間的去重。

機械壓縮去重指的是資料條內部，詞語與詞語之間的去重。

下面程式碼是用來文字去重的（15-2）。

#-*- coding: utf-8 -*-
import pandas as pd

inputfile = '../data/meidi_jd.txt' #評論檔案
outputfile = '../data/meidi_jd_process_1.txt' #評論處理後儲存路徑
data = pd.read_csv(inputfile, encoding = 'utf-8', header = None)
l1 = len(data)
data = pd.DataFrame(data[0].unique())
l2 = len(data)
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')
print(u'刪除了%s條評論。' %(l1 - l2))

下面程式碼的作用是把評論前面的評分刪除（15-3）：

#-*- coding: utf-8 -*-
import pandas as pd

#引數初始化
inputfile1 = '../data/meidi_jd_process_end_負面情感結果.txt'
inputfile2 = '../data/meidi_jd_process_end_正面情感結果.txt'
outputfile1 = '../data/meidi_jd_neg.txt'
outputfile2 = '../data/meidi_jd_pos.txt'

data1 = pd.read_csv(inputfile1, encoding = 'utf-8', header = None) #讀入資料
data2 = pd.read_csv(inputfile2, encoding = 'utf-8', header = None)
print("data1=",data1[0])

data1 = pd.DataFrame(data1[0].str.replace('.*?\d+?\\t ', '')) #用正則表示式修改資料
data2 = pd.DataFrame(data2[0].str.replace('.*?\d+?\\t ', ''))#這裡的意思其實是用‘’（也就是代表什麼都沒有）來代替前面的符合特徵的字串，等效於實現了刪除的功能
print("###############################")
print("data1=",data1[0])
#以上正則表示式的效果，可以通過把正則篩選前後的data[0]分別輸出來進行比較
data1.to_csv(outputfile1, index = False, header = False, encoding = 'utf-8') #儲存結果
data2.to_csv(outputfile2, index = False, header = False, encoding = 'utf-8')

接下來是進行分詞（詳細解釋請見程式碼中註釋）（15-4）

#-*- coding: utf-8 -*-
import pandas as pd
import jieba #匯入結巴分詞，需要自行下載安裝

#引數初始化
inputfile1 = '../data/meidi_jd_neg.txt'
inputfile2 = '../data/meidi_jd_pos.txt'
outputfile1 = '../data/meidi_jd_neg_cut.txt'
outputfile2 = '../data/meidi_jd_pos_cut.txt'

data1 = pd.read_csv(inputfile1, encoding = 'utf-8', header = None) #讀入資料
data2 = pd.read_csv(inputfile2, encoding = 'utf-8', header = None)

mycut = lambda s: ' '.join(jieba.cut(s)) #自定義簡單分詞函式,先識別句子中的中文單詞，然後把中文單詞通過空格連線起來
#上面一句程式碼中，s是入口引數，.join前面的空格表示把jieba庫處理過後的s中的詞語jieba.cut(s)，用空格來連線。
data1 = data1[0].apply(mycut) #通過“廣播”形式分詞，加快速度。
data2 = data2[0].apply(mycut)

data1.to_csv(outputfile1, index = False, header = False, encoding = 'utf-8') #儲存結果
data2.to_csv(outputfile2, index = False, header = False, encoding = 'utf-8')

最後是LDA程式碼（15-5）

#-*- coding: utf-8 -*-
import pandas as pd

#引數初始化
negfile = '../data/meidi_jd_neg_cut.txt'
posfile = '../data/meidi_jd_pos_cut.txt'
stoplist = '../data/stoplist.txt'

neg = pd.read_csv(negfile, encoding = 'utf-8', header = None) #讀入資料
pos = pd.read_csv(posfile, encoding = 'utf-8', header = None)
stop = pd.read_csv(stoplist, encoding = 'utf-8', header = None, sep = 'tipdm',engine='python')
#sep設定分割詞，由於csv預設以半形逗號為分割詞，而該詞恰好在停用詞表中，因此會導致讀取出錯（這裡的出錯的意思就是程式碼執行報錯，編譯器直接不讓編譯通過）
#所以解決辦法是手動設定一個不存在的分割詞，如tipdm。
#這裡先解釋下什麼是“停用詞”，停用詞指的是本文中出現頻率很高、但是實際意義不大的詞語，比如
#“今天好嗨森啊啊啊啊啊啊啊啊”，那麼這句話中的“啊啊啊啊啊啊啊啊”就是停用詞
#講通俗點的話，停用詞就是“廢話”。  。

stop = [' ', ''] + list(stop[0]) #Pandas自動過濾了空格符，這裡手動新增（在每條資料的開頭加個空格）

#下面這段程式碼可以分為兩小段，這兩小段程式碼幾乎一致，前面一個是針對負面評論，後一個是針對正面評論，所以只詳解其中一個
neg[1] = neg[0].apply(lambda s: s.split(' ')) #定義一個分割函式，然後用apply廣播
neg[2] = neg[1].apply(lambda x: [i for i in x if i not in stop]) #逐詞判斷是否停用詞，思路同上
#上面這句程式碼的語法是：列表推導式子。意思是說，如果i不在停用詞列表(stop)中，就保留該詞語（也就是最前面的一個i），否則就進行刪除
#上面的這句程式碼中，把for i in x看做整體，把if i not in stop看做判斷語句，把最前面的i看做滿足if語句之後的執行語句即可。
pos[1] = pos[0].apply(lambda s: s.split(' '))
pos[2] = pos[1].apply(lambda x: [i for i in x if i not in stop])

#上面的lamda s和lamda x中的s和x都是表示入口引數，apply的意思是，把apply前面的字串當做入口引數，輸入到appy後面所定義的函式中

from gensim import corpora, models

#負面主題分析
#這段程式碼和下面的“正面主題分析”幾乎是完全一樣的，作用講得通俗點其實就是聚類。
neg_dict = corpora.Dictionary(neg[2]) #建立詞典
neg_corpus = [neg_dict.doc2bow(i) for i in neg[2]] #建立語料庫
neg_lda = models.LdaModel(neg_corpus, num_topics = 3, id2word = neg_dict) #LDA模型訓練
for i in range(3):
  neg_lda.print_topic(i) #輸出每個主題（這個其實就是聚類結果的輸出）

#正面主題分析
pos_dict = corpora.Dictionary(pos[2])
pos_corpus = [pos_dict.doc2bow(i) for i in pos[2]]
pos_lda = models.LdaModel(pos_corpus, num_topics = 3, id2word = pos_dict)
for i in range(3):
  neg_lda.print_topic(i) #輸出每個主題

通俗解釋下LDA演算法幹嘛的，我們知道：

K-means是聚類的，他主要是處理資料的，對資料進行聚類。

LDA其實也是聚類的，主要是處理字串的，對字串進行聚類。

電商產品評論資料情感分析程式碼詳解

本章程式碼建議在linux下面執行，windows下安裝gensim會比較麻煩。我是在python3.5.2的pycharm下執行的下面程式碼的意思是從評論資料中抽取品牌是美的的資料（15-1） #-*- coding: utf-8 -*- import panda

基於LDA對電商商品評論進行情感分析

1、專案背景：現在大眾在進行網購之前都會先看下相關商品的評論，包括好評與差評，再綜合衡量，最後才決定是否會購買相關的物品。甚至有的消費者已經不看商品的詳情秒數頁而是直接看評論，然後決定是否下單。商品評論已經是使用者決策最為核心的考量因素了。在本專案中要根據

電商產品評論的資料情感分析python程式碼實現

步驟1：從爬取的資料中提取對應的評論資訊 #-*- coding: utf-8 -*- import pandas as pd inputfile = '.../huizong.csv' #評論彙總檔案 outputfile = '.../meidi_jd.t

電商產品評論數據情感分析

深度學習原因處理 mha 主題模型避免數據預處理數據分析 str 來自：Python數據分析與數據化運營——宋天龍著 1. 分析方法與過程本次建模針對京東商城上“美的”品牌熱水器的消費者評論數據，在對文本進行基本的機器預處理、中文分詞、停用詞過濾後，通過建立包括

Python：電商產品評論數據情感分析，jieba分詞，LDA模型

數據分析 blank sdn github author roc dem pfile 軟件本節涉及自然語言處理（NLP），具體涉及文本數據采集、預處理、分詞、去停用詞、詞頻分析、LDA主題模型代碼部分 1 # -*- coding: utf-8 -*- 2 """

B2C電商系統開發app平臺定制詳解

amp 聯系良性幫助產品人工定期 abc 不同 B2C電商系統開發從標品到非標品體現的是用戶從追求功能價值到追求情感價值的變遷。在電商1.0時代，為用戶習慣培養階段，圖書和3C等標品更利於降低用戶的信任成本。B2C電商app開發，同時，用戶對標品的消費更多追求的

電商購物直播app開發解決方案詳解

分享進入發的購物平臺發出阿裏巴巴通過出了內嵌最近有很多小夥伴咨詢電商直播app開發，在傳統的秀場直播競爭力逐漸下降的今天，“直播+”爆發出了無窮的“小宇宙”。在眾多“直播+”解決方案中，“直播+電商”是目前比較完善的解決方案，像阿裏巴巴旗下的淘寶直播，以及

Tensorflow官網CIFAR-10資料分類教程程式碼詳解

標題概述對CIFAR-10 資料集的分類是機器學習中一個公開的基準測試問題，本教程程式碼通過解決CIFAR-10資料分類任務，介紹了Tensorflow的一些高階用法，演示了構建大型複雜模型的一些重要技巧，著重於建立一個規範的網路組織結構，訓練並進行評估，為建立更大規模更加複雜的

Pytorch tutorials 實戰教程（1）——訓練自己的資料集（程式碼詳解）

最開始入坑的時候使用的是caffe，前一段時間換了使用主流框架的keras（Tensorflow as backward），但是keras確實封裝得太好了，一個高階的API對於我這種程式設計渣渣來說反而上手有些不習慣，在寫了一段時間的程式碼以後開始使用py

Android實戰：CoolWeather酷歐天氣（加強版資料介面）程式碼詳解（上）

拜讀了郭霖大神的《第一行程式碼（第二版）》後，決定對其文末的酷歐天氣實戰專案進行資料擴充以及程式碼詳解，完整檔案請從我的GitHub中下載，想學習更多Android知識在看完本篇文章後請出門右轉：京東、噹噹、亞馬遜、天貓、PDF、Kindle、豆瓣、多看。具

基於LVD、貝葉斯模型演算法實現的電商行業商品評論與情感分析案例

一、專案需求現在大家進行網購，在購物之前呢，肯定會看下相關商品的評論，看下好評和差評，然後再綜合衡量，最後才會決定是否購買相關的商品。對一個指定商品，生產商，賣家，買家認同該商品的哪些優點/不認同

電子商務商電商BI大資料分析視覺化系統開發

電子商務商的資料分析很重要，它可以從各種資料找那個分析出哪種商品好賣，哪類人群喜歡買什麼等等。甚至使用者畫像完全可以分析出，在電商領域，資料一般可以分為四大型別，流量、銷量、商品和會員，這也是最基礎的報表需求。 1.流量部分有點選、搜尋、來源等，這些資訊經過分析可以運用在廣告包括一些產品的改版以

【備忘】2017Spark 2.0大型專案實戰：移動電商app互動式資料分析

一、大資料叢集搭建- 第1講-課程介紹1 第2講-課程環境搭建：CentOS 6.4叢集搭建% 第3講-課程環境搭建：hadoop-2.5.0-cdh5.3.6叢集搭建3 第4講-課程環境搭建：hive-0.13.1-cdh5.3.6安裝第5講-課程環境搭建：zookeeper-3.4.5-cdh5.

Spark 2.0大型專案實戰：移動電商app互動式資料分析平臺（大資料高階課程）下載

001.課程介紹.flv 002.課程環境搭建-CentOS 6.4叢集搭建(1).flv 002.課程環境搭建-CentOS 6.4叢集搭建(2).flv 003.課程環境搭建-hadoop-2.5.0-cdh5.3.6叢集搭建.flv 004.課程環境搭建-

電商商品評論主題分析（LDA）

下面程式碼的意思是從評論資料中抽取品牌是美的的資料（15-1）#-*- coding: utf-8 -*- import pandas as pd inputfile = '../data/huizong.csv' #評論彙總檔案 outputfile =

mysql-kettle-superset電商視覺化資料分析

1、專案概述需求對電商業務中的使用者、商品、訂單的資料進行分析，觀察運營的情況架構業務資料庫：Mysql：儲存最原始的資料 ETL：Kettle 資料倉庫：Mysql：儲存需要進行分析處理的資料分析處理：SQL/Kettle 視覺化：Superset 2、準備工作系統 linux系

“大型票務系統”和“實物電商系統”按系統邊界分析各種業務形式

之間經理 blog tar 討論針對物流運輸通知庫存討論請移步至：http://www.zhiliaotech.com/ideajam/idea/detail/191 相關文章：《今天你買到票了嗎？——從鐵道部12306.cn站點漫談電子商

雙十一臨近，怎樣讓買家流暢地秒殺？ ——騰訊WeTest獨家開放電商產品壓測服務

img 高峰大促做出開始認證 class display 購物車 WeTest 導讀十一月臨近，一年一度的電商大戲“雙十一”又將隆重出場，目前各大商家已經開始各類優惠券的發放，各類大促的商品表單也已經提前流出，即將流入各個用戶的購物車中。作為

電商促銷優惠規則業務分析建模

分析 type 模型最終過程下單橋模式優惠 edit 轉：http://craft6.cn/detail/b2c_promotion_2017.do?tagKey=promotion 1常見的電商促銷場景左

電商產品評論資料情感分析程式碼詳解

相關推薦