電商產品評論的資料情感分析python程式碼實現

阿新 • • 發佈：2018-12-13

步驟1：從爬取的資料中提取對應的評論資訊

#-*- coding: utf-8 -*-
import pandas as pd

inputfile = '.../huizong.csv' #評論彙總檔案
outputfile = '.../meidi_jd.txt' #評論提取後儲存路徑
data = pd.read_csv(inputfile, encoding = 'utf-8')
data = data[[u'評論']][data[u'品牌'] == u'美的']
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')

步驟2：刪除評論資訊中重複的評論

#-*- coding: utf-8 -*-
import pandas as pd
inputfile = '.../meidi_jd.txt' #評論檔案
outputfile = '.../meidi_jd_process_1.txt' #評論處理後儲存路徑
data = pd.read_csv(inputfile, encoding = 'utf-8', header = None)
l1 = len(data)
data = pd.DataFrame(data[0].unique())
l2 = len(data)
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')
print(u'刪除了%s條評論。' %(l1 - l2))

步驟3：刪除評論的字首中相同的詞

#-*- coding: utf-8 -*-
import codecs
inputfile = '.../meidi_jd_process_1.txt' #評論檔案
outputfile = '.../meidi_jd_process_2.txt' #評論處理後儲存路徑
f = codecs.open(inputfile ,'r','utf-8')
f1=codecs.open(outputfile,'w','utf-8')
fileList = f.readlines()
f.close()
for A_string in fileList:
    temp1= A_string.strip('\n')       #去掉每行最後的換行符'\n'
    temp2 = temp1.lstrip('\ufeff')
    temp3= temp2.strip('\r')
    char_list=list( temp3)
    list1=['']
    list2=['']
    del1=[]
    flag=['']
    i=0
    while(i<len(char_list)):
        if (char_list[i]==list1[0]):
            if (list2==['']):
                list2[0]=char_list[i]
            else:
                if (list1==list2):
                    t=len(list1)
                    m=0
                    while(m<t):
                        del1.append( i-m-1)
                        m=m+1
                    list2=['']
                    list2[0]=char_list[i]
                else:
                    list1=['']
                    list2=['']
                    flag=['']
                    list1[0]=char_list[i]
                    flag[0]=i
        else:
            if (list1==list2)and(list1!=[''])and(list2!=['']):
                if len(list1)>=2:
                    t=len(list1)
                    m=0
                    while(m<t):
                        del1.append( i-m-1)
                        m=m+1
                    list1=['']
                    list2=['']
                    list1[0]=char_list[i]
                    flag[0]=i
            else:
                if(list2==['']):
                    if(list1==['']):
                        list1[0]=char_list[i]
                        flag[0]=i
                    else:
                       list1.append(char_list[i])
                       flag.append(i)
                else:
                    list2.append(char_list[i])
        i=i+1
        if(i==len(char_list)):
           if(list1==list2):
                    t=len(list1)
                    m=0
                    while(m<t):
                        del1.append( i-m-1)
                        m=m+1
                    m=0
                    while(m<t):
                        del1.append(flag[m])
                        m=m+1
    a=sorted(del1)
    t=len(a)-1
    while (t>=0):
        #print(char_list[a[t]])
        del char_list[a[t]]
        t=t-1
    str1 = "".join(char_list)
    str2=str1.strip() #刪除兩邊空格
    f1.writelines(str2+'\r\n')
f1.close()

步驟4：將得到的每個句子進行反轉

#-*- coding: utf-8 -*-
import pandas as pd
inputfile = '.../meidi_jd_process_2.txt' #評論檔案
outputfile = '.../meidi_jd_process_3.txt' #句子倒序
data = pd.read_csv(inputfile, encoding = 'utf-8', header = None)
data = pd.DataFrame(data[0])
with open(outputfile, 'w' ,encoding='utf-8') as f:
    file_obj = open(inputfile,encoding='utf8')
    all_lines = file_obj.readlines()
    for line in all_lines:
        f.write(line[::-1])
    file_obj.close()

步驟5：將得到的反轉句子進行之後去除字首中相同的詞，然後反轉回去
步驟6：刪除評論中小於4個字元的評論

#-*- coding: utf-8 -*-
import pandas as pd
inputfile = '.../meidi_jd_process_5.txt' #評論檔案
outputfile = '.../meidi_jd_process_end.txt' #句子倒序
data = pd.read_csv(inputfile, encoding = 'utf-8', header = None)
data = pd.DataFrame(data[0])
with open(outputfile, 'w' ,encoding='utf-8') as f:
    file_obj = open(inputfile,encoding='utf8')
    all_lines = file_obj.readlines()
    for line in all_lines:
        if(len(line)>4):
            f.write(line)
    file_obj.close()

步驟7：通過ROSTCM6提取出正面與負面評價
步驟8：去除正面與負面評價檔案中的前面的評分

#-*- coding: utf-8 -*-
import pandas as pd

#引數初始化
inputfile1 = '.../meidi_jd_process_end_1.txt'
inputfile2 = '.../meidi_jd_process_end_2.txt'
outputfile1 = '.../meidi_jd_neg.txt'
outputfile2 = '.../meidi_jd_pos.txt'

data1 = pd.read_csv(inputfile1, encoding = 'utf-8', header = None) #讀入資料
data2 = pd.read_csv(inputfile2, encoding = 'utf-8', header = None)

data1 = pd.DataFrame(data1[0].str.replace('.*?\d+?\\t ', '')) #用正則表示式修改資料
data2 = pd.DataFrame(data2[0].str.replace('.*?\d+?\\t ', ''))

data1.to_csv(outputfile1, index = False, header = False, encoding = 'utf-8') #儲存結果
data2.to_csv(outputfile2, index = False, header = False, encoding = 'utf-8')

步驟9：對正面與負面評價進行分詞

#-*- coding: utf-8 -*-
import pandas as pd
import jieba #匯入結巴分詞

#引數初始化
inputfile1 = '.../meidi_jd_neg.txt'
inputfile2 = '.../meidi_jd_pos.txt'
outputfile1 = '.../meidi_jd_neg_cut.txt'
outputfile2 = '.../meidi_jd_pos_cut.txt'

data1 = pd.read_csv(inputfile1, encoding = 'utf-8', header = None) #讀入資料
data2 = pd.read_csv(inputfile2, encoding = 'utf-8', header = None)

mycut = lambda s: ' '.join(jieba.cut(s)) #自定義簡單分詞函式
data1 = data1[0].apply(mycut) #通過“廣播”形式分詞，加快速度。
data2 = data2[0].apply(mycut)

data1.to_csv(outputfile1, index = False, header = False, encoding = 'utf-8') #儲存結果
data2.to_csv(outputfile2, index = False, header = False, encoding = 'utf-8')

步驟10：對分詞之後的文件建立主題模型

#-*- coding: utf-8 -*-
import pandas as pd

#引數初始化
negfile = 'D:/MLCode/PyCode/chapter15/test/data/meidi_jd_neg_cut.txt'
posfile = 'D:/MLCode/PyCode/chapter15/test/data/meidi_jd_pos_cut.txt'
stoplist = '.../stoplist.txt'

neg = pd.read_csv(negfile, encoding = 'utf-8', header = None,engine='python') #讀入資料
pos = pd.read_csv(posfile, encoding = 'utf-8', header = None,engine='python')
stop = pd.read_csv(stoplist, encoding = 'utf-8', header = None, sep = 'tipdm',engine='python')
#sep設定分割詞，由於csv預設以半形逗號為分割詞，而該詞恰好在停用詞表中，因此會導致讀取出錯
#所以解決辦法是手動設定一個不存在的分割詞，如tipdm。
stop = [' ', ''] + list(stop[0]) #Pandas自動過濾了空格符，這裡手動新增
neg[1] = neg[0].apply(lambda s: s.split(' ')) #定義一個分割函式，然後用apply廣播
neg[2] = neg[1].apply(lambda x: [i for i in x if i not in stop]) #逐詞判斷是否停用詞，思路同上
pos[1] = pos[0].apply(lambda s: s.split(' '))
pos[2] = pos[1].apply(lambda x: [i for i in x if i not in stop])
from gensim import corpora, models
#負面主題分析
neg_dict = corpora.Dictionary(neg[2]) #建立詞典
neg_corpus = [neg_dict.doc2bow(i) for i in neg[2]] #建立語料庫
neg_lda = models.LdaModel(neg_corpus, num_topics = 3, id2word = neg_dict) #LDA模型訓練
for i in range(3):
  print(neg_lda.print_topic(i)) #輸出每個主題
#正面主題分析
pos_dict = corpora.Dictionary(pos[2])
pos_corpus = [pos_dict.doc2bow(i) for i in pos[2]]
pos_lda = models.LdaModel(pos_corpus, num_topics = 3, id2word = pos_dict)
for i in range(3):
  print(pos_lda.print_topic(i) )#輸出每個主題

電商產品評論資料情感分析程式碼詳解

本章程式碼建議在linux下面執行，windows下安裝gensim會比較麻煩。我是在python3.5.2的pycharm下執行的下面程式碼的意思是從評論資料中抽取品牌是美的的資料（15-1） #-*- coding: utf-8 -*- import panda

電商產品評論的資料情感分析python程式碼實現

步驟1：從爬取的資料中提取對應的評論資訊 #-*- coding: utf-8 -*- import pandas as pd inputfile = '.../huizong.csv' #評論彙總檔案 outputfile = '.../meidi_jd.t

基於LDA對電商商品評論進行情感分析

1、專案背景：現在大眾在進行網購之前都會先看下相關商品的評論，包括好評與差評，再綜合衡量，最後才決定是否會購買相關的物品。甚至有的消費者已經不看商品的詳情秒數頁而是直接看評論，然後決定是否下單。商品評論已經是使用者決策最為核心的考量因素了。在本專案中要根據

Python：電商產品評論數據情感分析，jieba分詞，LDA模型

數據分析 blank sdn github author roc dem pfile 軟件本節涉及自然語言處理（NLP），具體涉及文本數據采集、預處理、分詞、去停用詞、詞頻分析、LDA主題模型代碼部分 1 # -*- coding: utf-8 -*- 2 """

電商產品評論數據情感分析

深度學習原因處理 mha 主題模型避免數據預處理數據分析 str 來自：Python數據分析與數據化運營——宋天龍著 1. 分析方法與過程本次建模針對京東商城上“美的”品牌熱水器的消費者評論數據，在對文本進行基本的機器預處理、中文分詞、停用詞過濾後，通過建立包括

基於LVD、貝葉斯模型演算法實現的電商行業商品評論與情感分析案例

一、專案需求現在大家進行網購，在購物之前呢，肯定會看下相關商品的評論，看下好評和差評，然後再綜合衡量，最後才會決定是否購買相關的商品。對一個指定商品，生產商，賣家，買家認同該商品的哪些優點/不認同

python的中文文字挖掘庫snownlp進行購物評論文字情感分析例項

昨晚上發現了snownlp這個庫，很開心。先說說我開心的原因。我本科畢業設計做的是文字挖掘，用R語言做的，發現R語言對文字處理特別不友好，沒有很多強大的庫，特別是針對中文文字的，加上那時候還沒有學機器學習演算法。所以很頭疼，後來不得已用了一個視覺化的軟體R

電子商務商電商BI大資料分析視覺化系統開發

電子商務商的資料分析很重要，它可以從各種資料找那個分析出哪種商品好賣，哪類人群喜歡買什麼等等。甚至使用者畫像完全可以分析出，在電商領域，資料一般可以分為四大型別，流量、銷量、商品和會員，這也是最基礎的報表需求。 1.流量部分有點選、搜尋、來源等，這些資訊經過分析可以運用在廣告包括一些產品的改版以

Python微博評論進行情感分析

最近身邊的人都在談論一件事：10月8日中午的一條微博，引發了一場微博的軒然大波。導致微博癱瘓的原因是全球超人氣偶像明星鹿晗發了一條“大家好，給大家介紹一下，這是我女朋友@關曉彤 ‘’。這條微博並@關曉彤。資料分析，可以在這裡自取！ l 關曉彤的這條微博轉發67652，回覆873532，點贊：22604

【備忘】2017Spark 2.0大型專案實戰：移動電商app互動式資料分析

一、大資料叢集搭建- 第1講-課程介紹1 第2講-課程環境搭建：CentOS 6.4叢集搭建% 第3講-課程環境搭建：hadoop-2.5.0-cdh5.3.6叢集搭建3 第4講-課程環境搭建：hive-0.13.1-cdh5.3.6安裝第5講-課程環境搭建：zookeeper-3.4.5-cdh5.

Spark 2.0大型專案實戰：移動電商app互動式資料分析平臺（大資料高階課程）下載

001.課程介紹.flv 002.課程環境搭建-CentOS 6.4叢集搭建(1).flv 002.課程環境搭建-CentOS 6.4叢集搭建(2).flv 003.課程環境搭建-hadoop-2.5.0-cdh5.3.6叢集搭建.flv 004.課程環境搭建-

電商商品評論主題分析（LDA）

下面程式碼的意思是從評論資料中抽取品牌是美的的資料（15-1）#-*- coding: utf-8 -*- import pandas as pd inputfile = '../data/huizong.csv' #評論彙總檔案 outputfile =

mysql-kettle-superset電商視覺化資料分析

1、專案概述需求對電商業務中的使用者、商品、訂單的資料進行分析，觀察運營的情況架構業務資料庫：Mysql：儲存最原始的資料 ETL：Kettle 資料倉庫：Mysql：儲存需要進行分析處理的資料分析處理：SQL/Kettle 視覺化：Superset 2、準備工作系統 linux系

“大型票務系統”和“實物電商系統”按系統邊界分析各種業務形式

之間經理 blog tar 討論針對物流運輸通知庫存討論請移步至：http://www.zhiliaotech.com/ideajam/idea/detail/191 相關文章：《今天你買到票了嗎？——從鐵道部12306.cn站點漫談電子商

雙十一臨近，怎樣讓買家流暢地秒殺？ ——騰訊WeTest獨家開放電商產品壓測服務

img 高峰大促做出開始認證 class display 購物車 WeTest 導讀十一月臨近，一年一度的電商大戲“雙十一”又將隆重出場，目前各大商家已經開始各類優惠券的發放，各類大促的商品表單也已經提前流出，即將流入各個用戶的購物車中。作為

電商促銷優惠規則業務分析建模

分析 type 模型最終過程下單橋模式優惠 edit 轉：http://craft6.cn/detail/b2c_promotion_2017.do?tagKey=promotion 1常見的電商促銷場景左

深度學習專案實戰--對於評論的情感分析

標籤：機器學習該專案通過分析影評進行判斷該評價的情感方向專案準備: 實現思想實現效果現在開始我們的專案程式碼

社交電商模式商城APP開發分析

社交電商分銷系統商城開發【張玲：⒈⒌⒍微⒉⒉⒎⒏電⒈⒌⒉⒏】，社交電商分銷軟體開發，社交電商分銷平臺開發對於創新型的產品，很難做到大而全，最好的突破方法就是做細分領域，走差異化的產品路線。很多產品都是把餅做大了之後，開始做垂直化。其實只要找到了合適的切入點，可以做出很精彩的產品。如今電子閱讀類的產品很多，

複習電商筆記-29-資料匯入和Redis分片

管道-海量資料匯入由於做效能測試，需要往redis中匯出千萬級的資料。得知redis-cli工具支援pipeline匯入可以達到最佳效能。測試下500萬條命令匯入耗時43秒。格式要求官方文件：http://redis.io

一行Python程式碼實現交叉表資料分析！

我們在做資料分析的時候，可能經常會碰到分組統計彙總的情況，現成的工具和開放式的程式語言可以為我們完成分析任務提高效率。對於很多不會程式設計的分析員來說，可能習慣了用Excel等工具來幫助他們達到彙總分析的目的。雖然效果也不錯，但過程相對繁瑣，而且侷限太大，只能在工具所能提供的功能下完成特定分析

電商產品評論的資料情感分析python程式碼實現

相關推薦