電商商品評論主題分析（LDA）

阿新 • • 發佈：2019-02-04

下面程式碼的意思是從評論資料中抽取品牌是美的的資料（15-1）

#-*- coding: utf-8 -*-  
import pandas as pd  
  
inputfile = '../data/huizong.csv' #評論彙總檔案  
outputfile = '../data/meidi_jd.txt' #評論提取後儲存路徑  
data = pd.read_csv(inputfile, encoding = 'utf-8')  
data = data[[u'評論']][data[u'品牌'] == u'美的']  
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')

這裡一句話概括接下來的去重概念，文字去重和機械壓縮去重

文字去重指的是資料條之間的去重。

機械壓縮去重指的是資料條內部，詞語與詞語之間的去重。

下面程式碼是用來文字去重的（15-2）。

#-*- coding: utf-8 -*-  
import pandas as pd  
  
inputfile = '../data/meidi_jd.txt' #評論檔案  
outputfile = '../data/meidi_jd_process_1.txt' #評論處理後儲存路徑  
data = pd.read_csv(inputfile, encoding = 'utf-8', header = None)  
l1 = len(data)  
data = pd.DataFrame(data[0].unique())  
l2 = len(data)  
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')  
print(u'刪除了%s條評論。' %(l1 - l2))

下面程式碼的作用是把評論前面的評分刪除（15-3）：

#-*- coding: utf-8 -*-  
import pandas as pd  
  
#引數初始化  
inputfile1 = '../data/meidi_jd_process_end_負面情感結果.txt'  
inputfile2 = '../data/meidi_jd_process_end_正面情感結果.txt'  
outputfile1 = '../data/meidi_jd_neg.txt'  
outputfile2 = '../data/meidi_jd_pos.txt'  
  
data1 = pd.read_csv(inputfile1, encoding = 'utf-8', header = None) #讀入資料  
data2 = pd.read_csv(inputfile2, encoding = 'utf-8', header = None)  
print("data1=",data1[0])  
  
data1 = pd.DataFrame(data1[0].str.replace('.*?\d+?\\t ', '')) #用正則表示式修改資料  
data2 = pd.DataFrame(data2[0].str.replace('.*?\d+?\\t ', ''))#這裡的意思其實是用‘’（也就是代表什麼都沒有）來代替前面的符合特徵的字串，等效於實現了刪除的功能  
print("###############################")  
print("data1=",data1[0])  
#以上正則表示式的效果，可以通過把正則篩選前後的data[0]分別輸出來進行比較  
data1.to_csv(outputfile1, index = False, header = False, encoding = 'utf-8') #儲存結果  
data2.to_csv(outputfile2, index = False, header = False, encoding = 'utf-8')

接下來是進行分詞（詳細解釋請見程式碼中註釋）（15-4）

#-*- coding: utf-8 -*-
import pandas as pd
import jieba #匯入結巴分詞，需要自行下載安裝

#引數初始化
inputfile1 = '../data/meidi_jd_neg.txt'
inputfile2 = '../data/meidi_jd_pos.txt'
outputfile1 = '../data/meidi_jd_neg_cut.txt'
outputfile2 = '../data/meidi_jd_pos_cut.txt'

data1 = pd.read_csv(inputfile1, encoding = 'utf-8', header = None) #讀入資料
data2 = pd.read_csv(inputfile2, encoding = 'utf-8', header = None)

mycut = lambda s: ' '.join(jieba.cut(s)) #自定義簡單分詞函式,先識別句子中的中文單詞，然後把中文單詞通過空格連線起來
#上面一句程式碼中，s是入口引數，.join前面的空格表示把jieba庫處理過後的s中的詞語jieba.cut(s)，用空格來連線。
data1 = data1[0].apply(mycut) #通過“廣播”形式分詞，加快速度。
data2 = data2[0].apply(mycut)

data1.to_csv(outputfile1, index = False, header = False, encoding = 'utf-8') #儲存結果
data2.to_csv(outputfile2, index = False, header = False, encoding = 'utf-8')

接下來是去除停用詞

#-*- coding: utf-8 -*-  
import pandas as pd  
  
#引數初始化  
negfile = '../data/meidi_jd_neg_cut.txt'  
posfile = '../data/meidi_jd_pos_cut.txt'  
stoplist = '../data/stoplist.txt'  
  
neg = pd.read_csv(negfile, encoding = 'utf-8', header = None) #讀入資料  
pos = pd.read_csv(posfile, encoding = 'utf-8', header = None)  
stop = pd.read_csv(stoplist, encoding = 'utf-8', header = None, sep = 'tipdm',engine='python')  
#sep設定分割詞，由於csv預設以半形逗號為分割詞，而該詞恰好在停用詞表中，因此會導致讀取出錯（這裡的出錯的意思就是程式碼執行報錯，編譯器直接不讓編譯通過）  
#所以解決辦法是手動設定一個不存在的分割詞，如tipdm。  
#這裡先解釋下什麼是“停用詞”，停用詞指的是本文中出現頻率很高、但是實際意義不大的詞語，比如  
#“今天好嗨森啊啊啊啊啊啊啊啊”，那麼這句話中的“啊啊啊啊啊啊啊啊”就是停用詞  
#講通俗點的話，停用詞就是“廢話”。  。  
  
stop = [' ', ''] + list(stop[0]) #Pandas自動過濾了空格符，這裡手動新增（在每條資料的開頭加個空格）  
  
#下面這段程式碼可以分為兩小段，這兩小段程式碼幾乎一致，前面一個是針對負面評論，後一個是針對正面評論，所以只詳解其中一個  
neg[1] = neg[0].apply(lambda s: s.split(' ')) #定義一個分割函式，然後用apply廣播  
neg[2] = neg[1].apply(lambda x: [i for i in x if i not in stop]) #逐詞判斷是否停用詞，思路同上  
#上面這句程式碼的語法是：列表推導式子。意思是說，如果i不在停用詞列表(stop)中，就保留該詞語（也就是最前面的一個i），否則就進行刪除  
#上面的這句程式碼中，把for i in x看做整體，把if i not in stop看做判斷語句，把最前面的i看做滿足if語句之後的執行語句即可。  
pos[1] = pos[0].apply(lambda s: s.split(' '))  
pos[2] = pos[1].apply(lambda x: [i for i in x if i not in stop])  
  
#上面的lamda s和lamda x中的s和x都是表示入口引數，apply的意思是，把apply前面的字串當做入口引數，輸入到appy後面所定義的函式中

最後是建立LDA模型：

from gensim import corpora, models  
  
#負面主題分析  
#這段程式碼和下面的“正面主題分析”幾乎是完全一樣的，作用講得通俗點其實就是聚類。  
neg_dict = corpora.Dictionary(neg[2]) #建立詞典  
neg_corpus = [neg_dict.doc2bow(i) for i in neg[2]] #建立語料庫  
neg_lda = models.LdaModel(neg_corpus, num_topics = 3, id2word = neg_dict) #LDA模型訓練  
for i in range(3):  
  neg_lda.print_topic(i) #輸出每個主題（這個其實就是聚類結果的輸出）  
  
#正面主題分析  
pos_dict = corpora.Dictionary(pos[2])  
pos_corpus = [pos_dict.doc2bow(i) for i in pos[2]]  
pos_lda = models.LdaModel(pos_corpus, num_topics = 3, id2word = pos_dict)  
for i in range(3):  
  neg_lda.print_topic(i) #輸出每個主題

結果類似於：

 0.065*"安裝" + 0.025*"熱水器" + 0.020*"說" + 0.017*"買" + 0.017*"美的" + 0.016*"師傅" + 0.012*"元" + 0.011*"京東" + 0.009*"售後" + 0.009*"安裝費"
0.035*"安裝" + 0.023*"加熱" + 0.023*"不錯" + 0.013*"東西" + 0.011*"沒用" + 0.011*"送貨" + 0.010*"熱水器" + 0.009*"師傅" + 0.009*"速度" + 0.009*"不好"
0.031*"買" + 0.031*"不錯" + 0.016*"安裝" + 0.014*"熱水器" + 0.010*"價格" + 0.009*"加熱" + 0.007*"元" + 0.007*"速度" + 0.007*"質量" + 0.006*"京東"

通俗解釋下LDA演算法幹嘛的，我們知道：

K-means是聚類的，他主要是處理資料的，對資料進行聚類。

LDA其實也是聚類的，主要是處理字串的，對字串進行聚類。

電商商品評論主題分析（LDA）

下面程式碼的意思是從評論資料中抽取品牌是美的的資料（15-1）#-*- coding: utf-8 -*- import pandas as pd inputfile = '../data/huizong.csv' #評論彙總檔案 outputfile =

基於LDA對電商商品評論進行情感分析

1、專案背景：現在大眾在進行網購之前都會先看下相關商品的評論，包括好評與差評，再綜合衡量，最後才決定是否會購買相關的物品。甚至有的消費者已經不看商品的詳情秒數頁而是直接看評論，然後決定是否下單。商品評論已經是使用者決策最為核心的考量因素了。在本專案中要根據

小型電商服務器平臺搭建（一）

服務器 idc機房運行環境阿裏雲雲平臺一、阿裏雲小型電商服務平臺架構介紹電商平臺初創之初，訪問量不大，但將來可能訪問量暴增，初期階段業務模式調整頻繁，對價格敏感，因此希望服務器平臺架構具有良好的功能拓展性及性能伸縮性，所有平臺軟件最好免費，且性能滿足將來發展，具有冗余高可用設計，平

Java電商項目面試題（二）

Java什麽是SolrCloudSolrCloud是Solr提供的分布式搜索方案，當你需要大規模，容錯，分布式索引和檢索能力時使用SolrCloud。當一個系統的索引數據量少的時候是不需要使用SolrCloud的，當索引量很大，搜索請求並發很高，這時需要使用SolrCloud來滿足這些需求。SolrCloud

Java電商項目面試題（四）

javadubbo服務開發流程，運行流程？zookeeper註冊中心的作用？使用流程：第一步：要在系統中使用dubbo應該先搭建一個註冊中心，一般推薦使用zookeeper。第二步：有了註冊中心然後是發布服務，發布服務需要使用spring容器和dubbo標簽來發布服務。並且發布服務時需要指定註冊中心的位置。第

Java電商項目面試題（六）

Java插入商品的話，要求級聯插入幾張表，你們當時是怎麽實現的？通過Redis生成商品編號（ID）保存商品表再保存Sku表（此表中外鍵，是商品表的ID）在青島做了兩年開發，大大小小參與過三個項目的開發，一個是某公司內部的人員管理系統，一個是物流項目，最近做的是一個電商項目。在整個項目中，我們采用的是nginx

大型網站架構系列：電商網站架構案例(1)（轉）

大型網站架構是一個系列文件，歡迎大家關注。本次分享主題：電商網站架構案例。從電商網站的需求，到單機架構，逐步演變為常用的，可供參考的分散式架構的原型。除具備功能需求外，還具備一定的高效能，高可用，可伸縮，可擴充套件等非功能質量需求（架構目標）。根據實際需要，進行改造，擴充套件，支援千萬PV，是沒問題的。

主題模型（LDA）(一)--通俗理解與簡單應用---一些程式碼

這篇文章主要給一些不太喜歡數學的朋友們的，其中基本沒有用什麼數學公式。目錄直觀理解主題模型 LDA的通俗定義 LDA分類原理 LDA的精髓主題模型的簡單應用-希拉里郵件門 1.直觀理解主題模型聽名字應該就知道他講的是什麼？假如有一篇文章text，通

線性判別分析（LDA）基本原理及實現

前言在主成分分析（PCA）原理總結（機器學習(27)【降維】之主成分分析(PCA)詳解）中對降維演算法PCA做了總結。這裡就對另外一種經典的降維方法線性判別分析（Linear Discriminant Analysis, 簡稱LDA）做一個總結。LDA在模式識別領域（比如

主題模型（LDA）(一)--通俗理解與簡單應用

這篇文章主要給一些不太喜歡數學的朋友們的，其中基本沒有用什麼數學公式。目錄直觀理解主題模型 LDA的通俗定義 LDA分類原理 LDA的精髓主題模型的簡單應用-希拉里郵件門 1.直觀理解主題模型聽名字應該就知道他講的是什麼？假如有一

機器學習演算法的Python實現 (1)：logistics迴歸與線性判別分析（LDA）

本文為筆者在學習周志華老師的機器學習教材後，寫的課後習題的的程式設計題。之前放在答案的博文中，現在重新進行整理，將需要實現程式碼的部分單獨拿出來，慢慢積累。希望能寫一個機器學習演算法實現的系列。本文主要包括： 1、logistics迴歸 2、線性判別分析（LDA）使

線性判別分析（LDA）原理

至少最大化算法標準之前協方差矩陣一個滿足這不在主成分分析（PCA）原理總結中，我們對降維算法PCA做了總結。這裏我們就對另外一種經典的降維方法線性判別分析（Linear Discriminant Analysis, 以下簡稱LDA）做一個總結。LDA在模式

用於降維的線性判別分析（LDA）演算法

LDA降維演算法分為簡單兩類情況和多類通用情況只有兩類樣本的簡單情況：輸入：兩類樣本特徵目的：將兩類樣本的特徵投影至同類距離小，異類距離大的低維空間上，使得資料量減少的同時不損失分類資訊步驟：1，計算兩類樣本的均值u0和u1,協方差矩陣sigma0,sigma12，假設投影空

【機器學習】資料降維—線性判別分析（LDA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。線性判別分析（Linear Discriminant Analysis,LDA）是一種可作為特徵抽取的技術 LDA可以提

opencv2筆記03-線性判別分析（LDA）

1. 線性判別分析（二類情況）判別準則函式： J(w)=|μ1~−μ2~|2S1~2+S2~2 其中： 1.d維x空間各類樣本的均值向量： μi=1Ni∑x∈ωix 類內離散度矩

線性判別分析（LDA）

上一節介紹了PCA演算法，PCA的目標是希望降維後的資料能夠保持最多的信息，而Discriminant Analysis所追求的目標與PCA不同，它希望資料在降維後能夠很容易地被區分開來

Python機器學習筆記：線性判別分析（LDA）演算法

預備知識　　首先學習兩個概念：　　線性分類：指存在一個線性方程可以把待分類資料分開，或者說用一個超平面能將正負樣本區分開，表示式為y=wx，這裡先說一下超平面，對於二維的情況，可以理解為一條直線，如一次函式。它的分類演算法是基於一個線性的預測函式，決策的邊界是平的，比如直線和平面。一般的方法有感知器，最小

Python：電商產品評論數據情感分析，jieba分詞，LDA模型

數據分析 blank sdn github author roc dem pfile 軟件本節涉及自然語言處理（NLP），具體涉及文本數據采集、預處理、分詞、去停用詞、詞頻分析、LDA主題模型代碼部分 1 # -*- coding: utf-8 -*- 2 """

電商產品評論數據情感分析

深度學習原因處理 mha 主題模型避免數據預處理數據分析 str 來自：Python數據分析與數據化運營——宋天龍著 1. 分析方法與過程本次建模針對京東商城上“美的”品牌熱水器的消費者評論數據，在對文本進行基本的機器預處理、中文分詞、停用詞過濾後，通過建立包括

複習電商筆記-17-ngnix引數解釋和商品富文字編譯器（前端）

終極的解決方案-新SSO單點登入將session從系統中獨立出來。Apache shiro頂級安全框架，它的session管理就是獨立出來的。目前主流做法是利用redis作為session管理的實現，因為redis訪問極其快速。 upstream狀

電商商品評論主題分析（LDA）

相關推薦