基於LVD、貝葉斯模型演算法實現的電商行業商品評論與情感分析案例

阿新 • • 發佈：2018-12-11

一、專案需求

現在大家進行網購，在購物之前呢，肯定會看下相關商品的評論，看下好評和差評，然後再綜合衡量，最後才會決定是否購買相關的商品。對一個指定商品，生產商，賣家，買家認同該商品的哪些優點/不認同那些。

評論分析：: A、電商評論的重要性 ------ 消費者先看評論，然後決定是否下單 B、電商評論太多時遇到的問題--------銷量多，評論數大 C、提取有價值的評論----去除灌水評論（例如：好評，東西很好；商品很贊等）
專案的輸出：: 商品好評–/差評–若干個topic中，其關鍵詞以及權重

1.1 語言處理相關庫（snownlp，jieba，gensim）

安裝與機器學習，自然語言處理相關庫,在Anaconda Prompt

下輸入：

pip install snownlp              # 處理自然語言庫/情感分析
pip install jieba                # 中文分詞
pip install gensim               # 機器學習演算法/自然語言相關的功能 

gensim.corpora.dictionary.Dictionary的函式 doc2bow(document)
document-->片語成的列表list，這個list中有些詞是重複的，也缺少每個詞的詞頻。
需要先用 doc2bow 函式將資料轉換成恰當的格式。

這裡寫圖片描述

1.2 LDA主題模型

比方說，如果一篇文章是在講狗的，那“狗”和“骨頭”等詞出現的頻率會高些；講貓的，那“貓”和“魚”等詞出現的頻率會高些。在這裡，”狗”就是一個topic，”貓”也是一個topic。 詞袋模型（bag of words）只考慮頻數，不考慮詞序，混亂的

LDA (Latent Dirichlet allocation)主題模型: 1 已知條件：某些文件的都是由那些詞構成的 2 假定條件： LDA 模型假設每一篇文章都在講述若干個主題topic，可以人為的設定k 值 3 求解：通過LDA 模型，可以求出K個主題中，每個主題到底長成什麼樣子。

能做：求解出K個主題長什麼樣子
不能做：不能人為設定主題，不能人為設定什麼是財經，體育，科技。 LDA是無監督學習，模型訓練後，每個主題是什麼就是什麼

LDA 思想

LDA是一個貝葉斯模型（Bayers model）。之前的樸素貝葉斯只是其中一個。只不過LDA更復雜些
在貝葉斯模型中，根據可見 —推出—> 不可見，例如：打噴嚏：–>(夏天)可能是嗆著了 –>(冬天)可能是感冒了

LDA模型優點 1 無監督：無需勞心勞力的去對訓練資料做標註 2 預處理簡單：分詞，去停用詞 3 引數少，一般只需要設定引數K （K表示一拱多少個主題）

1.3 相關模型的比較

除了LDA技術，SVD(奇異值分解)技術也可以應用於主題模型分析。

問題: LSI與LSA有什麼區別？: 技術是相同的，都是採用SVD降維，而且都是處理自然語言中的term-document矩陣。一般LSI專指索引和搜尋領域。

二、程式碼：

2.1 匯入資料—評論提取—文字去重

#匯入資料-評論提取
import pandas as pd

inputfile = '.\\data\\huizong.csv'              #彙總檔案
outputfile = '.\\data\\meidi_jd.txt'	        #評論提取儲存路徑
data = pd.read_csv(inputfile,encoding = 'utf-8')
data = data[[u'評論']][data[u'品牌'] == u'美的']
data.to_csv(outputfile,index = False,header = False,encoding = 'utf-8')

#文字去重
inputfile = '.\\data\\meidi_jd.txt'             #評論檔案
outputfile = '.\\data\\meidi_jd_process_1.txt'  #評論處理後儲存路徑
data = pd.read_csv(inputfile, encoding = 'utf-8', header = None)
data=data.dropna()     
l1 = len(data)
data = pd.DataFrame(data[0].unique())
l2 = len(data)
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')
print(u'刪除了%s條評論。' %(l1 - l2))

#機械壓縮去詞
def cutword(strs,reverse=False):
        s1=[]
        s2=[]
        s=[]
        if reverse :
            strs=strs[::-1]
        s1.append(strs[0])
        for i in strs[1:]:
            if i==s1[0] :
                if len(s2)==0:
                    s2.append(i)
                else :
                    if s1==s2:
                        s2=[]
                        s2.append(i)
                    else:
                        s=s+s1+s2
                        s1=[]
                        s2=[]
                        s1.append(i)
            else :
                if s1==s2 and len(s1)>=2 and len(s2)>=2:
                    s=s+s1
                    s1=[]
                    s2=[]
                    s1.append(i)
                else:
                    if len(s2)==0:
                        s1.append(i)
                    else :
                        s2.append(i)
        if s1==s2:
            s=s+s1
        else:
            s=s+s1+s2
        if reverse :
            #print ''.join(s[::-1])
            return ''.join(s[::-1])
        else:
            #print ''.join(s)
            return ''.join(s)
			
data2 = data.iloc < [:,0].apply(cutword)
data2 = data2.apply(cutword,reverse = True)

#短句過濾
data3 = data2[data2.apply(len) >= 4]

2.2 模型構造—情感分析—分詞—去除停用

#情感分析
from snownlp import SnowNLP

coms = []
coms = data3.apply(lambda x:SnowNLP(x).sentiments)

data1 = data3[coms >= 0.5]              # 大於0.5為積極的情緒詞
data2 = data3[coms < 0.5]

#分詞
import jieba
mycut = lambda s: ''.join(jieba.cut(s))	# 自定義簡單分詞函式，分詞用空格隔開
data1 = data1.apply(mycut)              # 通過廣播進行分詞，加快速度
data2 = data2.apply(mycut)

#outputfile1 = 'd:/data/example08/meidi_jd_pos_cut.txt'
#outputfile2 = 'd:/data/example08/meidi_jd_neg_cut.txt'
#data1.to_csv(outputfile1,index = False,header = False,encoding = 'utf-8')	#儲存結果
#data2.to_csv(outputfile2,index = False,header = False,encoding = 'utf-8')	#儲存結果

#去除停用（與評論無關的詞）
stoplist = '.\\data\\stoplist.txt'
stop = pd.read_csv(stoplist,encoding = 'utf-8',
                   header = None,sep = 'tipdm')	    #sep設定一個不存在的分割詞 tipdm

stop = [' ',''] + list(stop[0])	                    #Pandas 自動過濾空格符，這裡是手動新增

pos = pd.DataFrame(data1[:5000])
neg = pd.DataFrame(data1[:5000])

neg[1] = neg[0].apply(lambda s: s.split(' '))	                #定義一個分割詞，用apply廣播
neg[2] = neg[1].apply(lambda x:[i for i in x if i not in stop]) #逐詞判斷是否為停用詞
pos[1] = neg[0].apply(lambda s: s.split(' '))
pos[2] = neg[1].apply(lambda x [i for i in x if i not in stop])

2.3 LDA主題分析

from gensim import corpora,models

#負面主題分析
neg_dict = corpora.Dictionary(neg[2])	            #建立詞典
neg_corpus = [neg_dict.doc2bow(i) for i in neg[2]]  #建立語料庫
neg_lda = models.LdaModel(neg_corpus,num_topics = 3,id2word = neg_dict)	#LDA模型訓練
for i in range(3):
	print('topic' + str(i))
	print(neg_lda.print_topic(i))                   #輸出每個主題
	
#正面主題分析
pos_dict = corpora.Dictionary(pos[2])	            #建立詞典
pos_corpus = [pos_dict.doc2bow(i) for i in pos[2]]	#建立語料庫
pos_lda = models.LdaModel(pos_corpus,num_topics = 3,id2word = pos_dict)	#LDA模型訓練
for i in range(3):
	print('topic' + str(i))
	print(pos_lda.print_topic(i))	                #輸出每個主題

基於LVD、貝葉斯模型演算法實現的電商行業商品評論與情感分析案例

一、專案需求現在大家進行網購，在購物之前呢，肯定會看下相關商品的評論，看下好評和差評，然後再綜合衡量，最後才會決定是否購買相關的商品。對一個指定商品，生產商，賣家，買家認同該商品的哪些優點/不認同

超引數調優方法：網格搜尋、隨機搜尋、貝葉斯優化演算法

網格搜尋：網格搜尋可能是最簡單、應用最廣泛的超引數搜尋演算法，它通過查詢搜尋範圍內的所有的點來確定最優值。但是，這種搜尋方案十分消耗計算資源和時間，特別是需要調優的超引數比較多的時候。在實際應用中，網格搜尋法一般會先使用較廣的搜尋範圍和較大的步長，來尋找全域性最優值可

基於樸素貝葉斯分類演算法實現垃圾郵箱分類

貝葉斯決策理論在機器學習中，樸素貝葉斯是基於貝葉斯決策的一種簡單形式,下面給出貝葉斯的基本公式，也是最重要的公式：其中X是一個m*n的矩陣，m為他的樣本數，n為特徵的個數，即我們要求的是：在已知的樣本情況下的條件概率。 )表示

一步步教你輕鬆學樸素貝葉斯模型演算法理論篇1

導讀：樸素貝葉斯模型是機器學習常用的模型演算法之一，其在文字分類方面簡單易行，且取得不錯的分類效果。所以很受歡迎，對於樸素貝葉斯的學習，本文首先介紹理論知識即樸素貝葉斯相關概念和公式推導，為了加深理解，採用一個維基百科上面性別分類例子進行形式化描述。然後通過程式設計實現樸素貝葉斯分類演算法，並在遮蔽社

聯合概率與聯合分佈、條件概率與條件分佈、邊緣概率與邊緣分佈、貝葉斯定理、生成模型（Generative Model）和判別模型（Discriminative Model）的區別

在看生成模型和判別模型之前，我們必須先了解聯合概率與聯合分佈、條件概率與條件分佈、邊緣概率與邊緣分佈、貝葉斯定理的概念。聯合概率與聯合概率分佈：假設有隨機變數X與Y, 此時，P(X=a,Y=b)用於表示X=a且Y=b的概率。這類包含多個條件且所有條件同時成立的概率稱為聯合概率。聯合概

01 EM演算法 - 大綱 - 最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)

EM演算法的講解的內容包括以下幾個方面： 1、最大似然估計2、K-means演算法3、EM演算法4、GMM演算法 __EM演算法本質__是統計學中的一種求解引數的方法，基於這種方法，我們可以求解出很多模型中的引數。 1、最大似然估計在__求解線性模型__的過程中，我們用到了__最大似然估計(MLE)

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

機器學習（六）分類模型--線性判別法、距離判別法、貝葉斯分類器

機器學習（六）分類模型--線性判別法、距離判別法、貝葉斯分類器首先我們瞭解常見的分類模型和演算法有哪些線性判別法簡單來說就是用一些規定來尋找某一條直線，用直線劃分學習集，然後根據待測點在直線的哪一邊決定它的分類如圖，假如紅色這條線是找

樸素貝葉斯模型、推導、拉普拉斯平滑

參考書籍：《統計學習方法》，cs229講義，其他。 1、樸素貝葉斯 1.1、樸素貝葉斯模型樸素貝葉斯：基於貝葉斯定理與特徵條件獨立假設的分類方法。注意兩個點，一個是貝葉斯定理，另一個是條件獨立假設，後面會用到，該方法用來進行分類，即：給定輸入變數x，輸出類別標記y 先定

分類-3-生成學習-3-樸素貝葉斯模型、laplace平滑、多元伯努利事件模型、多項式事件模型

多元伯努利事件模型（ multi-variate Bernoulli event model）在 GDA 中，我們要求特徵向量 x 是連續實數向量。如果 x 是離散值的話，可以考慮採用樸素貝葉斯的分類方法。假如要分類垃圾郵件和正常郵件。我們用

決策樹、貝葉斯、人工神經網路、K-近鄰、支援向量機等常用分類演算法小結

單一的分類演算法：決策樹、貝葉斯、人工神經網路、K-近鄰、支援向量機和基於關聯規則的分類，HMM 組合分類演算法：Bagging和Boosting k-近鄰(kNN，k-Nearest Neighbors)演算法找出與未知樣本x距離最近的k個訓練樣本，看這k個樣本中

資料探勘：基於樸素貝葉斯分類演算法的文字分類實踐

前言：如果你想對一個陌生的文字進行分類處理，例如新聞、遊戲或是程式設計相關類別。那麼貝葉斯分類演算法應該正是你所要找的了。貝葉斯分類演算法是統計學中的一種分類方法，它利用概率論中的貝葉斯公式進行擴充套件。所以，這裡建議那些沒有概率功底或是對概率論已經忘記差不多的讀者可

最大似然估計、最大後驗估計與樸素貝葉斯分類演算法

最大似然估計、最大後驗估計與樸素貝葉斯分類演算法目錄　　一、前言　　二、概率論基礎　　三、最大似然估計　　四、最大後驗估計　　五、樸素貝葉斯分類　　六、參考文獻一、前言　　本篇文章的主要內容為筆者對概率論基礎內容的回顧，及個人對其中一些知識點的解讀。另外，在這些上述知識的基礎之

基於的樸素貝葉斯的文本分類（附完整代碼(spark/java）

ava -s for 轉換成模型保存 ext js rgs cti txt 本文主要包括以下內容： 1）模型訓練數據生成（demo） 2 ) 模型訓練（spark+java）,數據存儲在hdfs上 3）預測數據生成（demo） 4）使用生成的模型進行文本分類。一

我理解的樸素貝葉斯模型【轉】

package 規則 dia div href 重要源代碼容易計算轉自：http://www.cnblogs.com/nxld/p/6607943.html 我想說：“任何事件都是條件概率。”為什麽呢？因為我認為，任何事件的發生都不是完全偶然的，它都會以其他事件的

樸素貝葉斯分類演算法簡單理解

樸素貝葉斯分類演算法簡單理解貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。這篇文章我儘可能用直白的話語總結一下我們學習會上講到的樸素貝葉斯分類演算法，希望有利於他人理解。 1

分類與監督學習，樸素貝葉斯分類演算法

1.理解分類與監督學習、聚類與無監督學習。簡述分類與聚類的聯絡與區別。簡述什麼是監督學習與無監督學習。區別：分類：我們是知道這個資料集是有多少種類的，然後對它們分類歸納。比如對一個學校的在校大學生進行性別分類，我們會下意識很清楚知道分為“男”,“女”。聚類：對資料集操作時，我們是不

用於文字相關說話人驗證的J-Vector提取器和聯合貝葉斯模型的聯合學習

Joint Learning of J-Vector Extractor and Joint Bayesian Model for Text Dependent Speaker Verification Ziqiang Shi, Liu Liu, Huibin Lin, Rujie L

sklearn中的樸素貝葉斯模型及其應用

1.使用樸素貝葉斯模型對iris資料集進行花分類嘗試使用3種不同型別的樸素貝葉斯：高斯分佈型多項式型伯努利型 2.使用sklearn.model_selection.cross_val_score()，對模型進行驗證 from sklearn.datasets import load

第11次作業 sklearn中的樸素貝葉斯模型及其應用

1.使用樸素貝葉斯模型對iris資料集進行花分類嘗試使用3種不同型別的樸素貝葉斯：高斯分佈型多項式型伯努利型 from sklearn import datasets iris=datasets.load_iris() from sklearn.naive_bayes import G

基於LVD、貝葉斯模型演算法實現的電商行業商品評論與情感分析案例

一、 專案需求

1.1 語言處理相關庫（snownlp，jieba，gensim）

1.2 LDA主題模型

1.3 相關模型的比較

二、程式碼：

2.1 匯入資料—評論提取—文字去重

2.2 模型構造—情感分析—分詞—去除停用

2.3 LDA主題分析

相關推薦

一、專案需求