Python微博評論進行情感分析

阿新 • • 發佈：2019-01-11

最近身邊的人都在談論一件事：10月8日中午的一條微博，引發了一場微博的軒然大波。導致微博癱瘓的原因是全球超人氣偶像明星鹿晗發了一條“大家好，給大家介紹一下，這是我女朋友@關曉彤 ‘’。這條微博並@關曉彤。資料分析，可以在這裡自取！

l 關曉彤的這條微博轉發67652，回覆873532，點贊：2260400。

這麼龐大的資料量相當上億的“肉雞”（粉們和吃瓜群眾）對微博的一次“攻擊”。

難怪微博工程師要一邊結婚一邊工作，都是鹿晗這條微博惹的禍。最後加了1000臺伺服器暫時頂住了。

這條微博評論非常的多了，大家對這件事態度怎麼樣？我們利用資料來分析一下。

原料：

1. 鹿晗微博3萬條評論；

2. 關曉彤微博3萬條評論；

3.500萬微博語料，下載地址，密碼：tvdo

工具：

1. Python3.6

2. SnowNLP（可方便的處理中文文字內容，是受到了TextBlob的啟發而寫的，由於現在大部分的自然語言處理庫基本都是針對英文的，於是寫了一個方便處理中文的類庫，並且和TextBlob不同的是，這裡沒有用NLTK，所有的演算法都是自己(不是本人)實現的，並且自帶了一些訓練好的字典。）

3. WordCloud，詞雲。

實施過程：

1.下載微博500萬條記錄，一定要到資料庫所在機器上匯入。

mysql - u root -p xxx <weibo500w.sql

2.匯入的時間會持續很長時間，匯入完成後，為了提高效率可以進行去重和清理空的資料。

去重複內容：
    delete from 表名 where id not in (select minid from (select min(id) as minid from 表名 group by 欄位) b);
去值為NULL：
    delete from 表名 where 欄位名=NULL
去值為""空值
　　delete from 表名 where 欄位名=''

3.對微博語料進行情感分類，可以基於原有SnowNLP進行積極和消極情感分類和訓練。

import re
from snownlp import sentiment
import numpy as np
import 
 pymysql
from snownlp import SnowNLP
import matplotlib.pyplot as plt
from snownlp import sentiment
from snownlp.sentiment import Sentiment
conn = pymysql.connect(host='資料庫IP', user='使用者名稱', password='密碼', charset="utf8",use_unicode=False)  # 連線伺服器
with conn:
    cur = conn.cursor()
    cur.execute("SELECT * FROM test.weibo WHERE weiboId < '%d'" % 6000000)
    rows = cur.fetchall()
comment = []
for row in rows:
    row = list(row)
    comment.append(row[18])
def train_model(texts):
    for li in texts:
        comm = li.decode('utf-8')
        text = re.sub(r'(?:回覆)?(?://)[email protected][\w\u2E80-\u9FFF]+:?|\[\w+\]', ',',comm)
        socre = SnowNLP(text)
        if socre.sentiments > 0.8:
            with open('pos.txt', mode='a', encoding='utf-8') as g:
                g.writelines(comm +"\n")
        elif socre.sentiments < 0.3:
            with open('neg.txt', mode='a', encoding='utf-8') as f:
                f.writelines(comm + "\n")
        else:
            pass

train_model(comment)
sentiment.train('neg.txt', 'pos.txt')
sentiment.save('sentiment.marshal')

訓練完成後會生成sentiment.marshal.3，將snownlp/sentiment/中sentiment.marshal.3直接替換，訓練可以進行多輪訓練，精度會更好。

4. 爬取兩人的微博資料，使用http://m.weibo.com，解決懶載入問題，具體方式不在贅述，google 一下吧。

a. 微博提供了介面地址，微博提供API 地址，通過介面返回標準的json資料，自己想要存什麼資料自己就存吧。

{
    "comments": [
        {
            "created_at": "Wed Jun 01 00:50:25 +0800 2011",
            "id": 12438492184,
            "text": "love your work.......",
            "source": "<a href="http://weibo.com" rel="nofollow">新浪微博</a>",
            "mid": "202110601896455629",
            "user": {
                "id": 1404376560,
                "screen_name": "zaku",
                "name": "zaku",
                "province": "11",
                "city": "5",
                "location": "北京 朝陽區",
                "description": "人生五十年，乃如夢如幻；有生斯有死，壯士復何憾。",
                "url": "http://blog.sina.com.cn/zaku",
                "profile_image_url": "http://tp1.sinaimg.cn/1404376560/50/0/1",
                "domain": "zaku",
                "gender": "m",
                "followers_count": 1204,
                "friends_count": 447,
                "statuses_count": 2908,
                "favourites_count": 0,
                "created_at": "Fri Aug 28 00:00:00 +0800 2009",
                "following": false,
                "allow_all_act_msg": false,
                "remark": "",
                "geo_enabled": true,
                "verified": false,
                "allow_all_comment": true,
                "avatar_large": "http://tp1.sinaimg.cn/1404376560/180/0/1",
                "verified_reason": "",
                "follow_me": false,
                "online_status": 0,
                "bi_followers_count": 215
            },
            }
        },
        ...
    ],
    "previous_cursor": 0,
    "next_cursor": 0,
    "total_number": 7
}

目前微博沒有要求登入（可能是bug哦），建議sleep一下，否則很容易被微博大廠識別為爬蟲行為二被封堵；b．資料儲存，python很方便，直接儲存在在文字中就好了，但是仍然需要對一些特殊表情，空，重複進行處理

import codecs
import re
import numpy as np
import pymysql
from snownlp import SnowNLP
import matplotlib.pyplot as plt
from snownlp import sentiment
from snownlp.sentiment import Sentiment

comment = []
with open('檔案路徑', mode='r', encoding='utf-8') as f:
    rows = f.readlines()
    for row in rows:
        if row not in comment:
            comment.append(row.strip('\n'))
def snowanalysis(self):
    sentimentslist = []
    for li in self:
        #text = re.sub(r'(?:回覆)?(?://)[email protected][\w\u2E80-\u9FFF]+:?|\[\w+\]', ',',li)
        print(li)
        s = SnowNLP(li)
        print(s.sentiments)
        sentimentslist.append(s.sentiments)
    plt.hist(sentimentslist, bins=np.arange(0, 1, 0.01))
    plt.show()
snowanalysis(comment)

來看一執行過程：

讀取每段評論並依次進行情感值分析，最後生成一個0-1之間的值，當值大於0.5時代表句子的情感極性偏向積極，當分值小於0.5時，情感極性偏向消極，當然越偏向兩邊，情緒越偏激。

鹿晗微博評論情感分析，支援、祝福和反對、消極的的聲音基本保持平衡。

關曉彤微博微博評論情感分析，祝福、贊成的積極的情緒，分值大多高於0.5，而期盼分手或者表達消極情緒的分值，大多低於0.5。從圖上來看已經是一邊到的態勢。（由於語料樣本的數量，分析存在一定誤差，感興趣的同學一起完善情感樣本庫。）

b.我們一起看一次兩人微博評論的詞雲，程式碼如下：

import pickle
from os import path
import jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
def make_worldcloud(file_path):
    text_from_file_with_apath = open(file_path,'r',encoding='UTF-8').read()
    wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all=False)
    wl_space_split = " ".join(wordlist_after_jieba)
    print(wl_space_split)
    backgroud_Image = plt.imread('圖片路徑')
    print('載入圖片成功！')
    '''設定詞雲樣式'''
    stopwords = STOPWORDS.copy()
    stopwords.add("哈哈") #可以加多個遮蔽詞
    wc = WordCloud(
        width=1024,
        height=768,
        background_color='white',# 設定背景顏色
        mask=backgroud_Image,# 設定背景圖片
        font_path='E:\simsun.ttf',  # 設定中文字型，若是有中文的話，這句程式碼必須新增，不然會出現方框，不出現漢字
        max_words=600, # 設定最大現實的字數
        stopwords=stopwords,# 設定停用詞
        max_font_size=400,# 設定字型最大值
        random_state=50,# 設定有多少種隨機生成狀態，即有多少種配色方案
    )
    wc.generate_from_text(wl_space_split)#開始載入文字
    img_colors = ImageColorGenerator(backgroud_Image)
    wc.recolor(color_func=img_colors)#字型顏色為背景圖片的顏色
    plt.imshow(wc)# 顯示詞雲圖
    plt.axis('off')# 是否顯示x軸、y軸下標
    plt.show()#顯示
    # 獲得模組所在的路徑的
    d = path.dirname(__file__)
    # os.path.join()：  將多個路徑組合後返回
    wc.to_file(path.join(d, "h11.jpg"))
    print('生成詞雲成功!')

make_worldcloud('文字路徑')

鹿晗評論詞雲，出現祝福、喜歡、支援等關鍵詞，也出現分手等一些詞。

關曉彤微博微博評論詞雲，出現很鹿晗，李易峰，不配，討厭，不要臉的聲音。

Python微博評論進行情感分析

原料：

工具：

實施過程：

Python微博評論進行情感分析

利用500萬條微博語料對微博評論進行情感分析

基於LDA對電商商品評論進行情感分析

科學蹭熱點：用python獲取熱門微博評論並進行情感分析

如何科學地蹭熱點：用python爬蟲獲取熱門微博評論並進行情感分析

用python對鹿晗、關曉彤微博進行情感分析哭著學習學習~

用python對鹿晗、關曉彤微博進行情感分析

python的中文文字挖掘庫snownlp進行購物評論文字情感分析例項

【python 自然語言處理】對胡歌【獵場】電視劇評論進行情感值分析

python抓取新浪微博評論並分析

Py：數據挖掘之對個人微信朋友圈好友的性別、區域、昵稱、簽名信息進行情感分析——Jason niu

【機器學習】使用Python的自然語言工具包（NLTK）對Reddit新聞標題進行情感分析

python簡單粗暴爬取微博評論區熱評配圖

python機器學習----利用sklearn進行情感分析

用python寫網路爬蟲-爬取新浪微博評論

【Python專案】基於文字情感分析的電商評論重排序（以京東為例）（附程式碼）

用Python爬了菊姐2W條微博評論，竟發現“菊粉”都是這樣的人！(附程式碼)

Python貝葉斯演算法進行情感分析

向娛樂圈看齊，Python爬取微博評論並製作酷炫的詞雲！

Python 文字挖掘：使用機器學習方法進行情感分析（一、特徵提取和選擇）

Python微博評論進行情感分析

原料：

工具：

實施過程：

相關推薦