python爬豆瓣影評&根據詞頻生成詞雲

阿新 • • 發佈：2018-12-22

python爬豆瓣影評&根據詞頻生成詞雲

通過爬取豆瓣上正在上映的電影影評資訊，並根據評論詞頻生成詞雲。

一、需要的包

import warnings  # 防止出現future warning
warnings.filterwarnings("ignore")
from urllib import request # 用於爬取網頁
from bs4 import BeautifulSoup as bs # 用於解析網頁
import re
import pandas as pd
import numpy as np
import jieba # 用於切詞
from wordcloud import WordCloud # 用於生成詞雲
import matplotlib.pyplot as plt
import matplotlib

二、獲取電影列表

開啟豆瓣上海（https://movie.douban.com/cinema/nowplaying/shanghai/），觀察原始碼內需要爬取內容的特徵。

1、獲取nowplaying電影，並將每一個電影的內容都存在list內。

'''get url'''
url = 'https://movie.douban.com/nowplaying/shanghai/'
resp = request.urlopen(url)
html_data = resp.read().decode('utf-8') # 防止亂碼

soup = bs(html_data, 'html.parser') # 解析
nowplaying = soup.find_all('div', id='nowplaying') # 網頁中id為nowplaying是現在正在上映的電影。
nowplaying_list = nowplaying[0].find_all('li', class_='list-item') # 尋找所有上映電影相關資訊

2、提取電影名稱和id

'''get movie list''' 
movie_list = [] # 獲取電影id和電影名
for item in nowplaying_list:
    movie_dic = {}
    movie_dic['id'] = item['id']
    movie_dic['name'] = item['data-title']
    movie_list.append(movie_dic)

當前nowplaying電影列表

[{'id': '26683723', 'name': '後來的我們'},
 {'id': '26420932', 'name': '巴霍巴利王2：終結'},
 {'id': '26774033', 'name': '幕後玩家'},
 {'id': '26430636', 'name': '狂暴巨獸'},
 {'id': '4920389', 'name': '頭號玩家'},
 {'id': '26935777', 'name': '瑪麗與魔女之花'},
 {'id': '26924141', 'name': '低壓槽：慾望之城'},
 {'id': '26640371', 'name': '犬之島'},
 {'id': '25881611', 'name': '戰神紀'},
 {'id': '26769474', 'name': '香港大營救'},
 {'id': '5330387', 'name': '青年馬克思'},
 {'id': '26691361', 'name': '21克拉'},
 {'id': '26588783', 'name': '冰雪女王3：火與冰'},
 {'id': '30183489', 'name': '小公主艾薇拉與神祕王國'},
 {'id': '26868408', 'name': '黃金花'},
 {'id': '26942631', 'name': '起跑線'},
 {'id': '26384741', 'name': '湮滅'},
 {'id': '30187395', 'name': '午夜十二點'},
 {'id': '26647117', 'name': '暴裂無聲'},
 {'id': '30152451', 'name': '厲害了，我的國'},
 {'id': '27075280', 'name': '青年馬克思'},
 {'id': '26661189', 'name': '脫單告急'},
 {'id': '27077266', 'name': '米花之味'},
 {'id': '26603666', 'name': '媽媽咪鴨'},
 {'id': '26967920', 'name': '遇見你真好'},
 {'id': '30162172', 'name': '出山記'},
 {'id': '20435622', 'name': '環太平洋：雷霆再起'}]

三、獲取《後來的我們》影評

《最好的我們》位於第一個，索引為0。根據影評地址爬取第一頁20條影評，並找到評論所在位置。

1、獲取影評所在div塊兒。

'''first is 'zuihaodewomen', get comments'''
url_comment = 'https://movie.douban.com/subject/' + movie_list[0]['id'] + '/comments?start=' + '0' + '&limit=20'
resp = request.urlopen(url_comment)
html_comment = resp.read().decode('utf-8')
soup_comment = bs(html_comment, 'html.parser')
comment_list = soup_comment.find_all('div', class_='comment')

2、獲取每個影評的內容

'''get comment list'''
comments = []
for item in comment_list:
    comment = item.find_all('p')[0].string
    comments.append(comment)

四、清洗影評

前面步驟得到的影評為list，為了能夠利用jieba包進行切詞，需要將其轉化為字元，並且去除所有標點。

'''clean comments'''
allComment = ''
for item in comments:
    allComment = allComment + item.strip()

# 至少匹配一個漢字,兩個unicode值正好是Unicode表中的漢字的頭和尾。
pattern = re.compile(r'[\u4e00-\u9fa5]+')
finalComment = ''.join(re.findall(pattern, allComment))

segment = jieba.lcut(finalComment)
words_df = pd.DataFrame({'segment': segment})

五、去除無關字元

利用stopwords檔案（百度即可下載）去除一些無用的片語（如我，你，的.....）。

'''remove useless words'''
stopwords = pd.read_csv(".../chineseStopwords.txt", index_col=False, quoting=3, sep="\t",
                        names=['stopword'], encoding='GBK')
words_df = words_df[~words_df.segment.isin(stopwords.stopword)]

'''get words frequency'''
words_fre = words_df.groupby(by='segment')['segment'].agg({'count': np.size})
words_fre = words_fre.reset_index().sort_values(by='count', ascending=False)

六、畫出影評詞雲圖

'''use wordcloud'''
matplotlib.rcParams['figure.figsize'] = [10.0, 5.0]
wordcloud = WordCloud(font_path='simhei.ttf', background_color='white', max_font_size=80)
word_fre_dic = {x[0]: x[1] for x in words_fre.values}
wordcloud = wordcloud.fit_words(word_fre_dic)
plt.imshow(wordcloud)
plt.show()

七、完整版程式碼

import warnings  # 防止出現future warning
warnings.filterwarnings("ignore")
from urllib import request  # 用於爬取網頁
from bs4 import BeautifulSoup as bs  # 用於解析網頁
import re
import pandas as pd
import numpy as np
import jieba  # 用於切詞
from wordcloud import WordCloud  # 用於生成詞雲
import matplotlib.pyplot as plt
import matplotlib

def getMovieList(url, headers, pattern1='div', id1='nowplaying', pattern2='li', class_='list-item'):
    resp = request.urlopen(url)
    html = resp.read().decode('utf-8')
    soup = bs(html, 'html.parser')
    nowplaying = soup.find_all(pattern1, id=id1)
    nowplaying_list = nowplaying[0].find_all(pattern2, class_=class_)
    
    movie_list = []
    for item in nowplaying_list:
        movie_dic = {}
        movie_dic['id'] = item['id']
        movie_dic['name'] = item['data-title']
        movie_list.append(movie_dic)
    return movie_list

def getCommentList(id2, headers, pages=10, pattern='div', class_='comment'):
    assert pages > 0
    
    all_comments = []
    for i in range(pages):
        start = (i) * 20
        url = 'https://movie.douban.com/subject/' + id2 + '/comments' +'?' +'start=' + str(start) + '&limit=20'
        resp = request.urlopen(url)
        html = resp.read().decode('utf-8')
        soup = bs(html, 'html.parser')
        comment = soup.find_all(pattern, class_=class_)
        
        comments = []
        for item in comment:
            comment = item.find_all('p')[0].string
            comments.append(comment)
        
        all_comments.append(comments)
        
    allComment = ''
    for i in range(len(all_comments)):
         allComment =  allComment + (str(all_comments[i])).strip()

    wordpattern = re.compile(r'[\u4e00-\u9fa5]+')
    finalComment = ''.join(re.findall(wordpattern, allComment))
    
    return finalComment

def cleanComment(finalComment, path):
    segment = jieba.lcut(finalComment)
    comment = pd.DataFrame({'segment': segment})
    
    stopwords = pd.read_csv(path, quoting=3, sep='\t', names=['stopword'], encoding='GBK', index_col=False)
    comment = comment[~comment.segment.isin(stopwords.stopword)]
    
    comment_fre = comment.groupby(by='segment')['segment'].agg({'count': np.size})
    comment_fre = comment_fre.reset_index().sort_values(by='count', ascending=False)
    return comment_fre

def wordcloud(comment_fre):
    matplotlib.rcParams['figure.figsize'] = [10.0, 5.0]
    wordcloud = WordCloud(font_path='simhei.ttf', background_color='white', max_font_size=80)
    comment_fre_dic = {x[0]: x[1] for x in comment_fre.head(1000).values}
    wordcloud = wordcloud.fit_words(comment_fre_dic)
    plt.imshow(wordcloud)
    plt.show

def printMoveName(movie_list, id2):
    for item in movie_list:
        if item['id'] == id2:
            print(item['name'])

def main(url, headers, j, pages, path):
    movie_list = getMovieList(url, headers, 'div', 'nowplaying', 'li', 'list-item')
    comment_list = getCommentList(movie_list[j]['id'], headers, pages, 'div', 'comment')
    comment_fre = cleanComment(comment_list, path)
    printMoveName(movie_list, movie_list[j]['id'])
    return wordcloud(comment_fre)

test1：獲取前十頁《後來的我們》影評

url = 'https://movie.douban.com/nowplaying/shanghai/'
path = ".../chineseStopwords.txt"
main(url, headers, 0, 10, path)

test2：獲取前十頁《頭號玩家》影評

八、參考

https://mp.weixin.qq.com/s/D5Q4Q6YcQDTOOlfwIytFJw

https://www.cnblogs.com/GuoYaxiang/p/6232831.html

python爬豆瓣影評&根據詞頻生成詞雲

python爬豆瓣影評&根據詞頻生成詞雲通過爬取豆瓣上正在上映的電影影評資訊，並根據評論詞頻生成詞雲。一、需要的包import warnings # 防止出現future warning warnings.filterwarnings("ignore") from

用Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何的微博資料都可以製作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默默吃狗糧還是主動出擊告別單身汪加入散狗糧的行列就看你啦，七夕送什麼才有心意，程式猿可以試試用

Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何人的微博資料都可以製作出來，即使是Python小白也能分分鐘做出來。準備工作本環境基於Python3，理論上Python2.7也是可行的，先安裝必要的第三方依賴包： #

Python爬取動態說說，生成詞雲，看看朋友的現狀

今天我們要做的事情是使用動態爬蟲來爬取QQ空間的說說，並把這些內容存在txt中，然後讀取出來生成雲圖，這樣可以清晰的看出朋友的狀況。這是好友的QQ空間10年說說內容，基本有一個大致的印象了。爬取動態內容 1.因為動態頁面的內容是動態加載出來的，所以

python 爬取視頻評論生成詞雲圖

爬取評論生成詞雲首先爬取評論寫入文件，用上一篇爬取騰訊是視頻的評論的方法提取評論http://blog.51cto.com/superleedo/2126099 代碼需要稍作修改如下：#!/usr/bin/env python # -*- coding: utf-8 -*- import re import

根據地理位置和關鍵詞爬取twitter資料並生成詞雲

根據地理位置和關鍵詞爬取twitter資料存入MongoDB並生成詞雲轉載註明出處 tweepy獲取資料生成詞雲 tweepy獲取資料 1. 建立model model.py class twitter_post(Document):

Python小程式——利用wordcloud庫生成詞雲（二）

wordcloud庫利用wordcloud物件生成詞雲，其中可以配置很多屬性，讓你的詞雲更加個性化。 w_cloud = wordcloud.WordCloud( font_path=font, background_color=None, mode="RGBA", # 背

Python小程式——利用wordcloud庫生成詞雲（一）

最近自學Python的中文處理，其中用到了wordcloud庫生成一篇文章的詞雲，能更直觀的表現出文章的主題，是一個不錯的工具。雖然現在網上有很多詞雲線上生成的應用，不過為了更個性化一點，還是寫一個自己的詞雲生成工具吧。 import jieba import wordcloud from

Python獲取微信好友簽名生成詞雲

tps targe fan generate lis 制作 dom white print ‘‘‘ pip install wxpy pip install matplotlib # 如果下載超時，就換源下載：pip install -i https://pypi.tu

統計QQ聊天記錄進階版（分詞+統計關鍵字出現的次數+根據詞頻製作詞雲）

繼上個部落格統計關鍵字次數的進階，將關鍵詞的次數製作成詞雲儲存到圖片。之前說過的部分現在就不說了，這裡主要講根據詞頻製作詞雲。1.安裝wordcloud（這裡要注意坑）這個安裝的過程比jieba複雜，因為直接用pip install wordcloud會安裝失敗，要先下載對應

Python3網路爬蟲：requests+mongodb+wordcloud 爬取豆瓣影評並生成詞雲

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二豆瓣網影評爬取網頁分析程式碼編寫三資料庫實裝四

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

python爬蟲爬取QQ說說並且生成詞雲圖，回憶滿滿！

運維開發網絡分析 matplot 容易 jieba 編程語言提示框然而 Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且

Python爬取QQ空間好友說說並生成詞雲(超詳細)

near 當前面數據請求 range 頁面 blank sleep 點擊前言先看效果圖: 思路 1.確認訪問的URL 2.模擬登錄你的QQ號 3.判斷好友空間是否加了權限，切換到說說的frame，爬取當前頁面數據，下拉滾動條，翻頁繼續獲取爬取的內容寫

Python實現根據指定圖片生成詞雲

效果生成詞雲前生成詞雲後實現新建imageWordCloud.py 在同級目錄下新建aobama.txt,裡面內容是英文單詞(奧巴馬演講稿) 在同級目錄下放一張照片bg.jpg，根據這張照片來生成詞雲程式碼帶註釋： from os import

python爬取資料熱點詞生成詞雲

這是當時在中國mooc學用python玩轉資料時，寫的一個小demo. 程式實現步驟 1.從某一網站爬取資料，比如我是在豆瓣爬取的書評利用Requests庫的get()爬取網頁使用BeatifulSoup庫對爬取網頁進行解析。寫入

豆瓣電視劇評論的爬取以及進行情感分析+生成詞雲

很多時候我們要了解一部電視劇或電影的好壞時都會去豆瓣上檢視評分和評論，本文基於豆瓣上對某一部電視劇評論的爬取，然後進行SnowNLP情感分析，最後生成詞雲，給人一個直觀的印象 1. 爬取評論以前段時間比較火熱的《獵場》為例，因豆瓣網有反爬蟲機制，所以在爬取時要帶登入後

1] python 爬取微信好友個性簽名，生成詞雲

在Anaconda下完成，參考https://blog.csdn.net/zhonglixianyun/article/details/78229782結果圖：1. 需要的庫 numpy， os， itchat, wordcloud, jieba, 1) 安裝itchat

使用Python統計文件中詞頻，並且生成詞雲

pla sha white acs wid textarea 文章 sid atp .title { text-align: center } .todo { font-family: monospace; color: red } .done { color: green

Python爬蟲實戰(6)-爬取QQ空間好友說說並生成詞雲(超詳細)

前言先看效果圖: TXT檔案：如果想生成特定圖片樣式的詞雲圖，可以直接訪問下面這篇文章學一下： https://mp.weixin.qq.com/s/FUwQ4jZu6KMkjRvEG3UfGw 前幾天我們陸陸續續的講了Python如何生成

python爬豆瓣影評&根據詞頻生成詞雲