詳解使用Python爬取豆瓣短評並繪製詞雲

阿新 • • 發佈：2018-12-04

使用Python爬取豆瓣短評並繪製詞雲

成果如下(比較醜，湊合看)
在這裡插入圖片描述

1.分析網頁

開啟想要爬取的電影，比如《找到你》，其短評如下:

在這裡插入圖片描述

檢視原始碼

在這裡插入圖片描述

發現短評存放在`<span>`標籤裡並且class為short，所以通過爬取其裡邊的內容即可

並且通過翻頁發現：url改變的僅僅為start,每次翻頁增加20，所以只需for迴圈增加數字即可控制頁數

在這裡插入圖片描述

2.獲取其網頁內容

我們使用`bs4`以及`requests`模組進行獲取，並使用多執行緒加快爬取速度

import threading

import requests
from bs4 import  BeautifulSoup
# #      1). 爬取某一頁的評論資訊；
def getOnePageComment(id, pageNum):
    # 1). 根據頁數確定start變數的值
    # 第一頁: https://movie.douban.com/subject/26425063/comments?start=0&limit=20&sort=new_score&status=P
    # 第二頁: https://movie.douban.com/subject/26425063/comments?start=20&limit=20&sort=new_score&status=P
    # 第三頁: https://movie.douban.com/subject/26425063/comments?start=20&limit=40&sort=new_score&status=P
    start = (pageNum-1)*20
    url = "https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_score&status=P" %(id, start)
    # 2). 爬取評論資訊的網頁內容
    content = requests.get(url).text
    # 3). 通過bs4分析網頁
    soup = BeautifulSoup(content, 'lxml')
    # 分析網頁得知， 所有的評論資訊都是在span標籤， 並且class為short;
    commentsList = soup.find_all('span', class_='short')
    pageComments = ""
    # 依次遍歷每一個span標籤， 獲取標籤裡面的評論資訊, 並將所有的評論資訊儲存到pageComments變數中;
    for commentTag in commentsList:
        pageComments += commentTag.text
    # return pageComments
    print("%s page" %(pageNum))
    global  comments
    comments += pageComments

#      2).爬取某個電影的前10頁評論資訊；
id = '27140071'
comments = ''
threads = []
# 爬取前10頁的評論資訊;獲取前幾頁就迴圈幾次；
for pageNum in range(10): # 0 , 1 2 3 4...9
    pageNum = pageNum + 1
    # getOnePageComment(id, pageNum)
    # 通過啟動多執行緒獲取每頁評論資訊
    t = threading.Thread(target=getOnePageComment, args=(id, pageNum))
    threads.append(t)
    t.start()
#     等待所有的子執行緒執行結束， 再執行主執行緒內容;
_ = [thread.join() for thread in threads]
print("執行結束")
with open("%s.txt" %(id), 'w') as f:
    f.write(comments)

成果如下

在這裡插入圖片描述

3.資料清洗

對於爬取的評論資訊進行資料清洗(刪除不必要的逗號，句號，表情，只留下中文或者英文內容)
在此使用re模組使用正則表示式進行資料清洗

with open('找到你.txt','a+') as f:
    comments = f.read()
    print(comments)
    # 通過正則表示式實現
    pattern = re.compile(r'([\u4e00-\u9fa5]+|[a-zA-Z]+)')
    deal_comments = re.findall(pattern, comments)
    newComments = ''
    print(newComments)
    for item in deal_comments:
        newComments += item
    print(newComments)
    f.write(newComments)

4.製作詞雲

通過`jiaba`(通過詞庫切割中文)、`wordcloud`(製作詞雲)模組實現

import jieba
import  wordcloud
import  numpy as np
# 在python2中處理影象，Image； python3中如果處理影象， 千萬不要安裝Image, 安裝pillow
from PIL import Image

# 1). 切割中文， lcut返回一個列表， cut返回一個生成器；
result = jieba.lcut(open('找到你.txt').read())

# 2). 開啟圖片
imageObj = Image.open('./doc/mao.jpg')
cloud_mask = np.array(imageObj)

# 4). 繪製詞雲
wc = wordcloud.WordCloud(
    mask = cloud_mask,
    background_color='black',
    font_path='./font/msyh.ttf',    # 處理中文資料時
    min_font_size=5,    # 圖片中最小字型大小；
    max_font_size=50,   # 圖片中最大字型大小；
    width=500,  # 指定生成圖片的寬度
)
wc.generate(",".join(result))
wc.to_file('找到你.png')

(效果如圖，背景大家可以找點自己喜歡的)

在這裡插入圖片描述

詳解使用Python爬取豆瓣短評並繪製詞雲

使用Python爬取豆瓣短評並繪製詞雲成果如下(比較醜，湊合看) 1.分析網頁開啟想要爬取的電影，比如《找到你》，其短評如下: 檢視原始碼發現短評存放在<span>標籤裡並且class為short，所以通過爬取其裡邊的內容即可

[轉載]Python爬取豆瓣影評並生成詞雲圖程式碼

# -*- coding:utf-8 -*- ''' 抓取豆瓣電影某部電影的評論這裡以《我不是潘金蓮為例》網址連結:https://movie.douban.com/subject/26630781/comments 為了抓取全部評論需要先進行登入 '''

Python3網路爬蟲：requests+mongodb+wordcloud 爬取豆瓣影評並生成詞雲

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二豆瓣網影評爬取網頁分析程式碼編寫三資料庫實裝四

用Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何的微博資料都可以製作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默默吃狗糧還是主動出擊告別單身汪加入散狗糧的行列就看你啦，七夕送什麼才有心意，程式猿可以試試用

Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何人的微博資料都可以製作出來，即使是Python小白也能分分鐘做出來。準備工作本環境基於Python3，理論上Python2.7也是可行的，先安裝必要的第三方依賴包： #

根據地理位置和關鍵詞爬取twitter資料並生成詞雲

根據地理位置和關鍵詞爬取twitter資料存入MongoDB並生成詞雲轉載註明出處 tweepy獲取資料生成詞雲 tweepy獲取資料 1. 建立model model.py class twitter_post(Document):

Python爬取動態說說，生成詞雲，看看朋友的現狀

今天我們要做的事情是使用動態爬蟲來爬取QQ空間的說說，並把這些內容存在txt中，然後讀取出來生成雲圖，這樣可以清晰的看出朋友的狀況。這是好友的QQ空間10年說說內容，基本有一個大致的印象了。爬取動態內容 1.因為動態頁面的內容是動態加載出來的，所以

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。基本環境配置版本：Python3.6 系統：Windows 本人對於Python學習建立了一個小小的學習圈子，為各位提供了

爬取豆瓣電影短評並使用詞雲簡單分析top50

先使用程序池爬取豆瓣電影短評 import requests import re import random import time import pandas as pd from pymongo import MongoClient from multiprocessing import

python 爬取豆瓣電影評論，並進行詞雲展示及出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神短評第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

python爬取豆瓣網頁短評實戰！

首先我們開啟我的父親母親的網頁介面：連結（https://book.douban.com/subject/20389038/comments/），可以觀察到如下介面以及讀者對本書的評價：接下來我們直接附上程式碼：# 書名：我的父親母親 # 作者: [英] 多麗絲·萊辛 #

Python爬蟲實戰詳解：爬取圖片之家

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理如何使用python去實現一個爬蟲？模擬瀏覽器請求並獲取網站資料在原始資料中提取我們想要的資料資料篩選將篩選完成的資料做儲存完成一個爬蟲需要哪些工具 Python3.6 p

python爬取豆瓣小組700+話題加回復啦啦啦python open file with a variable name

技術分享 ash 寫入 blog ima ron tar 回復 -128 需求：爬取豆瓣小組所有話題（話題title，內容，作者，發布時間），及回復（最佳回復，普通回復，回復_回復，翻頁回復，0回復）解決：1. 先爬取小組下，所有的主題鏈接，通過定位nextp

python爬取豆瓣250存入mongodb全紀錄

xpath author cli content call function 取出 pycha 出版社用了一周的時間總算搞定了，跨過了各種坑，總算調試成功了，記錄如下： 1、首先在cmd中用命令行建立douban爬蟲項目 scrapy startproject douba

python 爬取豆瓣電影案例

數據 odin span content html temp com str self # conding=utf-8 from parse import parse_url import json class DoubanSpider: def __init

Python爬取天氣資訊並定時傳送給微信好友(異地戀神器)！！

效果前言中國天氣網： http://www.weather.com.cn/ 點選右上角的具體的天氣資料想獲取哪個城市的天氣，就搜尋城市進行切換這裡以青島為例可以看到此時url為： http://www.weather.com.cn/weat

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

python 爬取豆瓣網搜尋結果同城活動資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 bs4:網頁程式碼解析以下是原始碼： #!coding=utf-8 import requests

教你用Python爬取豆瓣圖書Top250

質量、速度、廉價，選擇其中兩個這篇文章將會用到上一篇文章所講的內容，如果沒有看過可以去看一下教你用Python寫excel 今天我們要做的就是用Python爬取豆瓣圖書Top250，先開啟網站看一下今天不談這豆瓣圖書top250垃圾不垃圾的問題，只看看怎麼用p

Python爬取豆瓣TOP250圖書排行榜

# -*- coding: utf-8 -*- import bs4 import requests def open_url(url): # url = 'https://movie.douban.com/top250' hd = {}

詳解使用Python爬取豆瓣短評並繪製詞雲

使用Python爬取豆瓣短評並繪製詞雲

1.分析網頁

開啟想要爬取的電影，比如《找到你》，其短評如下:

檢視原始碼

發現短評存放在<span>標籤裡 並且class為short，所以通過爬取其裡邊的內容即可

並且通過翻頁發現：url改變的僅僅為start,每次翻頁增加20，所以只需for迴圈增加數字即可控制頁數

2.獲取其網頁內容

我們使用bs4以及requests模組進行獲取，並使用多執行緒加快爬取速度

成果如下

3.資料清洗

4.製作詞雲

通過jiaba(通過詞庫切割中文)、wordcloud(製作詞雲)模組實現

(效果如圖，背景大家可以找點自己喜歡的)

相關推薦

發現短評存放在`<span>`標籤裡並且class為short，所以通過爬取其裡邊的內容即可

我們使用`bs4`以及`requests`模組進行獲取，並使用多執行緒加快爬取速度

通過`jiaba`(通過詞庫切割中文)、`wordcloud`(製作詞雲)模組實現