python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成雲圖。

阿新 • • 發佈：2018-12-16

專案github地址：https://github.com/kocor01/spider_cloub/

Python版本為3.6

最近突然想玩玩雲圖，動手寫了個簡單的爬蟲，搭建了簡單的爬蟲架構

爬蟲爬取最近比較火的電影《芳華》分詞後生成雲圖

使用了 jieba分詞，雲圖用wordcloud生成

用了朋友的2B姿勢的自拍照片簡單的P了下（為了不暴露，P成全黑的），作為生成雲圖的底圖模板

雲圖底圖模板：

生成的雲圖效果：

爬蟲基礎框架

spider_main.py 爬蟲入口
url_manager.py URL管理器
html_downloader.py 網頁下載器
html_parser.py 資料提取器
html_outputer.py 資料處理器
word_cloud.py 雲圖生成器

extra_dict資料夾檔案如下：

li.png 雲圖底圖模板

simhei.ttf 生成雲圖的字型檔案

str.txt 爬取的電影短評

stop_words.txt 分詞排除的詞

cut_str.txt jieba分詞後文件

yun.png 最後生成的雲圖

程式碼如下：

spider_main.py 爬蟲入口

#coding:utf-8

import url_manager,html_parser,html_outputer,html_downloader,word_cloud

class SpiderMain(object):

    def __init__(self):
        # URL管理器
        self.urls = url_manager.UrlManager()
        # 網頁下載器
        self.downloader = html_downloader.HtmlDownloader()
        # 資料提取器
        self.parser = html_parser.HtmlParser()
        # 資料處理器
        self.outputer = html_outputer.HtmlOutputer()
        # 雲圖生成器
        self.cloud = word_cloud.Wordcloud()

    def craw(self, root_url):
        count =1
        # 爬蟲入口URL
        self.urls.add_new_url(root_url)
        # 待爬取URL
        wait_url = self.urls.has_new_url()

        if wait_url is not None:
            while wait_url:
               try:
                    # 獲取一個待爬取URL
                    new_url = self.urls.get_new_url()
                    print("carw %d : %s" % (count, new_url))
                    # 爬取頁面
                    html_cont = self.downloader.download(new_url)
                    # 資料提取
                    new_url, new_datas = self.parser.parser(new_url, html_cont)
                    # 新增新待爬取URL
                    self.urls.add_new_url(new_url)
                    # 資料加工處理
                    self.outputer.collect_data(new_datas)
                    # 爬蟲迴圈控制
                    if count == 10:
                        break

                    count = count + 1
               except:
                   print("craw failed")

        # 資料加工輸出
        self.outputer.process_data()
        #print("finish")

        # 分詞
        self.outputer.cut_str()

        # 生成雲圖
        self.cloud.make()
        print("finish")



if __name__ == "__main__":
    # 爬蟲入口URL
    root_url = "https://movie.douban.com/subject/26862829/comments?status=P"
    obj_spider = SpiderMain()
    # 啟動爬蟲
    obj_spider.craw(root_url)

url_manager.py URL管理器

#coding:utf-8

class UrlManager(object):

    def __init__(self):
        self.new_urls = set()
        self.old_urls = set()

    def add_new_url(self, url):
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)



    def add_new_urls(self, urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def has_new_url(self):
        return len(self.new_urls) != 0

    def get_new_url(self):
        new_url = self.new_urls.pop()
        self.old_urls.add(new_url)
        return new_url

html_downloader.py 網頁下載器

#coding:utf-8


import urllib.request

class HtmlDownloader(object):

    def download(self, url):
        if url is None:
            return None

        request = urllib.request.Request(url)
        request.add_header("user-agent", "Mozilla/5.0")
        response = urllib.request.urlopen(url)

        if response.getcode() != 200:
            return None

        return response.read()

html_parser.py 資料提取器

#coding:utf-8

import http.cookiejar
from bs4 import BeautifulSoup
import re
import urllib.parse

class HtmlParser(object):

    def parser(self, page_url, content):

        if page_url is None or content is None:
            return

        soup = BeautifulSoup(content, "html.parser", from_encoding='utf-8')
        new_url = self._get_new_url(page_url, soup)
        new_datas = self._get_new_datas(page_url, soup)
        return new_url, new_datas

    def _get_new_url(self, page_url, soup):

        new_url = soup.find('div', id="paginator").find('a', class_="next").get('href')
        new_full_url = urllib.parse.urljoin(page_url, new_url)
        return new_full_url


    def _get_new_datas(self, page_url, soup):
        res_datas = set()
        contents = soup.find_all('div', class_="comment-item")
        for content in contents:
            res_datas.add(content.find('div', class_="comment").find('p').get_text())

        return res_datas

html_outputer.py 資料處理器

#coding:utf-8

import pymysql
import jieba.analyse

class HtmlOutputer(object):

    def __init__(self):
        self.datas = []

    def collect_data(self, data):
        res_datas = set()

        if data is None:
            return
        for d in data:
            self.datas.append(d)

    def process_data(self):
        #print(len(self.datas))
        file_object = open('./extra_dict/str.txt', 'w',encoding='utf-8',errors='ignore')
        data_str = ''
        for data in self.datas:
            #data_str += data
            file_object.write(data)

        #print(data_str)
        file_object.close()



    def cut_str(self):
        content = open('./extra_dict/str.txt',encoding='utf-8',errors='ignore').read()
        jieba.analyse.set_stop_words("./extra_dict/stop_words.txt")
        tags = jieba.analyse.extract_tags(content, topK=1000,withWeight=True)
        file_object = open('./extra_dict/cut_str.txt', 'w')    
        for v, n in tags:
            #權重是小數，為了湊整，乘了一萬
            #print(v + '\t' + str(int(n * 10000)))
            data_str = v + '\t' + str(int(n * 10000)) + '\n'
            file_object.write(data_str)
        file_object.close()

word_cloud.py 雲圖生成器

from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator


class Wordcloud(object):

	def make(self):
		d = path.dirname(__file__)

		# Read the whole text.
		text = open(path.join(d, './extra_dict/cut_str.txt')).read()

		# read the mask / color image taken from
		alice_coloring = np.array(Image.open(path.join(d, "./extra_dict/li.png")))
		stopwords = set(STOPWORDS)
		stopwords.add("said")

		wc = WordCloud(font_path="./extra_dict/simhei.ttf",background_color="white", max_words=2000, mask=alice_coloring,
		               stopwords=stopwords, max_font_size=40, random_state=42)
		# generate word cloud
		wc.generate(text)

		# create coloring from image
		image_colors = ImageColorGenerator(alice_coloring)

		# show
		plt.imshow(wc, interpolation="bilinear")
		plt.axis("off")
		plt.figure()
		# recolor wordcloud and show
		# we could also give color_func=image_colors directly in the constructor
		plt.imshow(wc.recolor(color_func=image_colors), interpolation="bilinear")
		plt.axis("off")
		plt.figure()
		plt.imshow(alice_coloring, cmap=plt.cm.gray, interpolation="bilinear")
		plt.axis("off")
		wc.to_file(path.join(d, "./extra_dict/yun.png"))
		plt.show()

python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成雲圖。

專案github地址：https://github.com/kocor01/spider_cloub/ Python版本為3.6 最近突然想玩玩雲圖，動手寫了個簡單的爬蟲，搭建了簡單的爬蟲架構爬蟲爬取最近比較火的電影《芳華》分詞後生成雲圖使用了 jieba分詞，雲圖用word

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

Python爬蟲入門 | 爬取豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~好啦，正式開始我們的第二節課《爬取豆瓣電影信息》吧！啦啦哩啦啦，

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

python爬蟲（爬取豆瓣電影）_動態網頁,json解釋,中文編碼

from bs4 import BeautifulSoup import requests import json import sys import codecs reload(sys) sys.setdefaultencoding( "utf-8" ) rank

[python爬蟲入門]爬取豆瓣電影排行榜top250

要爬取內容的是豆瓣網的電影排行top250: https://movie.douban.com/top250, 將電影名和評分爬取下來並輸出, 如下圖: 使用了tkinter做了簡單頁面然後分析如何爬取內容: 首先爬取標題: 檢視原始碼後, 發現標

python爬蟲：爬取豆瓣讀書某個tag下的書籍並存入excel

#-*- coding: UTF-8 -*- import sys import time import urllib import urllib2 import requests #import numpy as np from bs4 import BeautifulS

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

python日常—爬取豆瓣250條電影記錄

ring 分層 com line gets ret 同仁 http 一個 # 感興趣的同仁可以相互交流哦import requests import lxml.html,csv doubanUrl = ‘https://movie.douban.com/top2

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

Python爬蟲：爬取網站電影資訊

以爬取電影天堂喜劇片前5頁資訊為例，程式碼如下： 1 # coding:UTF-8 2 3 import requests 4 import re 5 6 def mov(): 7 headers={'User-Agent':'Mozilla/5.0 (Windo

爬蟲之爬取豆瓣電影的名字

import requests #requests模組用於傳送HTTP請求 import json #json模組用於對JSON資料進行編解碼 #新建陣列用於存放多個電影資料 movielist=[] #瀏覽器演示json crawlSite="https://api.douba

python scrapy框架爬取豆瓣top250電影篇一代理編寫

爬蟲偽裝: UA中介軟體編寫 settings設定 from scrapy import signals import base64 import random class my_useragent(object): def process_req

python scrapy框架爬取豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中環境 windows7 mongodb4.0 mongodb安裝教程設定具體引數在管道里面寫具體引數開啟settings 設定引數測試開始–結果程式碼 import pymongo from douban.

一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

學習一門技術最快的方式是做專案，在做專案的過程中對相關的技術查漏補缺。本文通過爬取豆瓣top250電影學習python requests的使用。 1、準備工作在pycharm中安裝request庫請看上圖，在pycharm中依次點選：File->Settings。然後會彈出下圖的介面：點選2

用Python分分鐘爬取豆瓣本周口碑榜，就是有這麽秀！

再看 bsp 小夥伴網址 cap 本周提取統一 ext 平常在生活中，不知道大家是怎麽找電影的，反正小編是通過電影本周口碑榜來找的，個人感覺通過這種方式找來的電影都挺不錯的。既然提到口碑榜，不如我們來爬下豆瓣電影本周口碑榜上的電影吧，怎麽爬嘞，當然是用我們的Pytho

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片到本地。當我們在看百度圖片時，右鍵–檢查–Elements，點選箭頭，再用箭頭點選圖片時

用Python爬取豆瓣Top250的電影標題

ive f11 parse www 表達 star import utf-8 各類所以我們可以這麽寫去得到所有頁面的鏈接我們知道標題是在 target="_blank"> 標題的位置</a> 之中所以可以通過正則表達式找到所有符合條

python之簡單爬蟲（爬取豆瓣出版社）

ok，開始我們的實驗 1.開啟瀏覽器，輸入網址，右擊網頁，檢視網頁原始碼，這裡我用的是谷歌瀏覽器 2.看上圖我們發現許多出版社名稱，接下來我們查詢一個出版社名稱，例如重慶大學觀察下圖我們發現它們都在一個div標籤內，且class=”name” ,

python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成雲圖。

相關推薦