python scrapy爬取全部豆瓣電影（可能是54萬資料）

阿新 • • 發佈：2019-01-12

（一）爬取環境

win10
python3
scrapy

（二）豆瓣電影參考標準

主要參考來自神箭手的雲市場

（三）爬取步驟

主要爬取的欄位有：標題，得分，封面url，簡介，全部評論

採用scrapy、ip代理池、ua次進行內容爬取

# -*- coding: utf-8 -*-
# @Time    : 2018/7/22 14:45
# @Author  : 蛇崽
# @Email   : [email protected]
# @File    : doubanmoviespider.py(豆瓣電影)
import json

import 
 scrapy
from bs4 import BeautifulSoup


class DouBanSpider(scrapy.Spider):
    name = 'adouban_spider'
    start_urls = ['https://movie.douban.com/tag/#/']
    allowed_domains = ['movie.douban.com']

    def parse(self,response):
        for count in range(0,27002,20):
            fir_url = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start={}' 
.format(count)
            yield scrapy.Request(
                fir_url,
                callback=self.parse_main
            )

    def parse_main(self,response):
        infos = json.loads(response.body.decode('utf-8'))
        '名稱 封面圖片 簡介 評分 短評top100'
        print(infos)
        datas = infos['data' 
]
        for data in datas:
            title = data['title'] # 名稱
            cover = data['cover'] # 封面圖片
            rate = data['rate']   # 評分
            url = data['url'] # 詳情url
            id = str(data['id'])
            if url:
                print(title,cover,rate,url)
                yield scrapy.Request(url,callback=self.parse_detail,meta={'id':id})

    def parse_detail(self,response):
        strid = response.meta['id']
        base_url = 'https://movie.douban.com/subject/{}/comments?'.format(strid)
        # 全部評論的連結
        b_url = 'https://movie.douban.com/subject/{}/comments?status=P'.format(strid)
        # 前一百條評論
        n_url = 'https://movie.douban.com/subject/4920528/comments?start=0&limit=20&sort=new_score&status=P'
        for page in range(0,100,20):
            n_url = base_url+'start={}&limit=20&sort=new_score&status=P'.format(page)
            print('n_url################# ',n_url)
            if n_url:
                yield scrapy.Request(b_url,callback=self.parse_comment)



        soup = BeautifulSoup(response.body, 'lxml')
        # 簡介(先隱藏後不隱藏的)
        try:
            abstract = soup.find('span', class_='all hidden').get_text()
        except:
            abstract = soup.find('span',attrs={'property':'v:summary'}).get_text()
            pass
        # print('abstract -------- ',abstract)

    def parse_comment(self,response):
        soup = BeautifulSoup(response.body,'lxml')
        shorts = soup.find_all('span',class_='short')
        for short in shorts:
            print('short =============  ',short.get_text())

個人微信：hll643435675（備註：部落格）

陸續優化中，後續會開發更多更好玩的有趣的小工具

python scrapy爬取全部豆瓣電影（可能是54萬資料）

（一）爬取環境 win10 python3 scrapy （二）豆瓣電影參考標準主要參考來自神箭手的雲市場（三）爬取步驟主要爬取的欄位有：標題，得分，

python爬蟲-爬取愛情公寓電影（2018）豆瓣短評並資料分析

說起這部電影，我本人並沒有看，其實原先是想為了情懷看一下，但是好友用親身經歷告訴我看來會後悔的，又去看了看豆瓣評分，史無前例的，，，低。出於興趣就爬取一下這部電影在豆瓣上的短評，並且用詞雲分析一下。 1.分析url 經過分析不難發現每一頁短評的url都是一致的除

python scrapy爬取皇冠體育源碼下載網站數據二（scrapy使用詳細介紹）

時間源碼保存文件 i+1 zh-cn china flat url def 1、scrapy工程創建皇冠體育源碼下載論壇：haozbbs.com Q1446595067 在命令行輸入如下命令，創建一個使用scrapy框架的工程 scrapy startproject s

用Python Scrapy爬取某電影網站並存儲入mysql

爬取目標：javlib，使用框架Scrapy 首先使用在命令列裡scrapy startproject projectname和scrapy genspider spidername指令建立爬蟲。首先定義items.pyimport scrapy class Av

python+scrapy爬取鬥魚圖片

建立scrapy的專案請參考：https://blog.csdn.net/qq_35723619/article/details/83614670 items的實現： DouyumeinvSpider建立：這次我們爬去的是json資料包：我們可以通過network監控：

python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片

上文介紹了爬取知乎問題資訊的整個過程,這裡介紹下爬取問題下所有答案的內容和圖片,大致過程相同,部分核心程式碼不同. 爬取一個問題的所有內容流程大致如下: 一個問題url 請求url,獲取問題下的答案個數(我不需要,因為之前獲取問題資訊的時候儲存了問題的回答個數) 通過答案的介面去獲取答案(如果一次獲取5

Python-爬取小說文字內容（使用beautiful soup實現）

Python-爬取小說文字內容（beautiful soup）本次爬取的網站為[http://www.136book.com/][6]，你可以在頁面選擇你想要爬取的小說。文中程式碼使用Anaconda的Jupyter書寫。 Beautiful Soup簡介官

Scrapy爬取前程無憂（51job）相關職位資訊

Scrapy爬取前程無憂（51job）python職位資訊開始是想做資料分析的，上網上找教程，看到相關部落格我就跟著做，但是沒資料就只能開始自己爬唄。順便給51job的工作人員提提建議，我爬的時候Scrapy訪問量開到128，relay僅有兩秒，還以為會封ip。沒想到只是改請求頭就

python爬取手機號段（電信199號段）

# -*- coding: GBK -*- """ 爬取手機號段歸屬地 """ import time import requests from lxml import etree ti

Python scrapy 爬取拉勾網招聘資訊

週末折騰了好久，終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下！環境： windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案： E:\mypy> scrapy startproject lgjob 建立後目錄結構：

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

今天想給我的電腦裡面多加點桌布，但是嫌棄一個個儲存太慢，於是想著寫個爬蟲直接批量爬取，因為爬蟲只是很久之前學過一些，很多基礎語句都不記得了，於是直接在網上找了個有基礎操作語句的爬蟲程式碼，在這上面進行修改以適應我的要求和爬取的網頁需求注意：這次爬取的

python scrapy爬取動態頁面

preface:最近學習工作之外，有個朋友需要爬取動態網頁的要求，輸入關鍵詞爬取某個專利網站在該關鍵詞下的一些專利說明。以往直接python urllib2可破，但是那只是對於靜態網頁可破，但是對於用js等其他的生成的動態網頁的話，則貌似不行（沒試過）。然後在網上找了些資料

python+scrapy 爬取成都鏈家二手房和成交資訊

爬蟲設計方案爬取目標成都鏈家的二手房和成交資料。由於web版看不到最新的成交金額資料，因此需要用手機版的資料。成交資料應該去重，可以做成每天增量爬取。需要做成每天爬取一次，定時執行參考文章技術方案使用Scrapy框架，

python+requests+ 爬取官網雙色球開獎資料

python+requests+mysql 爬取官網雙色球開獎資料分析網頁資料獲取方式第一種查詢方式第二種查詢方式注意：連結直接點過去的話是看不到任何東西的，服務端應該設定了某種 Referrer Policy 這個坑困擾了我有一陣剛入坑pyt

Python Scrapy反爬蟲常見解決方案（包含5種方法）

ins 都是可能自定義輸入 src stx 用戶 play 爬蟲的本質就是“抓取”第二方網站中有價值的數據，因此，每個網站都會或多或少地采用一些反爬蟲技術來防範爬蟲。比如前面介紹的通過 User-Agent 請求頭驗證是否為瀏覽器、使用 Jav

python爬蟲，Scrapy爬取豆瓣電影《芳華》電影短評，分詞生成詞雲圖。

專案github地址：https://github.com/kocor01/scrapy_cloud Python版本為3.6 自己寫的簡單架構《python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成詞雲圖。》這個是用Scrapy框架重新實現的爬蟲

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

爬蟲實戰（一）——利用scrapy爬取豆瓣華語電影

爬蟲第一個專案是爬取豆瓣華語電影，後面將對這部分資料進行分析。本文也是發表於『運籌OR帷幄』微信公眾號的《用資料帶你瞭解電影行業—華語篇》的爬蟲介紹篇。 1. 爬取思路在觀察了豆瓣每個影片的連結地址後，寫下了主要思路：（1）在豆瓣電影的選片頁面，篩選所有華

scrapy爬取豆瓣電影top250

imp port 爬取 all lba item text request top 1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣電影top250 3 4 import scrapy 5 from douban.items i

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

user 說過 -c convert 方式 bsp 配置文件 https 爬蟲爬取的思路首先我們應該找到一個賬號，這個賬號被關註的人和關註的人都相對比較多的，就是下圖中金字塔頂端的人，然後通過爬取這個賬號的信息後，再爬取他關註的人和被關註的人的賬號信息，然後爬取被關註人

python scrapy爬取全部豆瓣電影（可能是54萬資料）

（一）爬取環境

（二）豆瓣電影參考標準

（三）爬取步驟

相關推薦