1. 程式人生 > >python scrapy爬取全部豆瓣電影(可能是54萬資料)

python scrapy爬取全部豆瓣電影(可能是54萬資料)

(一)爬取環境
  • win10
  • python3
  • scrapy
(二)豆瓣電影參考標準

主要參考來自神箭手的雲市場

image.png

(三)爬取步驟

image.png
image.png
image.png

主要爬取的欄位有:標題,得分,封面url,簡介,全部評論

採用scrapy、ip代理池、ua次進行內容爬取

# -*- coding: utf-8 -*-
# @Time    : 2018/7/22 14:45
# @Author  : 蛇崽
# @Email   : [email protected]
# @File    : doubanmoviespider.py(豆瓣電影)
import json

import
scrapy from bs4 import BeautifulSoup class DouBanSpider(scrapy.Spider): name = 'adouban_spider' start_urls = ['https://movie.douban.com/tag/#/'] allowed_domains = ['movie.douban.com'] def parse(self,response): for count in range(0,27002,20): fir_url = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start={}'
.format(count) yield scrapy.Request( fir_url, callback=self.parse_main ) def parse_main(self,response): infos = json.loads(response.body.decode('utf-8')) '名稱 封面圖片 簡介 評分 短評top100' print(infos) datas = infos['data'
] for data in datas: title = data['title'] # 名稱 cover = data['cover'] # 封面圖片 rate = data['rate'] # 評分 url = data['url'] # 詳情url id = str(data['id']) if url: print(title,cover,rate,url) yield scrapy.Request(url,callback=self.parse_detail,meta={'id':id}) def parse_detail(self,response): strid = response.meta['id'] base_url = 'https://movie.douban.com/subject/{}/comments?'.format(strid) # 全部評論的連結 b_url = 'https://movie.douban.com/subject/{}/comments?status=P'.format(strid) # 前一百條評論 n_url = 'https://movie.douban.com/subject/4920528/comments?start=0&limit=20&sort=new_score&status=P' for page in range(0,100,20): n_url = base_url+'start={}&limit=20&sort=new_score&status=P'.format(page) print('n_url################# ',n_url) if n_url: yield scrapy.Request(b_url,callback=self.parse_comment) soup = BeautifulSoup(response.body, 'lxml') # 簡介(先隱藏後不隱藏的) try: abstract = soup.find('span', class_='all hidden').get_text() except: abstract = soup.find('span',attrs={'property':'v:summary'}).get_text() pass # print('abstract -------- ',abstract) def parse_comment(self,response): soup = BeautifulSoup(response.body,'lxml') shorts = soup.find_all('span',class_='short') for short in shorts: print('short ============= ',short.get_text())

個人微信:hll643435675(備註:部落格)

陸續優化中,後續會開發更多更好玩的有趣的小工具

相關推薦

python scrapy全部豆瓣電影可能54資料

(一)爬取環境 win10 python3 scrapy (二)豆瓣電影參考標準 主要參考來自神箭手的雲市場 (三)爬取步驟 主要爬取的欄位有:標題,得分,

python爬蟲-愛情公寓電影2018豆瓣短評並資料分析

說起這部電影,我本人並沒有看,其實原先是想為了情懷看一下,但是好友用親身經歷告訴我看來會後悔的,又去看了看豆瓣評分,史無前例的,,,低。 出於興趣就爬取一下這部電影在豆瓣上的短評,並且用詞雲分析一下。  1.分析url 經過分析不難發現每一頁短評的url都是一致的除

python scrapy皇冠體育源碼下載網站數據二scrapy使用詳細介紹

時間 源碼 保存文件 i+1 zh-cn china flat url def 1、scrapy工程創建皇冠體育源碼下載論壇:haozbbs.com Q1446595067 在命令行輸入如下命令,創建一個使用scrapy框架的工程 scrapy startproject s

Python Scrapy電影網站並存儲入mysql

爬取目標:javlib,使用框架Scrapy 首先使用在命令列裡scrapy startproject projectname和scrapy genspider spidername指令建立爬蟲。 首先定義items.pyimport scrapy class Av

python+scrapy鬥魚圖片

建立scrapy的專案請參考:https://blog.csdn.net/qq_35723619/article/details/83614670 items的實現: DouyumeinvSpider建立: 這次我們爬去的是json資料包:我們可以通過network監控:

python scrapy知乎問題和收藏夾下所有答案的內容和圖片

上文介紹了爬取知乎問題資訊的整個過程,這裡介紹下爬取問題下所有答案的內容和圖片,大致過程相同,部分核心程式碼不同. 爬取一個問題的所有內容流程大致如下: 一個問題url 請求url,獲取問題下的答案個數(我不需要,因為之前獲取問題資訊的時候儲存了問題的回答個數) 通過答案的介面去獲取答案(如果一次獲取5

Python-小說文字內容使用beautiful soup實現

Python-爬取小說文字內容(beautiful soup) 本次爬取的網站為[http://www.136book.com/][6],你可以在頁面選擇你想要爬取的小說。 文中程式碼使用Anaconda的Jupyter書寫。 Beautiful Soup簡介 官

Scrapy前程無憂51job相關職位資訊

Scrapy爬取前程無憂(51job)python職位資訊 開始是想做資料分析的,上網上找教程,看到相關部落格我就跟著做,但是沒資料就只能開始自己爬唄。順便給51job的工作人員提提建議,我爬的時候Scrapy訪問量開到128,relay僅有兩秒,還以為會封ip。沒想到只是改請求頭就

python手機號段電信199號段

# -*- coding: GBK -*- """ 爬取手機號段歸屬地 """ import time import requests from lxml import etree ti

Python scrapy 拉勾網招聘資訊

週末折騰了好久,終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下! 環境: windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案: E:\mypy> scrapy startproject lgjob 建立後目錄結構:

python爬蟲網頁桌布圖片彼岸桌面網唯美圖片

今天想給我的電腦裡面多加點桌布,但是嫌棄一個個儲存太慢,於是想著寫個爬蟲直接批量爬取,因為爬蟲只是很久之前學過一些,很多基礎語句都不記得了,於是直接在網上找了個有基礎操作語句的爬蟲程式碼,在這上面進行修改以適應我的要求和爬取的網頁需求 注意:這次爬取的

python scrapy動態頁面

preface:最近學習工作之外,有個朋友需要爬取動態網頁的要求,輸入關鍵詞爬取某個專利網站在該關鍵詞下的一些專利說明。以往直接python urllib2可破,但是那只是對於靜態網頁可破,但是對於用js等其他的生成的動態網頁的話,則貌似不行(沒試過)。然後在網上找了些資料

python+scrapy 成都鏈家二手房和成交資訊

爬蟲設計方案 爬取目標 成都鏈家的二手房和成交資料。 由於web版看不到最新的成交金額資料,因此需要用手機版的資料。 成交資料應該去重,可以做成每天增量爬取。 需要做成每天爬取一次,定時執行 參考文章 技術方案 使用Scrapy框架,

python+requests+ 官網雙色球開獎資料

python+requests+mysql 爬取官網雙色球開獎資料 分析網頁資料獲取方式 第一種查詢方式 第二種查詢方式 注意:連結直接點過去的話是看不到任何東西的,服務端應該設定了某種 Referrer Policy 這個坑困擾了我有一陣 剛入坑pyt

Python Scrapy反爬蟲常見解決方案包含5種方法

ins 都是 可能 自定義 輸入 src stx 用戶 play 爬蟲的本質就是“抓取”第二方網站中有價值的數據,因此,每個網站都會或多或少地采用一些反爬蟲技術來防範爬蟲。比如前面介紹的通過 User-Agent 請求頭驗證是否為瀏覽器、使用 Jav

python爬蟲,Scrapy豆瓣電影《芳華》電影短評,分詞生成詞雲圖。

專案github地址:https://github.com/kocor01/scrapy_cloud Python版本為3.6 自己寫的簡單架構《python爬蟲,爬取豆瓣電影《芳華》電影短評,分詞生成詞雲圖。》 這個是用Scrapy框架重新實現的 爬蟲

7Python爬蟲——豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊,包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容,然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下: #!/us

爬蟲實戰——利用scrapy豆瓣華語電影

爬蟲第一個專案是爬取豆瓣華語電影,後面將對這部分資料進行分析。 本文也是發表於『運籌OR帷幄』微信公眾號的《用資料帶你瞭解電影行業—華語篇》的爬蟲介紹篇。 1. 爬取思路 在觀察了豆瓣每個影片的連結地址後,寫下了主要思路: (1)在豆瓣電影的選片頁面,篩選所有華

scrapy豆瓣電影top250

imp port 爬取 all lba item text request top 1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣電影top250 3 4 import scrapy 5 from douban.items i

Python爬蟲從入門到放棄十八Scrapy所有知乎用戶信息(上)

user 說過 -c convert 方式 bsp 配置文件 https 爬蟲 爬取的思路 首先我們應該找到一個賬號,這個賬號被關註的人和關註的人都相對比較多的,就是下圖中金字塔頂端的人,然後通過爬取這個賬號的信息後,再爬取他關註的人和被關註的人的賬號信息,然後爬取被關註人