python scrapy爬取全部豆瓣電影(可能是54萬資料)
(一)爬取環境
- win10
- python3
- scrapy
(二)豆瓣電影參考標準
主要參考來自神箭手的雲市場
(三)爬取步驟
主要爬取的欄位有:標題,得分,封面url,簡介,全部評論
採用scrapy、ip代理池、ua次進行內容爬取
# -*- coding: utf-8 -*-
# @Time : 2018/7/22 14:45
# @Author : 蛇崽
# @Email : [email protected]
# @File : doubanmoviespider.py(豆瓣電影)
import json
import scrapy
from bs4 import BeautifulSoup
class DouBanSpider(scrapy.Spider):
name = 'adouban_spider'
start_urls = ['https://movie.douban.com/tag/#/']
allowed_domains = ['movie.douban.com']
def parse(self,response):
for count in range(0,27002,20):
fir_url = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start={}' .format(count)
yield scrapy.Request(
fir_url,
callback=self.parse_main
)
def parse_main(self,response):
infos = json.loads(response.body.decode('utf-8'))
'名稱 封面圖片 簡介 評分 短評top100'
print(infos)
datas = infos['data' ]
for data in datas:
title = data['title'] # 名稱
cover = data['cover'] # 封面圖片
rate = data['rate'] # 評分
url = data['url'] # 詳情url
id = str(data['id'])
if url:
print(title,cover,rate,url)
yield scrapy.Request(url,callback=self.parse_detail,meta={'id':id})
def parse_detail(self,response):
strid = response.meta['id']
base_url = 'https://movie.douban.com/subject/{}/comments?'.format(strid)
# 全部評論的連結
b_url = 'https://movie.douban.com/subject/{}/comments?status=P'.format(strid)
# 前一百條評論
n_url = 'https://movie.douban.com/subject/4920528/comments?start=0&limit=20&sort=new_score&status=P'
for page in range(0,100,20):
n_url = base_url+'start={}&limit=20&sort=new_score&status=P'.format(page)
print('n_url################# ',n_url)
if n_url:
yield scrapy.Request(b_url,callback=self.parse_comment)
soup = BeautifulSoup(response.body, 'lxml')
# 簡介(先隱藏後不隱藏的)
try:
abstract = soup.find('span', class_='all hidden').get_text()
except:
abstract = soup.find('span',attrs={'property':'v:summary'}).get_text()
pass
# print('abstract -------- ',abstract)
def parse_comment(self,response):
soup = BeautifulSoup(response.body,'lxml')
shorts = soup.find_all('span',class_='short')
for short in shorts:
print('short ============= ',short.get_text())
個人微信:hll643435675(備註:部落格)
陸續優化中,後續會開發更多更好玩的有趣的小工具
相關推薦
python scrapy爬取全部豆瓣電影(可能是54萬資料)
(一)爬取環境 win10 python3 scrapy (二)豆瓣電影參考標準 主要參考來自神箭手的雲市場 (三)爬取步驟 主要爬取的欄位有:標題,得分,
python爬蟲-爬取愛情公寓電影(2018)豆瓣短評並資料分析
說起這部電影,我本人並沒有看,其實原先是想為了情懷看一下,但是好友用親身經歷告訴我看來會後悔的,又去看了看豆瓣評分,史無前例的,,,低。 出於興趣就爬取一下這部電影在豆瓣上的短評,並且用詞雲分析一下。 1.分析url 經過分析不難發現每一頁短評的url都是一致的除
python scrapy爬取皇冠體育源碼下載網站數據二(scrapy使用詳細介紹)
時間 源碼 保存文件 i+1 zh-cn china flat url def 1、scrapy工程創建皇冠體育源碼下載論壇:haozbbs.com Q1446595067 在命令行輸入如下命令,創建一個使用scrapy框架的工程 scrapy startproject s
用Python Scrapy爬取某電影網站並存儲入mysql
爬取目標:javlib,使用框架Scrapy 首先使用在命令列裡scrapy startproject projectname和scrapy genspider spidername指令建立爬蟲。 首先定義items.pyimport scrapy class Av
python+scrapy爬取鬥魚圖片
建立scrapy的專案請參考:https://blog.csdn.net/qq_35723619/article/details/83614670 items的實現: DouyumeinvSpider建立: 這次我們爬去的是json資料包:我們可以通過network監控:
python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片
上文介紹了爬取知乎問題資訊的整個過程,這裡介紹下爬取問題下所有答案的內容和圖片,大致過程相同,部分核心程式碼不同. 爬取一個問題的所有內容流程大致如下: 一個問題url 請求url,獲取問題下的答案個數(我不需要,因為之前獲取問題資訊的時候儲存了問題的回答個數) 通過答案的介面去獲取答案(如果一次獲取5
Python-爬取小說文字內容(使用beautiful soup實現)
Python-爬取小說文字內容(beautiful soup) 本次爬取的網站為[http://www.136book.com/][6],你可以在頁面選擇你想要爬取的小說。 文中程式碼使用Anaconda的Jupyter書寫。 Beautiful Soup簡介 官
Scrapy爬取前程無憂(51job)相關職位資訊
Scrapy爬取前程無憂(51job)python職位資訊 開始是想做資料分析的,上網上找教程,看到相關部落格我就跟著做,但是沒資料就只能開始自己爬唄。順便給51job的工作人員提提建議,我爬的時候Scrapy訪問量開到128,relay僅有兩秒,還以為會封ip。沒想到只是改請求頭就
python爬取手機號段(電信199號段)
# -*- coding: GBK -*- """ 爬取手機號段歸屬地 """ import time import requests from lxml import etree ti
Python scrapy 爬取拉勾網招聘資訊
週末折騰了好久,終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下! 環境: windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案: E:\mypy> scrapy startproject lgjob 建立後目錄結構:
用python爬蟲爬取網頁桌布圖片(彼岸桌面網唯美圖片)
今天想給我的電腦裡面多加點桌布,但是嫌棄一個個儲存太慢,於是想著寫個爬蟲直接批量爬取,因為爬蟲只是很久之前學過一些,很多基礎語句都不記得了,於是直接在網上找了個有基礎操作語句的爬蟲程式碼,在這上面進行修改以適應我的要求和爬取的網頁需求 注意:這次爬取的
python scrapy爬取動態頁面
preface:最近學習工作之外,有個朋友需要爬取動態網頁的要求,輸入關鍵詞爬取某個專利網站在該關鍵詞下的一些專利說明。以往直接python urllib2可破,但是那只是對於靜態網頁可破,但是對於用js等其他的生成的動態網頁的話,則貌似不行(沒試過)。然後在網上找了些資料
python+scrapy 爬取成都鏈家二手房和成交資訊
爬蟲設計方案 爬取目標 成都鏈家的二手房和成交資料。 由於web版看不到最新的成交金額資料,因此需要用手機版的資料。 成交資料應該去重,可以做成每天增量爬取。 需要做成每天爬取一次,定時執行 參考文章 技術方案 使用Scrapy框架,
python+requests+ 爬取官網雙色球開獎資料
python+requests+mysql 爬取官網雙色球開獎資料 分析網頁資料獲取方式 第一種查詢方式 第二種查詢方式 注意:連結直接點過去的話是看不到任何東西的,服務端應該設定了某種 Referrer Policy 這個坑困擾了我有一陣 剛入坑pyt
Python Scrapy反爬蟲常見解決方案(包含5種方法)
ins 都是 可能 自定義 輸入 src stx 用戶 play 爬蟲的本質就是“抓取”第二方網站中有價值的數據,因此,每個網站都會或多或少地采用一些反爬蟲技術來防範爬蟲。比如前面介紹的通過 User-Agent 請求頭驗證是否為瀏覽器、使用 Jav
python爬蟲,Scrapy爬取豆瓣電影《芳華》電影短評,分詞生成詞雲圖。
專案github地址:https://github.com/kocor01/scrapy_cloud Python版本為3.6 自己寫的簡單架構《python爬蟲,爬取豆瓣電影《芳華》電影短評,分詞生成詞雲圖。》 這個是用Scrapy框架重新實現的 爬蟲
(7)Python爬蟲——爬取豆瓣電影Top250
利用python爬取豆瓣電影Top250的相關資訊,包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容,然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下: #!/us
爬蟲實戰(一)——利用scrapy爬取豆瓣華語電影
爬蟲第一個專案是爬取豆瓣華語電影,後面將對這部分資料進行分析。 本文也是發表於『運籌OR帷幄』微信公眾號的《用資料帶你瞭解電影行業—華語篇》的爬蟲介紹篇。 1. 爬取思路 在觀察了豆瓣每個影片的連結地址後,寫下了主要思路: (1)在豆瓣電影的選片頁面,篩選所有華
scrapy爬取豆瓣電影top250
imp port 爬取 all lba item text request top 1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣電影top250 3 4 import scrapy 5 from douban.items i
Python爬蟲從入門到放棄(十八)之 Scrapy爬取所有知乎用戶信息(上)
user 說過 -c convert 方式 bsp 配置文件 https 爬蟲 爬取的思路 首先我們應該找到一個賬號,這個賬號被關註的人和關註的人都相對比較多的,就是下圖中金字塔頂端的人,然後通過爬取這個賬號的信息後,再爬取他關註的人和被關註的人的賬號信息,然後爬取被關註人