Scrapy入門例項(使用Scrapy抓取豆瓣電影top250榜單）

阿新 • • 發佈：2018-11-11

專案地址：https://github.com/yuanfuzhi/ScrapyDemo.git

一 Scrapy介紹與安裝

1， Scrapy介紹

Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。其最初是為了

頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的資料(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。

2， Scrapy安裝

①使用pip安裝

pip install scrapy

網上有很多安裝Scrapy的教程，這裡不多解釋，但不推薦這種安裝方式，因為Scrapy依賴一些包，如果你的電腦上沒有的話，使用pip安裝會出現問題，比較麻煩。推薦使用下面的安裝方式

②使用Anaconda安裝scrapy

Anaconda是一個開源的包、環境管理神器，不多解釋，先從官網下載安裝Anaconda，然後傻瓜式點next安裝，裝好之後開啟命令列，輸入conda install scrapy，然後根據提示按Y，就會將Scrapy及其依賴的包全部下載下來，十分好用。

測試scrapy是否安裝成功：在dos視窗輸入scrapy回車

另外附上Anaconda常用指令：https://www.cnblogs.com/yfz1552800131/p/9796503.html

3， Scrapy專案結構

scrapy.cfg: 專案配置檔案。

settings.py: 該檔案定義了一些設定，如使用者代理，爬取延時等(詳見: https://doc.scrapy.org/en/latest/topics/settings.html)。

items.py: 該檔案定義了待抓取域的模型(詳見: http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html#item)。

pipelines.py: 該檔案定義了資料的儲存方式(處理要抓取的域)，可以是檔案，資料庫或者其他(詳見: http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/item-pipeline.html

)。

middlewares.py: 爬蟲中介軟體，該檔案可定義隨機切換ip或者使用者代理的函式(詳見: http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spider-middleware.html)。

spiders: 該目錄下儲存實際的爬蟲程式碼(詳見: http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html)。

二，Scrapy專案實戰

①新建專案:使用pycharm工具在終端中輸入：scrapy startproject douban 新建一個爬蟲專案，然後cd douban 進入專案根目錄

然後在終端輸入命令：scrapy genspider douban_spider movie.douban.com生成douban_spider.py爬蟲檔案

②明確目標

入口URL：https://movie.douban.com/top250

抓取top250電影的序列號，電影名，介紹，星級，評價數，電影描述選項，在items.py檔案中定義抓取的資料項：

③製作爬蟲

在douban_spider.py爬蟲檔案編寫具體的邏輯程式碼：

# -*- coding: utf-8 -*-
import scrapy

from ..items import DoubanItem
class DoubanSpiderSpider(scrapy.Spider):
    name = 'douban_spider'
    # 允許的域名
    allowed_domains = ['movie.douban.com']
    # 入口URL
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        movie_list = response.xpath("//div[@class='article']//ol[@class='grid_view']/li")
        #迴圈電影的條目
        for i_item in movie_list:
            #匯入item，進行資料解析
            douban_item = DoubanItem()
            douban_item['serial_number'] = i_item.xpath(".//div[@class='item']//em/text()").extract_first()
            douban_item['movie_name'] =  i_item.xpath(".//div[@class='info']//div[@class='hd']/a/span[1]/text()").extract_first()
            #如果檔案有多行進行解析
            content = i_item.xpath(".//div[@class='info']//div[@class='bd']/p[1]/text()").extract()
            for i_content in content:
                content_s ="".join( i_content.split())
                douban_item['introduce'] = content_s
            douban_item['star'] = i_item.xpath(".//span[@class='rating_num']/text()").extract_first()
            douban_item['evaluate'] = i_item.xpath(".//div[@class='star']//span[4]/text()").extract_first()
            douban_item['describe'] = i_item.xpath(".//p[@class='quote']/span/text()").extract_first()
            print(douban_item)
            yield  douban_item
        #解析下一頁，取後一頁的XPATH
        next_link = response.xpath("//span[@class='next']/link/@href").extract()
        if next_link:
            next_link = next_link[0]
            yield  scrapy.Request("https://movie.douban.com/top250"+next_link,callback=self.parse)

View Code

④儲存內容

1，儲存成json或csv格式的檔案

在命令列輸入：scrapy crawl douban_spider -o test.json 或者

scrapy crawl douban_spider -o test.csv，將爬取到的資料存到json檔案或者csv檔案裡

2，儲存到Mysql資料庫

首先下載pymysql庫：conda install pymysql

然後建好對應的資料庫，資料表：

在專案settings檔案中新增與資料庫連線相關的變數

連線資料庫，獲取cursor以便之後對資料就行增刪查改

資料插入邏輯：

執行專案: scrapy crawl douban_spider

Scrapy入門例項(使用Scrapy抓取豆瓣電影top250榜單）

專案地址：https://github.com/yuanfuzhi/ScrapyDemo.git 一 Scrapy介紹與安裝 1， Scrapy介紹 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

python抓取豆瓣電影top250資訊

1、本博文中程式碼是轉載內容，原文章地址如下： https://blog.csdn.net/submit66/article/details/78631342?utm_source=blogxgwz1 2、只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼 3、本

python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式，並將爬取到的資料（排名、電影名和電影海報網址）存入MySQL資料庫中。下面是完整程式碼：Ps：在執行程式前，先在MySQL中建立一個數據庫"pachong"。import pymysql import requests imp

Python3 抓取豆瓣電影Top250

記憶碎片小蘿莉 range __name__ 黃金 pytho 摔跤吧奇跡 safari 利用 requests 抓取豆瓣電影 Top 250： import re import requests def main(url): global nu

Python：python抓取豆瓣電影top250

color nat gin else get 分頁技術分享 win .cn 一直對爬蟲感興趣，學了python後正好看到某篇關於爬取的文章，就心血來潮實戰一把吧。實現目標：抓取豆瓣電影top250，並輸出到文件中 1.找到對應的url：https://movie.d

爬蟲]利用xpath爬取豆瓣電影top250（轉）

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import re import requests import lxml.html url

scrapy入門實戰練習（一）----爬取豆瓣電影top250

轉自知乎網工具和環境語言：python 2.7IDE： Pycharm瀏覽器：Chrome爬蟲框架：Scrapy 1.2.1教程正文觀察頁面結構通過觀察頁面決定讓我們的爬蟲獲取每一部電影的排名、電影名稱、評分和評分的人數。宣告ItemItems爬取的主要目標就是從非結構性的資

scrapy爬取豆瓣電影top250

imp port 爬取 all lba item text request top 1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣電影top250 3 4 import scrapy 5 from douban.items i

Scrapy爬取豆瓣電影top250的電影數據、海報，MySQL存儲

p地址 rom gin ani char 代碼 pipeline print 關閉數據庫從GitHub得到完整項目（https://github.com/daleyzou/douban.git）1、成果展示數據庫本地海報圖片2、環境（1）已安裝Scrapy的Pycharm

使用scrapy爬取豆瓣電影Top250

根據官方文件做的簡單練習，唯一遇到的問題就是爬取返回403.解決方法是在settings.py檔案中增加以下引數： USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

scrapy ------ 爬取豆瓣電影TOP250

轉載自 —> 原文 #items.py # -*- coding: utf-8 -*- import scrapy class DoubanMovieItem(scrapy.Item): ranking = scrapy.Field() #排名 mo

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

開啟專案裡的items.py檔案，定義如下變數， import scrapy from scrapy import Item,Field class DoubanItem(scrapy.Item): # define the fields for your it

03_使用scrapy框架爬取豆瓣電影TOP250

前言：　　本次專案是使用scrapy框架，爬取豆瓣電影TOP250的相關資訊。其中涉及到代理IP，隨機UA代理，最後將得到的資料儲存到mongoDB中。本次爬取的內容實則不難。主要是熟悉scrapy相關命令以及理解框架各部分的作用。 1、本次目標　　爬取豆瓣電影TOP250的資訊，將得到的資料儲

scrapy ------ 爬取豆瓣電影TOP250

轉載自 —> 原文 #items.py # -*- coding: utf-8 -*- import scrapy class DoubanMovieItem(scrapy.Item): ranking = scrapy.Field()

Scrapy爬蟲（4）爬取豆瓣電影Top250圖片

在用Python的urllib和BeautifulSoup寫過了很多爬蟲之後，本人決定嘗試著名的Python爬蟲框架——Scrapy. 本次分享將詳細講述如何利用Scrapy來下載豆瓣電影Top250, 主要解決的問題有：如何利用ImagesPi

入門級爬蟲抓取豆瓣top250 的電影資訊

import requests import lxml.html from bs4 import BeautifulSoup import re import bs4 from pymongo impo

用Scrapy抓取豆瓣小組資料（一）

最近在coursera.org（線上學習平臺）上學SNA（Social Network Analysis，社交網路分析）。有興趣的同學可以去看一眼：https://class.coursera.org/sna-002/，課程講的很有意思，等回頭我上完全部課程打算再寫下

【Python3爬蟲】Scrapy爬取豆瓣電影TOP250

今天要實現的就是使用是scrapy爬取豆瓣電影TOP250榜單上的電影資訊。步驟如下：一、爬取單頁資訊首先是建立一個scrapy專案，在資料夾中按住shift然後點選滑鼠右鍵，選擇在此處開啟命令列視窗，輸入以下程式碼： scrapy startprojec

簡單Python爬蟲例項：抓取豆瓣熱映電影資訊

最近在學習Python爬蟲基礎，僅用部落格記錄下學習的過程。學習過程基於麥子學院的課程，感謝麥子學院，感謝Joey老師。那麼我們來看一下，怎麼抓取資料。Chrome瀏覽器有一個開發者工具，很適合檢視網頁原始碼，所以我們用Chrome。開啟之後是這樣：然後我們在網頁位址列輸入豆

Scrapy入門例項(使用Scrapy抓取豆瓣電影top250榜單）

相關推薦