Scrapy框架的學習(9.Scrapy中的CrawlSpider類的作用以及使用，實現優化的翻頁爬蟲)

阿新 • • 發佈：2019-01-13

1.CrawlSpider類通過一些規則（rules），使對於連結（網頁）的爬取更具有通用性，

換句話說，CrawlSpider爬蟲為通用性的爬蟲，

而Spider爬蟲更像是為一些特殊網站制定的爬蟲。它基於Spider並有一些獨特屬性

rules: 是Rule物件的集合，用於匹配目標網站並排除干擾

parse_start_url: 用於爬取起始響應，必須要返回Item

2. Scrapy中的爬蟲方法繼承四種類來建立我們的scrapy爬蟲，

他們是：Spider類，CrawlSpider類， CSVFeedSpider類和XMLFeedSpider類

3. 通過命令的方式生成一個CrawlSpider類的模板

scrapy genspider -t crawl 爬蟲域名

4. 通過爬取這個網站http://bxjg.circ.gov.cn/web/site0/tab5240/module14430/page1.htm 來使用CrawlSpider類進行爬蟲

(1)建立好專案後，建立爬蟲（加入了-t crawl

） scrapy genspider -t crawl punish bxjg.circ.gov.cn

(2) 可以使用rules規則，就可以不用再寫一個專門針對於下一頁的請求函數了
rules = (
        Rule(LinkExtractor(allow=r'/web/site0/tab5240/info\d+\.htm'), callback='parse_item'),
        Rule(LinkExtractor(allow=r'/web/site0/tab5240/module14430/page\d+\.htm'),follow=True),
    ) 
LinkExtractor 連線提取器，提取url

引數：

url allow : 可以寫入正則表示式

callback: 提取出來的url地址的response交給callback處理，需要時再用，一般對應的網站詳情頁面要使用

follow: 表示當前的url地址的響應是否重新經過rules來提取url地址,需要時再用

(3) 然後編寫爬蟲的程式碼
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
import re
'''繼承spider的crawlspider類'''
class PunishSpider(CrawlSpider):
    name = 'punish'
    allowed_domains = ['bxjg.circ.gov.cn']
    start_urls = ['http://bxjg.circ.gov.cn/web/site0/tab5240/module14430/page1.htm']
    '''
        可以定義提取url地址的規則
        LinkExtractor 連線提取器，提取url
        allow : 可以寫入正則表示式
        callback: 提取出來的url地址的response交給callback處理
        follow: 表示當前的url地址的響應是否重新經過rules來提取url地址
    '''
    rules = (
        Rule(LinkExtractor(allow=r'/web/site0/tab5240/info\d+\.htm'), callback='parse_item'),
        Rule(LinkExtractor(allow=r'/web/site0/tab5240/module14430/page\d+\.htm'),follow=True),
    )
    '''與Spider類不同，CrawlSpider類中的parse函式有特殊功能，不能定義'''
    def parse_item(self, response):
        item = {}
        item['title'] = re.findall("(.*?)",response.body.decode())[0]
        item['publish_date'] = re.findall("釋出時間：(20\d{2}-\d{2}-\d{2})",response.body.decode())[0]
        print(item)
(4) 在setting.py裡面設定 LOG_LEVEL = "WARNING" 以及開啟並設定 USER_AGENT，然後在終端執行程式

scrapy crawl punish

(5) LinKExtractor更多常見的引數：

5. 再請求詳情頁的時候，我們也可以使用在Spider類中一樣，

通過 yield scrapy.Request() 方法也可以實現，但是程式碼會寫的比使用Crawlspider類中的多

在UITableView中識別左右滑動，實現上下翻頁的功能

阿里雲 > 教程中心 > ios教程 > 在UITableView中識別左右滑動，實現上下翻頁的功能

Scrapy框架的學習(9.Scrapy中的CrawlSpider類的作用以及使用，實現優化的翻頁爬蟲)

1.CrawlSpider類通過一些規則（rules），使對於連結（網頁）的爬取更具有通用性，換句話說，CrawlSpider爬蟲為通用性的爬蟲，而Spider爬蟲更像是為一些特

爬蟲系列---Scrapy框架學習

產生 follow everyone 頁面 pos per iso select -s 項目的需求需要爬蟲某網的商品信息，自己通過Requests,BeautifulSoup等編寫了一個spider，把抓取的數據存到數據庫裏面。跑起來的感覺速度有點慢，尤其是進入詳情頁

Scrapy框架學習（一）Scrapy框架介紹

Scrapy框架的架構圖如上。 Scrapy中的資料流由引擎控制，資料流的過程如下： 1.Engine開啟一個網站，找到處理該網站的Sprider，並向該Sprider請求第一個要爬取得URL。 2.Engine從Sprider中獲取到第一個要爬的URL，並通過Scheduler以Requ

Scrapy框架學習（二）Scrapy入門

接下來以爬取quote.toscrape.com為例完成一遍Scrapy的抓取流程。首先建立一個Scrapy專案。開啟命令列，輸入以下命令： scrapy startproject projectname 即可在當前位置建立一個Scrapy專案。我們建立一個名為tutorial的專案： scrapy

scrapy框架學習，理解不深得到的問題，我遇到的 from avimageitems.items import AvimageItem ModuleNotFoundError: No module named 'scrapy name'

心情複雜呀，這個問題之前找不到解決的思路，原因是沒有人會像我這麼粗心的，沒有認真去看書就寫，不過我是真的沒注意到這個框架名的是什麼，現在才發現setting中的BOT_NAME的作用，不過我是在之前的課程裡瞭解到的

Python3 Scrapy框架學習一：爬取貓眼Top100榜

以下操作基於Windows平臺。開啟CMD命令提示框：輸入如下命令：開啟專案裡的items.py檔案，定義如下變數，用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

開啟專案裡的items.py檔案，定義如下變數， import scrapy from scrapy import Item,Field class DoubanItem(scrapy.Item): # define the fields for your it

Python3 Scrapy框架學習三：爬取煎蛋網加密妹子圖片(全爬)

以下操作基於Windows平臺。開啟CMD命令提示框：新建一個專案如下：開啟專案裡的setting檔案，新增如下程式碼 IMAGES_STORE = './XXOO' #在當前目錄下新建一個XXOO資料夾 MAX_PAGE = 40 #定義爬取的總得頁數

Python3 Scrapy框架學習四：爬取的資料存入MongoDB

1. 新建一個scrapy專案： 2.使用PyCharm開啟該專案 3.在settings.py檔案中新增如下程式碼： #模擬瀏覽器，應對反爬 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

Scrapy框架的學習(5.scarpy實現翻頁爬蟲，以及scrapy.Request的相關引數介紹)

1. 建立爬蟲專案： scrapy startporject tencent 然後進入到專案中： cd tencent 建立爬蟲：scrapy genspider tencent_spider

Python 爬蟲 (六) -- Scrapy 框架學習

本文希望達到以下目標: 簡要介紹Scarpy 閱讀官網入門文件並實現文件中的範例使用Scarpy優豆瓣爬蟲的抓取制定下一步學習目標初學Scrapy, 如有翻譯不當, 或者程式碼錯誤, 請指出, 非常感謝 1. Scrapy簡介 Scrapy是一個為了爬取網站資料，提

Scrapy框架學習

概述主要是為了練習使用CrawlSpider類的rules變數中定義多個Rule的用法，體會Scrapy框架的強大、靈活性。因此，對抓取到的內容只是儲存到JSON檔案中，沒有進行進一步的處理。原

爬蟲框架學習【Scrapy】

順序 path ons 測試文件 obj 自動化測試處理服務 setting 認識Scrapy Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架用於抓取web站點並從頁面中提取結構化的數據 Scrapy用途廣泛，可以用於數據挖掘、監測和自動化

java面向對象學習之——java中的類修飾符、成員變量修飾符、方法修飾符

16px 實例化同時 pan 相同 nbsp 激活 fin ati 類修飾符： public（訪問控制符）——>將一個類聲明為公共類，他可以被任何對象訪問，一個程序的主類必須是公共類。abstract——>將一個類聲明為抽象類，沒有實現的方法，需要子類提供方法

spring boot框架學習9-spring boot的web開發(5)-錯誤解決及跳轉頁面

凱哥spring boot spring boot框架本章節主要內容：通過前面的學習，我們了解並快速完成了spring boot第一個應用。spring boot企業級框架，那麽spring boot怎麽讀取靜態資源？如js文件夾，css文件以及png/jpg圖片呢？怎麽自定義消息轉換器呢？怎麽自定

scrapy框架系列 (4) Scrapy Shell

@class 元素 tid 之前 AR htm nbsp 招聘 cas Scrapy Shell Scrapy終端是一個交互終端，我們可以在未啟動spider的情況下嘗試及調試代碼，也可以用來測試XPath或CSS表達式，查看他們的工作方式，方便我們爬取的網頁中提取的數據。

向scrapy中的spider傳參，實現增量

爬蟲 scrapy有時候需要根據項目的實際需求向spider傳遞參數來控制spider的運行方式。比如說，1.根據用戶提交的url來控制spider爬取的網站。2.根據需求增量爬取數據。今天就寫一個增量（augmenter）的方式：1.首先在spider裏添加註：在網上也看了不少的博客，最後發現*args,

Python框架學習之Flask中的Jinja2模板

代碼復用表單 filter 中繼 IT AD 存在開啟技術分享　　前面也提到過在Flask中最核心的兩個組件是Werkzeug和Jinja2模板。其中Werkzeug在前一節已經詳細說明了。現在這一節主要是來談談Jinja2模板。一、為什麽需要引入模板：　　在進

Scrapy框架的學習(9.Scrapy中的CrawlSpider類的作用以及使用，實現優化的翻頁爬蟲)

相關推薦