scrapy框架中crawlspider的使用

阿新 • • 發佈：2019-01-31

一、初識`crawlspider`

1、建立專案
```
scrapy startproject 專案名稱
```
2、檢視爬蟲模板
```
scrapy genspider -l
```

3、建立crawl模板

scrapy genspider -t crawl 爬蟲名稱 地址

4、自動生成模板如下

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class WeisuenSpider(CrawlSpider):
    name = 'weisuen' 

    allowed_domains = ['sohu.com']
    start_urls = ['http://sohu.com/']

    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        i = {}
        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract() 

        #i['name'] = response.xpath('//div[@id="name"]').extract()
        #i['description'] = response.xpath('//div[@id="description"]').extract()
        return i

二、關於引數的介紹

1、crawl爬蟲是繼承了CrawlSpider不是預設模板中繼承的scrapy

2、新增了一個規則

# 表示我們想提取連結中有`.shtml`字串的連結
rules = (
        Rule(LinkExtractor(allow= 
'.shtml'), callback='parse_item', follow=True),
    )

3、關於LinkExtractor引數的介紹

引數名	引數含義
allow	提取符合對應正則表示式的連結
deny	不提取符合對應正則表示式的連結
restrict_xpaths	使用xpath表示式與allow共用作用提取出同時符合對應xpath表示式和對應正則表示式的連結
allow_domains	允許提取的域名，比如我只想提取某個域名下的連結時候會使用
deny_domains	禁止提取的域名,比如我需要限制一定不提取某個域名下的連結時會使用

4、舉例使用

# 表示抓取網頁上以`shtml`結尾的url地址
rules = (
        Rule(LinkExtractor(allow='.*?/n.*?shtml', allow_domains=('sohu.com',)), callback='parse_item', follow=True),
    )

scrapy框架中Crawlspider模組原始碼剖析

一、前言 1、scrapy從Terminal中通過genspider命令建立一個蜘蛛，其中包含四個模組，分別為spider，crawlspider，csvfeedspider和xmlfeedspider，其中spider(basic模組)和crawlspider最為常用。 2、做過web

scrapy框架中crawlspider的使用

一、初識crawlspider 1、建立專案 scrapy startproject 專案名稱 2、檢視爬蟲模板 scrapy genspider -l 3、建立crawl模板 scra

18、python網路爬蟲之Scrapy框架中的CrawlSpider詳解

正則 art _id 糗事百科 put pytho 切換 ron 提交 CrawlSpider的引入：　　　　提問：如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？　　方法一：基於Scrapy框架中的Spider的遞歸爬取進行實現（Reque

將selenium集成到scrapy框架中

有一個 turn object get signals con span ren super() 一首先想到的是將selenium 寫在下載中間件的process_request中。如以下代碼。　　middleware.py from selenium impo

Scrapy框架中的Pipeline組件

object OS @class ror inter setting ima utf8 encoding 簡介在下圖中可以看到items.py與pipeline.py，其中items是用來定義抓取內容的實體；pipeline則是用來處理抓取的item的管道 Item管道

Python爬蟲從入門到放棄之 Scrapy框架中Download Middleware用法

sta 頻繁 space raw 處理們的 img ear 法則這篇文章中寫了常用的下載中間件的用法和例子。Downloader Middleware處理的過程主要在調度器發送requests請求的時候以及網頁將response結果返回給spiders的時候，所以從

Python爬蟲從入門到成妖之7-----Scrapy框架中Download Middleware用法

例子 start col res urn 鉤子 exception 安裝打印這篇文章中寫了常用的下載中間件的用法和例子。Downloader Middleware處理的過程主要在調度器發送 requests請求的時候以及網頁將 response結果返回給 spiders

scrapy框架之CrawlSpider

提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞迴爬取進行實現（Request模組遞歸回調parse方法）。方法二：基於CrawlSpider的自動爬取進行實現（更加簡潔和高效）。一，介紹

scrapy框架中在middleware中進行配置user-agent，將user-agent進行隨機

在scrapy中進行user-agent配置，將其進行隨機更換。下面所寫為學習筆記使用scrapy進行爬蟲的時候，一些針對爬蟲設定了一些反爬措施，最明顯的是user-agent。一、在setting檔案中ctrl+f找到 DOWNLOADER_MIDDLEWARES，將其註釋的部分

scrapy框架中Spider原始碼解析

scrapy框架中Spider原始碼解析一、scrapy架構在講解spider類之前，我們先來了解下scrapy這個框架的整體架構請看下面scrapy工作流程圖 1.scrapy引擎(Scrapy Engine) 引擎負責控制資料流在系統中所有元件中流動，並在相應動作

Scrapy框架中setting 中的欄位含義

一、setting 自動生成的內容含義 # -*- coding: utf-8 -*- # Scrapy settings for taoCarTest project # # For simplicity, this file contains only settings consi

scrapy框架中cookie的設定路徑

總的來說，scrapy框架中設定cookie有三種方式。第一種：setting中設定cookie 當COOKIES_ENABLED是註釋的時候scrapy預設沒有開啟cookie 當COOKIES_ENABLED沒有註釋設定為False的時候scrapy預設使用了se

Scrapy框架中的 UA偽裝

例如：百度輸入ip檢視是自己本機的ip，通過UA偽裝成其他機器的ip, 爬蟲程式碼： 1 import scrapy 2 3 4 class UatestSpider(scrapy.Spider): 5 name = 'UATest' 6 # allo

細談Scrapy框架中運用selenium的經驗

首先我是個技術小白，工作的經驗也不到一年的時間，但是卻在這一年的時間裡讓我深深體會到了面對問題時對解決的問題的感悟。話不多說，總結一句話就是：這是我的第一篇技術部落格，希望大家在閱讀的同時能給予一些建議，共同學習進步。我們平時寫爬蟲的程式碼就是想著構造

Scrapy框架中解決OSError=[Errno 2] No such file or directory: 'Xvfb': 'Xvfb'

當在scrapy框架的Middlewares.py中匯入以下語句後報錯 from pyvirtualdisplay import Display display = Display(visible=0, size=(800, 600)) display.start() 報錯如下：

scrapy框架中多個spider同時執行：scrapyd的部署及使用

scrapy是一個爬蟲框架，而scrapyd是一個網頁版管理scrapy的工具，scrapy爬蟲寫好後，可以使用命令執行，但是如果能夠在網頁上操作就比較方便。scrapyd就是為了解決這個問題，能夠在網頁端檢視正在執行的任務，也能新建和終止爬蟲任務，功能比較強大。 Scrapyd使用詳解

scrapy框架中選擇器的使用

Selector選擇器Scrapy框架提供了自己的資料解析方法，即Selector（選擇器）。1、Selector（選擇器）是基於lxml來構建的，支援XPath、CSS選擇器以及正則表示式，功能全面，解析速度和準確度非常高。2、Selector（選擇器）是一個可以獨立使用模

scrapy框架中實現登入人人網（二）（最新登入方式）

上篇部落格說到登入人人網的時候，如果同一個賬號出錯超過三次，那麼將會出現四個漢字的驗證碼，這裡我們利用打碼平臺來破解驗證碼並傳入（實際上，如果簡單點可以通過肉眼觀察出現的驗證碼，然後input輸入結果。）如下圖所示，通過上節的分析我們知道密碼是通過加密傳

scrapy框架中實現登入人人網（一）（最新登入方式）

最近在弄scrapy框架的問題，感覺裡面好玩的東西有很多，無意中在bilibili中看到關於在scrapy實現登入人人網的視訊，人人網可能使用者少，所以在現在的一些部落格和教程裡面看到最新的登入方法幾乎沒有，於是自己寫了這篇部落格。 &

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

引入提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞迴爬取進行實現（Request模組遞歸回調parse方法）。方法二：基於CrawlSpider的自動爬取進行實現（更加簡潔和高效）。今日概

scrapy框架中crawlspider的使用

一、初識crawlspider

二、關於引數的介紹

相關推薦

一、初識`crawlspider`