scrapy框架之(CrawlSpider)

阿新 • • 發佈：2019-03-03

就是 Coding rip extra 獲得 rule back imp 轉義

一.CrawlSpider簡介

如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？

方法一：基於Scrapy框架中的Spider的遞歸爬取進行實現（Request模塊遞歸回調parse方法）。

方法二：基於CrawlSpider的自動爬取進行實現（更加簡潔和高效）。

一.簡介

　　CrawlSpider其實是Spider的一個子類，除了繼承到Spider的特性和功能外，還派生除了其自己獨有的更加強大的特性和功能。其中最顯著的功能就是”LinkExtractors鏈接提取器“。Spider是所有爬蟲的基類

，其設計原則只是為了爬取start_url列表中網頁，而從爬取到的網頁中提取出的url進行繼續的爬取工作使用CrawlSpider更合適。

二.使用

　　1.創建scrapy工程：scrapy startproject projectName

　　2.創建爬蟲文件：scrapy genspider -t crawl spiderName www.xxx.com

　　　　--此指令對比以前的指令多了 "-t crawl"，表示創建的爬蟲文件是基於CrawlSpider這個類的，而不再是Spider這個基類。

　　3.觀察生成的爬蟲文件

　　爬蟲文件.py

# 
 -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
#不再是引入spider,而是引入了crawlspider,還引入了LinkExtracor(連接提取器),Rule解析器

class ChoutiSpider(CrawlSpider):
    name = ‘chouti‘
    #allowed_domains = [‘www.xxx.com‘]
    start_urls  
= [‘https://dig.chouti.com/r/scoff/hot/1‘]

　　#allow後面跟著正則匹配,用正則去匹配符合的連接
　　#rule規則解析器則會去把提取器提取到的連接發起請求,並把獲得的響應對象用回調函數去解析
　　#follow表示是否把連接解析器繼續作用到提取到的url中(是否提取全站的url)
    rules = (
        Rule(LinkExtractor(allow=r‘Items/‘), callback=‘parse_item‘, follow=True),
    )

    def parse_item(self, response):
        item = {}
        #item[‘domain_id‘] = response.xpath(‘//input[@id="sid"]/@value‘).get()
        #item[‘name‘] = response.xpath(‘//div[@id="name"]‘).get()
        #item[‘description‘] = response.xpath(‘//div[@id="description"]‘).get()
        return item

　　案例一:(全站提取)

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class ChoutiSpider(CrawlSpider):
    name = ‘chouti‘
    # allowed_domains = [‘www.xxx.com‘]
    start_urls = [‘https://dig.chouti.com/r/scoff/hot/1‘]
    #把這個單獨寫比較好看
    link=LinkExtractor(allow=r‘/r/scoff/hot/\d+‘)
    rules = (
        Rule(link,callback=‘parse_item‘, follow=False),
    )

    def parse_item(self, response):
        print(response)

#這樣就可以叠代提取到我們想要的所有內容,因為其起始頁的url為:https://dig.chouti.com/r/scoff/hot/1

　　案例二:(第一頁沒有數字編號的)

class ChoutiSpider(CrawlSpider):
    name = ‘chouti‘
    # allowed_domains = [‘www.xxx.com‘]
    start_urls = [‘https://www.qiushibaike.com/text/‘]
    #把這個單獨寫比較好看

    link=LinkExtractor(allow=r‘/text/page/\d+/‘)
    link1=LinkExtractor(allow=r‘/text/‘)
    rules = (
        Rule(link,callback=‘parse_item‘, follow=True),
        Rule(link1, callback=‘parse_item‘, follow=True),
    )

    def parse_item(self, response):
        print(response)



#註意觀察器其實url:

https://www.qiushibaike.com/text/
#第一頁沒有數字表示

　　案例三:(正匹配會有很多相似的,限定開頭或者結尾)

class ChoutiSpider(CrawlSpider):
    name = ‘chouti‘
    # allowed_domains = [‘www.xxx.com‘]
    start_urls = [‘https://www.qiushibaike.com/pic/‘]
    # 把這個單獨寫比較好看

　　#這邊的?記得轉義\　　
    link = LinkExtractor(allow=r‘/pic/page/\d+\?s=‘)
    link1 = LinkExtractor(allow=r‘/pic/$‘)  #提取第一頁這個匹配會有很多其他的幹擾,這些並不是我們想要的,要限定結尾$
    rules = (
        Rule(link, callback=‘parse_item‘, follow=True),
        Rule(link1, callback=‘parse_item‘, follow=True),
    )

    def parse_item(self, response):
        print(response)

　　註:如果allow沒有為空,那就是匹配網頁中所有的url

scrapy框架之(CrawlSpider)

scrapy框架之CrawlSpider

提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞迴爬取進行實現（Request模組遞歸回調parse方法）。方法二：基於CrawlSpider的自動爬取進行實現（更加簡潔和高效）。一，介紹

scrapy框架之(CrawlSpider)

就是 Coding rip extra 獲得 rule back imp 轉義一.CrawlSpider簡介如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞歸爬

爬蟲開發11.scrapy框架之CrawlSpider操作

__init__ text rac iba dom 工作 pipe ron 表示提問：如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞歸爬取進行實現（Request模塊遞歸

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

引入提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞迴爬取進行實現（Request模組遞歸回調parse方法）。方法二：基於CrawlSpider的自動爬取進行實現（更加簡潔和高效）。今日概

Python網絡爬蟲之Scrapy框架（CrawlSpider）

setting ref 網頁 del tle python網絡 yield 介紹 import 目錄 Python網絡爬蟲之Scrapy框架（CrawlSpider） CrawlSpider使用

scrapy框架之cookie和代理操作

一，scrapy傳送post請求 scrapy框架中預設傳送的是get請求，原始碼： scrapy.Spider父類中的start_request方法： def start_requests(self): cls = self.__class__ if

scrapy框架之日誌等級和請求傳參

一.Scrapy的日誌等級　　- 在使用scrapy crawl spiderFileName執行程式時，在終端裡列印輸出的就是scrapy的日誌資訊。　　- 日誌資訊的種類：　　　　　　　　ERROR ：一般錯誤　　　　　　　　WARNING : 警告　　　　　　　　INFO : 一般

5----scrapy框架之日誌級和請求傳參

一、Scrapy的日誌等級在使用scrapy crawl spiderFileName執行程式時，在終端裡列印輸出的就是scrapy的日誌資訊。日誌資訊的種類：　　ERROR ：一般錯誤　　WARNING : 警告　　INFO : 一般的資訊　　DEBUG ：除錯資訊　　預設的

scrapy框架中Crawlspider模組原始碼剖析

一、前言 1、scrapy從Terminal中通過genspider命令建立一個蜘蛛，其中包含四個模組，分別為spider，crawlspider，csvfeedspider和xmlfeedspider，其中spider(basic模組)和crawlspider最為常用。 2、做過web

6 scrapy框架之分布式操作

raw start isp page 其他 set 分布式爬蟲 d+ sed 分布式爬蟲一.redis簡單回顧　　1.啟動redis：　　　　mac/linux: redis-server redis.conf　　　　windows: redis-server.exe

12.scrapy框架之遞迴解析和post請求

今日概要遞迴爬取解析多頁頁面資料 scrapy核心元件工作流程 scrapy的post請求傳送今日詳情 1.遞迴爬取解析多頁頁面資料 - 需求：將糗事百科所有頁碼的作者和段子內容資料進行爬取切持久化儲存 - 需求分析：每一個頁面對應一個url，則scrapy工程需要對每一個頁碼

Scrapy框架之基於RedisSpider實現的分散式爬蟲

需求：爬取的是基於文字的網易新聞資料(國內、國際、軍事、航空)。　　基於Scrapy框架程式碼實現資料爬取後，再將當前專案修改為基於RedisSpider的分散式爬蟲形式。一、基於Scrapy框架資料爬取實現 1、專案和爬蟲檔案建立 $ scrapy startproject wangyiPro $

python爬蟲基礎（13：Scrapy框架之架構流程與目錄）

框架對於特別小的爬蟲，一般直接編寫就可以了，但一般面對一個專案級別的爬蟲，都選擇用框架框架可以理解為一個等你填坑的程式碼： 1. 為你編寫好那些必須的、重複的程式碼 2. 為你模組化好每一個元件，自動建立元件之間的聯絡，這樣就方便使用者清晰瞭解它的

Scrapy框架之基於RedisSpider實現的分布式爬蟲

.com ont 如何 test head 下載 obj gen 好的需求：爬取的是基於文字的網易新聞數據(國內、國際、軍事、航空)。　　基於Scrapy框架代碼實現數據爬取後，再將當前項目修改為基於RedisSpider的分布式爬蟲形式。一、基於Scrapy框架數據

python爬蟲（四）---scrapy框架之騰訊招聘專案實戰

目的：功能就是翻頁請求步驟：如下爬取職位名，職位連結等  職位名：  職位詳情連結：  職位類別：  人數:  地點:  釋出時間：下一步驟：寫爬蟲：tencent.py檔案寫方法一：或者這樣寫

Python專案-Day46-Scrapy框架之利用ImagesPipeline下載圖片.md

專案程式碼 import scrapy from scrapy.item import Item,Field class ZiyuanItem(scrapy.Item): href=Field()#域 title=Field() date=Field()

《零基礎入門學習Python》第063講：論一隻爬蟲的自我修養11：Scrapy框架之初窺門徑

上一節課我們好不容易裝好了 Scrapy，今天我們就來學習如何用好它，有些同學可能會有些疑惑，既然我們懂得了Python編寫爬蟲的技巧，那要這個所謂的爬蟲框架又有什麼用呢？其實啊，你懂得Python寫爬蟲的程式碼，好比你懂武功，會打架，但行軍打仗你不行，畢竟敵人是千軍萬馬，縱使你再強，

python爬蟲學習筆記-scrapy框架之start_url

在使用命令列建立scrapy專案後，會發現在spider.py檔案內會生成這樣的程式碼： name = 'quotes' allowed_domains = ['quotes.toscrape.com'] start_urls = ['http://quotes.toscrape.com

python爬蟲入門(六) Scrapy框架之原理介紹

Scrapy框架 Scrapy簡介 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy 使用了 Twi

跟著派森學scrapy框架之什麼是scrapy

十個爬蟲九個python寫，九個python爬蟲全部由scrapy寫。社會上在招聘爬蟲工程師時，百分之百會需要掌握scrapy爬蟲框架。但是scrapy十個什麼東西你知道嗎？什麼是scrapy 我們先看百科詞條 Scrapy是我們熟知的爬蟲框架，我們用scrapy框架來獲取網

scrapy框架之(CrawlSpider)

一.CrawlSpider簡介

相關推薦