Spiders

Spider類定義瞭如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進連結)以及如何從網頁的內容中提取結構化資料(爬取item)。換句話說，Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。

對spider來說，爬取的迴圈類似下文:

以初始的URL初始化Request，並設定回撥函式。當該request下載完畢並返回時，將生成response，並作為引數傳給該回調函式。
在回撥函式內分析返回的(網頁)內容，返回 Item 物件或者 Request 或者一個包括二者的可迭代容器。返回的Request物件之後會經過Scrapy處理，下載相應的內容，並呼叫設定的callback函式(函式可相同)。
在回撥函式內，您可以使用選擇器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 來分析網頁內容，並根據分析的資料生成item。
最後，由spider返回的item將被存到資料庫(由某些 Item Pipeline 處理)或使用 Feed exports 存入到檔案中。

雖然該迴圈對任何型別的spider都(多少)適用，但Scrapy仍然為了不同的需求提供了多種預設spider。之後將討論這些spider。

Spider引數

Spider可以通過接受引數來修改其功能。 spider引數一般用來定義初始URL或者指定限制爬取網站的部分。您也可以使用其來配置spider的任何功能。

在執行 crawl 時新增 -a 可以傳遞Spider引數:

scrapy crawl myspider -a category=electronics

Spider在構造器(constructor)中獲取引數:

import scrapy

class MySpider(Spider):
    name = 'myspider'

    def __init__(self, category=None, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)
        self 
.start_urls = ['http://www.example.com/categories/%s' % category]
        # ...

Spider引數也可以通過Scrapyd的 schedule.json API來傳遞。參見 Scrapyd documentation.

內建Spider參考手冊

Scrapy提供多種方便的通用spider供您繼承使用。這些spider為一些常用的爬取情況提供方便的特性，例如根據某些規則跟進某個網站的所有連結、根據 Sitemaps 來進行爬取，或者分析XML/CSV源。

下面spider的示例中，我們假定您有個專案在 myproject.items 模組中聲明瞭 TestItem:

import scrapy

class TestItem(scrapy.Item):
    id = scrapy.Field()
    name = scrapy.Field()
    description = scrapy.Field()

Spider

classscrapy.spider.Spider

Spider是最簡單的spider。每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。 Spider並沒有提供什麼特殊的功能。其僅僅請求給定的start_urls/start_requests ，並根據返回的結果(resulting responses)呼叫spider的 parse 方法。

name

定義spider名字的字串(string)。spider的名字定義了Scrapy如何定位(並初始化)spider，所以其必須是唯一的。不過您可以生成多個相同的spider例項(instance)，這沒有任何限制。 name是spider最重要的屬性，而且是必須的。

如果該spider爬取單個網站(single domain)，一個常見的做法是以該網站(domain)(加或不加字尾 )來命名spider。例如，如果spider爬取 mywebsite.com ，該spider通常會被命名為mywebsite 。

allowed_domains: 可選。包含了spider允許爬取的域名(domain)列表(list)。當 OffsiteMiddleware 啟用時，域名不在列表中的URL不會被跟進。

start_urls: URL列表。當沒有制定特定的URL時，spider將從該列表中開始進行爬取。因此，第一個被獲取到的頁面的URL將是該列表之一。後續的URL將會從獲取到的資料中提取。

start_requests()

該方法必須返回一個可迭代物件(iterable)。該物件包含了spider用於爬取的第一個Request。

當spider啟動爬取並且未制定URL時，該方法被呼叫。當指定了URL時，make_requests_from_url() 將被呼叫來建立Request物件。該方法僅僅會被Scrapy呼叫一次，因此您可以將其實現為生成器。

該方法的預設實現是使用 start_urls 的url生成Request。

如果您想要修改最初爬取某個網站的Request物件，您可以重寫(override)該方法。例如，如果您需要在啟動時以POST登入某個網站，你可以這麼寫:

def start_requests(self):
    return [scrapy.FormRequest("http://www.example.com/login",
                               formdata={'user': 'john', 'pass': 'secret'},
                               callback=self.logged_in)]

def logged_in(self, response):
    # here you would extract links to follow and return Requests for
    # each of them, with another callback
    pass

make_requests_from_url(url)

該方法接受一個URL並返回用於爬取的 Request 物件。該方法在初始化request時被start_requests() 呼叫，也被用於轉化url為request。

預設未被複寫(overridden)的情況下，該方法返回的Request物件中， parse() 作為回撥函式，dont_filter引數也被設定為開啟。 (詳情參見 Request).

parse(response)

當response沒有指定回撥函式時，該方法是Scrapy處理下載的response的預設方法。

parse 負責處理response並返回處理的資料以及(/或)跟進的URL。 Spider 對其他的Request的回撥函式也有相同的要求。

該方法及其他的Request回撥函式必須返回一個包含 Request 及(或) Item 的可迭代的物件。

引數:	response (`Response`) – 用於分析的response

log(message[, level, component]): 使用 scrapy.log.msg() 方法記錄(log)message。 log中自動帶上該spider的 name 屬性。更多資料請參見 Logging 。

closed(reason): 當spider關閉時，該函式被呼叫。該方法提供了一個替代呼叫signals.connect()來監聽spider_closed 訊號的快捷方式。

Spider樣例

讓我們來看一個例子:

import scrapy

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = [
        'http://www.example.com/1.html',
        'http://www.example.com/2.html',
        'http://www.example.com/3.html',
    ]

    def parse(self, response):
        self.log('A response from %s just arrived!' % response.url)

另一個在單個回撥函式中返回多個Request以及Item的例子:

import scrapy
from myproject.items import MyItem

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = [
        'http://www.example.com/1.html',
        'http://www.example.com/2.html',
        'http://www.example.com/3.html',
    ]

    def parse(self, response):
        sel = scrapy.Selector(response)
        for h3 in response.xpath('//h3').extract():
            yield MyItem(title=h3)

        for url in response.xpath('//a/@href').extract():
            yield scrapy.Request(url, callback=self.parse)

CrawlSpider

classscrapy.contrib.spiders.CrawlSpider

爬取一般網站常用的spider。其定義了一些規則(rule)來提供跟進link的方便的機制。也許該spider並不是完全適合您的特定網站或專案，但其對很多情況都使用。因此您可以以其為起點，根據需求修改部分方法。當然您也可以實現自己的spider。

除了從Spider繼承過來的(您必須提供的)屬性外，其提供了一個新的屬性:

rules: 一個包含一個(或多個) Rule 物件的集合(list)。每個 Rule 對爬取網站的動作定義了特定表現。 Rule物件在下邊會介紹。如果多個rule匹配了相同的連結，則根據他們在本屬性中被定義的順序，第一個會被使用。

該spider也提供了一個可複寫(overrideable)的方法:

parse_start_url(response): 當start_url的請求返回時，該方法被呼叫。該方法分析最初的返回值並必須返回一個 Item物件或者一個 Request 物件或者一個可迭代的包含二者物件。

爬取規則(Crawling rules)

classscrapy.contrib.spiders.Rule(link_extractor, callback=None, cb_kwargs=None, follow=None,process_links=None, process_request=None)

link_extractor 是一個 Link Extractor 物件。其定義瞭如何從爬取到的頁面提取連結。

callback 是一個callable或string(該spider中同名的函式將會被呼叫)。從link_extractor中每獲取到連結時將會呼叫該函式。該回調函式接受一個response作為其第一個引數，並返回一個包含

Scrapy系列教程（3）------Spider（爬蟲核心，定義連結關係和網頁資訊抽取）

Spiders

Spider引數

內建Spider參考手冊

Spider

Spider樣例

CrawlSpider

爬取規則(Crawling rules)

Scrapy系列教程（3）------Spider（爬蟲核心，定義連結關係和網頁資訊抽取）

Scrapy系列教程（6）------怎樣避免被禁

【Web API系列教程】3.2 — 實戰：處理資料（新增模型和控制器）

Scrapy系列教程（2）------Item（結構化資料儲存結構）

VMware vSphere系列教程-配置主機網絡（二）

VMware vSphere系列教程-創建虛擬機（三）

Electron 基礎教程-2.3 主程序（Main Process）

springcloud 系列教程四：服務消費者（Feign）

OpenCV 3 pyton（第三章，二值化和尋找輪廓線）

cmake工具使用簡明教程（基於命令列和gui，編譯到windows和linux雙平臺）

一天殺了兩千宦官（袁紹也曾仗義過，為東漢徹底除去了宦官禍害）

轉——WGS84坐標系圖層轉火星坐標系（是整個圖層轉喲，不是轉單點坐標）

多執行緒基礎二（執行緒的啟動、終止，執行緒面臨的三種問題）

多線程基礎二（線程的啟動、終止，線程面臨的三種問題）

Python基礎（三）--- Python面向物件oop，類、方法和變數，繼承

LeetCode刷題Easy篇斐波那契數列問題（遞迴,尾遞迴，非遞迴和動態規劃解法）

智慧小區解決方案（含IPTV、監控、語音、物業管理系統和智慧傢俱產品）

常見的資料結構（棧、佇列、陣列、連結串列和紅黑樹）

STM32-自學筆記（7.用GPIO點亮LED，程式用到的庫函式介紹）

劍指Offer演算法題JAVA版21-30題（全是個人寫的非官方，只供參考和自己複習，測試用例都通過了。）

Scrapy系列教程（3）------Spider（爬蟲核心，定義連結關係和網頁資訊抽取）

Spiders

Spider引數

內建Spider參考手冊

Spider

Spider樣例

CrawlSpider

爬取規則(Crawling rules)

相關推薦