第三百五十四節，Python分布式爬蟲打造搜索引擎Scrapy精講—數據收集(Stats Collection)

阿新 • • 發佈：2017-08-26

ack 高效所有 crawl resp spider 方法啟動定義

第三百五十四節，Python分布式爬蟲打造搜索引擎Scrapy精講—數據收集(Stats Collection)

Scrapy提供了方便的收集數據的機制。數據以key/value方式存儲，值大多是計數值。該機制叫做數據收集器(Stats Collector)，可以通過 Crawler API 的屬性 stats 來使用
無論數據收集(stats collection)開啟或者關閉，數據收集器永遠都是可用的。因此您可以import進自己的模塊並使用其API(增加值或者設置新的狀態鍵(stat keys))。該做法是為了簡化數據收集的方法: 您不應該使用超過一行代碼來收集您的spider，Scrpay擴展或任何您使用數據收集器代碼裏頭的狀態。

數據收集器的另一個特性是(在啟用狀態下)很高效，(在關閉情況下)非常高效(幾乎察覺不到)。

數據收集器對每個spider保持一個狀態表。當spider啟動時，該表自動打開，當spider關閉時，自動關閉。

數據收集各種函數

stats.set_value(‘數據名稱‘, 數據值)設置數據
stats.inc_value(‘數據名稱‘)增加數據值，自增1
stats.max_value(‘數據名稱‘, value)當新的值比原來的值大時設置數據
stats.min_value(‘數據名稱‘, value)當新的值比原來的值小時設置數據
stats.get_value(‘數據名稱‘)獲取數據值
stats.get_stats()

獲取所有數據

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest


class PachSpider(scrapy.Spider):                            #定義爬蟲類，必須繼承scrapy.Spider
    name = ‘pach‘                                           #設置爬蟲名稱
    allowed_domains = [‘www.dict.cn‘]                       # 
爬取域名

    def start_requests(self):    #起始url函數，會替換start_urls
        return [Request(
            url=‘http://www.dict.cn/9999998888‘,
            callback=self.parse
        )]

    # 利用數據收集器，收集所有404的url以及，404頁面數量
    handle_httpstatus_list = [404]                                  # 設置不過濾404

    def __init__(self):
        self.fail_urls = []                                         # 創建一個變量來儲存404URL

    def parse(self, response):                                      # 回調函數
        if response.status == 404:                                  # 判斷返回狀態碼如果是404
            self.fail_urls.append(response.url)                     # 將URL追加到列表
            self.crawler.stats.inc_value(‘failed_url‘)              # 設置一個數據收集，值為自增，每執行一次自增1
            print(self.fail_urls)                                   # 打印404URL列表
            print(self.crawler.stats.get_value(‘failed_url‘))       # 打印數據收集值
        else:
            title = response.css(‘title::text‘).extract()
            print(title)

第三百五十四節，Python分布式爬蟲打造搜索引擎Scrapy精講—數據收集(Stats Collection)

ack 高效所有 crawl resp spider 方法啟動定義第三百五十四節，Python分布式爬蟲打造搜索引擎Scrapy精講—數據收集(Stats Collection) Scrapy提供了方便的收集數據的機制。數據以key/value方式存儲，值大多是

第三百五十四節，Python分布式爬蟲打造搜索引擎Scrapy精講—數據收集(Stats Collection)

第三百五十四節，Python分布式爬蟲打造搜索引擎Scrapy精講—數據收集(Stats Collection)

第三百六十一節，Python分布式爬蟲打造搜索引擎Scrapy精講—倒排索引

第三百五十五節，Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy信號詳解

第三百六十五節，Python分布式爬蟲打造搜索引擎Scrapy精講—elasticsearch(搜索引擎)的查詢

第三百五十三節，Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy的暫停與重啟

第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中

第三百三十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—深度優先與廣度優先原理

第三百六十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—elasticsearch(搜索引擎)用Django實現搜索的自動補全功能

第三百二十四節，web爬蟲，scrapy模塊介紹與使用

第三百一十六節，Django框架，中間件

第三百七十六節，Django+Xadmin打造上線標準的在線教育平臺—創建用戶操作app，在models.py文件生成5張表，用戶咨詢表、課程評論表、用戶收藏表、用戶消息表、用戶學習表

第三百七十九節，Django+Xadmin打造上線標準的在線教育平臺—xadmin的安裝

第三百八十一節，Django+Xadmin打造上線標準的在線教育平臺—xadmin全局配置

第三百八十七節，Django+Xadmin打造上線標準的在線教育平臺—網站上傳資源的配置與顯示

第三百八十九節，Django+Xadmin打造上線標準的在線教育平臺—列表篩選結合分頁

第四百一十四節，python常用算法學習

第二百七十四節，同源策略和跨域訪問

第二百九十四節，Redis緩存-Redis安裝

《飛門鏢局榜第三百五十回》

(十四）構建dubbo分布式平臺-window安裝zookeeper註冊中心

第三百五十四節，Python分布式爬蟲打造搜索引擎Scrapy精講—數據收集(Stats Collection)

相關推薦