scrapy增量式爬蟲

阿新 • • 發佈：2019-03-06

www __init__ spider extract tor mov ash app self

命令:

1.創建scrapy工程：scrapy startproject projectName
2.創建爬蟲文件：scrapy genspider -t crawl spiderName www.xxx.com
　　指令多了 "-t crawl"，表示創建的爬蟲文件是基於CrawlSpider這個類的，而不再是Spider這個基類。
3.運行 scrapy crawl spider2

spider.py

用hashlib來制作哈希值來放在Redis中, 可以減少放在Redis中的為了校驗是否存在的內容

import scrapy
from scrapy.linkextractors import LinkExtractor
 
from scrapy.spiders import CrawlSpider, Rule
from redis import Redis
from scrapy2.items import Scrapy2Item
import hashlib


class Spider2Spider(CrawlSpider):
    name = ‘spider2‘
    # allowed_domains = [‘www.xxx.com‘]
    start_urls = [‘https://www.qiushibaike.com/text/‘]

    rules = (
        Rule(LinkExtractor(allow 
=r‘/text/page/\d+/‘), callback=‘parse_item‘, follow=True),
    )

    def parse_item(self, response):
        div_list = response.xpath(‘//div[@class="article block untagged mb15 typs_hot"]‘)
        conn = Redis(host=‘127.0.0.1‘,port=6379)
        for div in div_list:
            item = Scrapy2Item()
            item[ 
‘content‘] = div.xpath(‘.//div[@class="content"]/span//text()‘).extract()
            item[‘content‘] = ‘‘.join(item[‘content‘])
            item[‘author‘] = div.xpath(‘./div/a[2]/h2/text() | ./div[1]/span[2]/h2/text()‘).extract_first()
            source = item[‘author‘]+item[‘content‘]
            hashValue = hashlib.sha256(source.encode()).hexdigest()

            ex = conn.sadd(‘qiubai_hash‘, hashValue)
            if ex == 1:
                yield item
            else:
                print(‘已爬取‘)

spider.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from redis import Redis
from scrapy2.items import Scrapy2Item


class Spider2Spider(CrawlSpider):
    name = ‘spider2‘
    # allowed_domains = [‘www.xxx.com‘]
    start_urls = [‘https://www.4567tv.tv/index.php/vod/show/id/7.html‘]

    rules = (
        Rule(LinkExtractor(allow=r‘/index.php/vod/show/id/7/page/\d+\.html‘), callback=‘parse_item‘, follow=True),
    )

    def parse_item(self, response):
        conn = Redis(host=‘127.0.0.1‘, port=6379)
        detail_url_list = [‘https://www.4567tv.tv‘ + el for el in  response.xpath(
            ‘//li[@class="col-md-6 col-sm-4 col-xs-3"]/div/a/@href‘).extract()]
        for url in detail_url_list:
            # ex == 1:set中沒有存儲url
            ex = conn.sadd(‘movies_url‘,url)
            if ex == 1:
                yield scrapy.Request(url=url, callback=self.parse_detail)
            else:
                print(‘已爬取過‘)

    def parse_detail(self,response):
        item = Scrapy2Item()
        item[‘name‘] = response.xpath(‘/html/body/div[1]/div/div/div/div[2]/h1/text()‘).extract_first()
        item[‘actor‘] = response.xpath(‘/html/body/div[1]/div/div/div/div[2]/p[3]/a/text()‘).extract_first()

        yield item

settings.py

BOT_NAME = ‘scrapy2‘

SPIDER_MODULES = [‘scrapy2.spiders‘]
NEWSPIDER_MODULE = ‘scrapy2.spiders‘

USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36‘

# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = ‘scrapy2 (+http://www.yourdomain.com)‘

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
CONCURRENT_REQUESTS = 32

ITEM_PIPELINES = {
    ‘scrapy2.pipelines.Scrapy2Pipeline‘: 300
}

pipelines.py

from redis import Redis
class Scrapy2Pipeline(object):
    def __init__(self):
        self.conn = None
    def open_spider(self, spider):
        self.conn = Redis(host=‘127.0.0.1‘, port=6379)

    def process_item(self, item, spider):
        dic = {
            ‘name‘:item[‘name‘],
            ‘actor‘:item[‘actor‘]
        }
        self.conn.lpush(‘qiubaiData‘,dic)
        print(‘爬取到一條數據,正在入庫......‘)
        return item

scrapy增量式爬蟲

www __init__ spider extract tor mov ash app self 命令: 1.創建scrapy工程：scrapy startproject projectName 2.創建爬蟲文件：scrapy genspider -t crawl

scrapy-redis增量式爬蟲

1 在scrapy爬蟲的框架上setting.py中加上這四句 DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter” #指定了排程器的類 SCHEDULER = “scrapy_redis.scheduler.Schedul

python爬蟲Scrapy框架之增量式爬蟲

obj lib show prop open html back extract hot 一增量式爬蟲什麽時候使用增量式爬蟲：增量式爬蟲：需求當我們瀏覽一些網站會發現，某些網站定時的會在原有的基礎上更新一些新的數據。如一些電影網站會實時更新最近熱門的電影。那麽，當我

增量式爬蟲

rul hash 詳情 clas self setting 發現熱門 apr 引言: 當我們在瀏覽相關網頁的時候會發現,某些網站定時會在原有網頁基礎上更新一批數據,例如某電影網站會實時更新一批最近熱門的電影.小說網站會根據作者創作的進度實時更新罪行的章節

scrapy進行分布式爬蟲

處的測試安裝 nag redis數據庫 key 客戶端訪問效果非關系型數據庫今天，參照崔慶才老師的爬蟲實戰課程，實踐了一下分布式爬蟲，並沒有之前想象的那麽神秘，其實非常的簡單，相信你看過這篇文章後，不出一小時，便可以動手完成一個分布式爬蟲！ 1、分布式爬蟲原理首

第三百三十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—深度優先與廣度優先原理

.com nbsp 網站 color -1 廣度 spa .cn png 第三百三十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—深度優先與廣度優先原理網站樹形結構深度優先是從左到右深度進行爬取的，以深度為準則從左到右的執行第三百三十

第三百五十三節，Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy的暫停與重啟

ctrl+ 裏的 dir 其中重啟 requests 引擎 image .cn 第三百五十三節，Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy的暫停與重啟 scrapy的每一個爬蟲，暫停時可以記錄暫停狀態以及爬取了哪些url，重啟時可以從暫停狀態開始

第三百五十四節，Python分布式爬蟲打造搜索引擎Scrapy精講—數據收集(Stats Collection)

ack 高效所有 crawl resp spider 方法啟動定義第三百五十四節，Python分布式爬蟲打造搜索引擎Scrapy精講—數據收集(Stats Collection) Scrapy提供了方便的收集數據的機制。數據以key/value方式存儲，值大多是

第三百五十五節，Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy信號詳解

第一個如果 -c stopped lin 支持 idle 資源 spider 第三百五十五節，Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy信號詳解信號一般使用信號分發器dispatcher.connect()，來設置信號，和信號觸發函數，當捕獲到信號

第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中

分布式爬蟲 times 操作加載 ger 目錄需要 ini space 第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中，判斷URL是否重復布隆過濾器(Bloom Filte

第三百六十一節，Python分布式爬蟲打造搜索引擎Scrapy精講—倒排索引

索引原理文章根據 file 索引 -i span 需要 style 第三百六十一節，Python分布式爬蟲打造搜索引擎Scrapy精講—倒排索引倒排索引倒排索引源於實際應用中需要根據屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的

第三百六十五節，Python分布式爬蟲打造搜索引擎Scrapy精講—elasticsearch(搜索引擎)的查詢

搜索引擎 ack 復合分布式內置分布在一起一起分類第三百六十五節，Python分布式爬蟲打造搜索引擎Scrapy精講—elasticsearch(搜索引擎)的查詢 elasticsearch(搜索引擎)的查詢 elasticsearch是功能非常強大的搜索

第三百六十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—elasticsearch(搜索引擎)用Django實現搜索的自動補全功能

技術 django 分布全功能 -s col ron 搜索創建第三百六十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—用Django實現搜索的自動補全功能 elasticsearch(搜索引擎)提供了自動補全接口官方說明：https://www

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

false pat 模塊 text 文件的服務協議 .py execute 通過Scrapy模擬登陸知乎通過命令讓系統自動新建zhihu.py文件首先進入工程目錄下再進入虛擬環境通過genspider命令新建zhihu.py scrap

Scrapy分布式爬蟲打造搜索引擎（一）,開發環境安裝

req per 分布式 apt fff mkdir bootstra ble douban Technorati 標簽: 分布式爬蟲 Linux環境下安裝mysqlsudo apt-get install mysqlserver 然後可以查看是否啟動 ps aux | gr

Scrapy分布式爬蟲之ES搜索引擎網站|Scrapy爬蟲視頻教程

視頻網絡爬蟲管理系搜索引擎聚類醫療 esql pan 網絡知識 Scrapy分布式爬蟲之ES搜索引擎網站分享網盤地址——https://pan.baidu.com/s/1smNcos1 密碼：wnze 備用地址（騰訊微雲）：http://url.cn/51n4s

爬蟲 - scrapy-redis分布式爬蟲

等待 install blank lec name odi requests scrapy timeout 簡介 Scrapy-Redis則是一個基於Redis的Scrapy分布式組件。它利用Redis對用於爬取的請求(Requests)進行存儲和調度(Schedule)

Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬蟲框架整合

sta 端口 pro ron 配置文件詳情 pre 流程 .py 簡介：給正在學習的小夥伴們分享一下自己的感悟，如有理解不正確的地方，望指出，感謝~ 首先介紹一下這個標題吧~ 1. Scrapy：是一個基於Twisted的異步IO框架，有了這個框架，我們就不需要等待當前U

爬蟲的增量式抓取和資料更新

爬蟲的增量式抓取和資料更新頁面爬的多了，量上去了之後，就會遇到其他的問題，其實不管做什麼技術量大了都會有問題。一般情況下，我認為解決"大量"問題的思路有兩個：一種是著力於優化系統的能力，讓原本只能一分鐘處理100條的系統提升到一分鐘1000條之類的，在我看來並行、分散式、叢

Scrapy框架之基於RedisSpider實現的分布式爬蟲

.com ont 如何 test head 下載 obj gen 好的需求：爬取的是基於文字的網易新聞數據(國內、國際、軍事、航空)。　　基於Scrapy框架代碼實現數據爬取後，再將當前項目修改為基於RedisSpider的分布式爬蟲形式。一、基於Scrapy框架數據

scrapy增量式爬蟲

命令:

spider.py

spider.py

相關推薦