框架升級 -- 增量爬蟲設計原理及其實現

阿新 • • 發佈：2018-12-27

目標

理解增量式爬蟲的原理
完成增量式爬蟲的實現

1 增量爬蟲設計原理

增量抓取，意即針對某個站點的資料抓取，當網站的新增資料或者該站點的資料發生了變化後，自動地抓取它新增的或者變化後的資料

設計原理：

1.1 實現關閉請求去重

為Request物件增加屬性filter

# scrapy/http/reqeust.py
'''封裝Request物件'''


class Request(object):
    '''請求物件，設定請求資訊'''

    def __init__(self, url, method='GET', headers=None, params=None, data=None, filter=True):
        self.url = url    # 請求地址
        self.method = method    # 請求方法
        self.headers = headers    # 請求頭
        self.params = params    # 請求引數
        self.data = data    # 請求體
        self.filter = filter    # 是否進行去重，預設是True

修改排程器，進行判斷

# scrapy_plus/core/scheduler.py
class Scheduler(object):

    ......

    def add_request(self, request):
        '''新增請求物件'''

        # 先判斷是否要去重
        if request.filter is False:
            self.queue.put(request)
            logger.info("新增請求成功<disable去重>[%s %s]" % (request.method, request.url))
            self.total_request_number += 1  # 統計請求總數
            return # 必須return

        # 新增請求物件前，先進性去重判斷
        fp = self._gen_fp(request)
        if not self.filter_request(fp, request):    # 如果指紋不存在，那麼新增該請求
            self.queue.put(request)
            logger.info("新增請求成功[%s %s]"%(request.method, request.url))
            self._filter_container.add_fp(fp)     # 新增完請求後，將指紋也記錄下來
            self.total_request_number += 1    # 統計請求總數
        else:
            logger.info("發現重複的請求 [%s %s]" % (request.method, request.url))
            self.repeat_request_number += 1

    ......

1.2 實現無限發起請求:

新增爬蟲抓取：新浪滾動新聞

在start_reqeusts中改成無限迴圈，並設定對應請求為非去重模式。（注意）

# spiders/baidu.py
import time

from scrapy_plus.core.spider import Spider
from scrapy_plus.http.request import Request
from scrapy_plus.item import Item
import js2py


class SinaGunDong(Spider):

    name = "sina_gundong"

    def start_requests(self):
        while True:
            # 需要發起這個請求，才能獲取到列表頁資料，並且返回的是一個js語句
            url = "http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=89&spec=&type=&ch=&k=&offset_page=0&offset_num=0&num=120&asc=&page=1&r=0.5559616678192825"
            yield Request(url, parse='parse', filter=False)
            time.sleep(10)     # 每10秒發起一次請求

    def parse(self, response):
        '''響應體資料是js程式碼'''
        # 使用js2py模組，執行js程式碼，獲取資料
        ret = js2py.eval_js(response.body.decode("gbk"))    # 對網站分析發現，資料編碼格式是gbk的，因此需要先進行解碼
        yield Item(ret.list)

但由於框架呼叫start_requests方法時同步，如果設定為死迴圈後，那麼位於之後的爬蟲的start_requests方法就不會被呼叫，因此需要在呼叫每個爬蟲的start_reqeusts時設定為非同步的

# scrapy_plus/core/engine.py
class Engine(object):

    ......

    def _start_requests(self):
        '''向排程器新增初始請求'''
        # 1. 爬蟲模組發出初始請求
        # for spider_name, spider in self.spiders.items():
        #     for start_request in spider.start_requests():
        #         # 2. 把初始請求新增給排程器
        #         # 利用爬蟲中介軟體預處理請求物件
        #         for spider_mid in self.spider_mids:
        #             start_request = spider_mid.process_request(start_request)
        #         start_request.spider_name = spider_name    #為請求物件繫結它所屬的爬蟲的名稱
        #         self.scheduler.add_request(start_request)

        def _func(spider_name, spider):
            for start_request in spider.start_requests():
                # 2. 把初始請求新增給排程器
                # 利用爬蟲中介軟體預處理請求物件
                for spider_mid in self.spider_mids:
                    start_request = spider_mid.process_request(start_request)
                start_request.spider_name = spider_name    #為請求物件繫結它所屬的爬蟲的名稱
                self.scheduler.add_request(start_request)
        # 1. 爬蟲模組發出初始請求
        for spider_name, spider in self.spiders.items():
            self.pool.apply_async(_func, args=(spider_name, spider))    # 把執行每個爬蟲的start_requests方法，設定為非同步的

    ......

讓程式的主執行緒在，多個start_reqeusts方法都沒執行完畢前，不要進行退出判斷，避免退出過早：

# scrapy_plus/core/engine.py
class Engine(object):
    '''
    負責驅動各大元件，通過呼叫各自對外提供的API介面，實現它們之間的互動和協作
    提供整個框架的啟動入口
    '''
    def __init__(self):
        ......

        self.finshed_start_requests_number = 0

    ......

    def _callback_total_finshed_start_requests_number(self, temp):
        '''記錄完成的start_requests的數量'''
        self.finshed_start_requests_number += 1

    def _start_requests(self):

        ......

        # 讓主執行緒在這裡阻塞
        while True:
            time.sleep(0.001)    # 節省cpu消耗
            # self.pool.apply_async(self._execute_request_response_item)    # 發起一個請求，處理一個響應
            # 設定退出迴圈的條件：
            # 當處理完的響應數等於總的請求數時，退出迴圈：
            if self.finshed_start_requests_number == len(self.spiders):    # 判斷是否所有爬蟲的start_requests是否都執行完畢，
                # 如果都執行完畢，才應該應該進行退出判斷
                if self.total_response_number == self.scheduler.total_request_number and self.total_response_number != 0:
                    self.running = False    # 設為Flase， 讓子執行緒滿足判斷條件，不再執行遞迴迴圈，然後退出
                    break
        logger.info("主執行緒迴圈已經退出")
        self.pool.close()   # 意味著無法再向pool新增任務，，無法在呼叫apply_async  apply
        self.pool.join()   #

框架升級 -- 增量爬蟲設計原理及其實現

目標理解增量式爬蟲的原理完成增量式爬蟲的實現 1 增量爬蟲設計原理增量抓取，意即針對某個站點的資料抓取，當網站的新增資料或者該站點的資料發生了變化後，自動地抓取它新增的或者變化後的資料設計原理： 1.1 實現關閉請求去重為Reques

可繫結可擴充套件的帳號系統設計原理及其實現

隨著時間推移,後期可能增加更多登入的途徑,所以系統需要使用可擴充套件的方式實現假設使用者已經用手機號碼註冊過(這裡稱為老帳號),此時如果使用微信登入並且完成了相關購買等,再繫結到老帳號上,這時候需要實現使用者新舊資料合併,以確保前端展示的資料和使用者的真實查詢一致;如果再加入QQ登入並且繫結同個手機號,同樣需

可繫結可擴充套件的帳號系統設計原理及其實現(一)

轉載：http://blog.cocosdever.com/2016/03/08/The-design-principle-and-implementation-of-extensible-account-system-1/ 前言　　在2016年春節前兩個星期,我

SpringMVC框架設計原理與實現

一、SpringMVC框架是什麼springmvc是一套封裝網路請求的半封裝Servlet框架，是站在巨人肩膀（JDK javax.servlet.*）上做下層類的結構圖：二、Servlet規範開發的時候讀取很多專案原始碼部署--->肯定存在Servlet規範Sprin

淺談動態數組原理及其實現

縮小 vector 但是 align 幹什麽可能而不是快速實現 param 　　stl中的vector是競賽中常用的容器，原因在於省內存，O(1)在後端插入和刪除、隨機下標訪問，今天就來談談它的實現。最簡單的一個動態數組　動態數組並不是真正意義上的動態

拓撲排序的原理及其實現

還需要 play 結果集 3.0 硬幣 tps 進行程序微軟雅黑本文將從以下幾個方面介紹拓撲排序：拓撲排序的定義和前置條件和離散數學中偏序/全序概念的聯系典型實現算法 Kahn算法基於DFS的算法解的唯一性問題實際例子取材自以下材料：

Java對象池技術的原理及其實現

問題多種方式等待具體實現 tex sin 工作程序 collect Java對象的生命周期分析　　Java對象的生命周期大致包括三個階段：對象的創建，對象的使用，對象的清除。因此，對象的生命周期長度可用如下的表達式表示：T = T1 + T2 +T3。其中T1

【底層原理】四位計算機的原理及其實現

一點 led燈 waiting lean div rm2 src and nvt 你是否想過，計算機為什麽會加減乘除？或者更直接一點，計算機的原理到底是什麽？ Waitingforfriday有一篇詳細的教程，講解了如何自己動手，制作一臺四位計算機。從中可以看到，二進制、數

線上防雪崩利器——熔斷器設計原理與實現

data 沒有保障系統狀態模式熔斷器 data- 雪崩 form cimage 前言這是一篇根據工作中遇到的問題總結出的最佳實踐。上周六，我負責的業務在淩晨00-04點的支付全部失敗了。結果一查，MD，晚上銀行維護，下遊支付系統沒有掛維護公告，在此期間一直請求維

短址(short URL)原理及其實現

前言最近看了一些關於短址（short URL）方面的一些部落格，有些部落格說到一些好的東西，但是，也不是很全，所以，這篇部落格算是對其它部落格的一個總結吧。介紹短址，顧名思義，就是把長的 URL 轉成短的 URL, 現在提供這種服務的有很多公司，我們以google家的 URL

STM32最小系統設計原理及其相關應用

STM32內部資源相當豐富，如果真想最小，其實可以只用一個外部電源。但一般需求中最小系統一般包括電源、復位、時鐘、除錯介面，需要更高點要求的會有一個通訊介面、外擴儲存器等。今天就一起來看看那些大佬們製作的STM32最小系統設計原理及其相關應用吧！ 1、STM32最小系統電路原理圖+PCB原始檔

架構設計 | 線上防雪崩利器—熔斷器設計原理與實現

上週六，我負責的業務在凌晨00-04點的支付全部失敗了。結果一查，MD，晚上銀行維護，下游支付系統沒有掛維護公告，在此期間一直請求維護中的銀行，當然所有返回就是失敗了，有種欲哭無淚的感覺，鍋讓業務來背。為了杜絕在此出現這種大面積批量的支付失敗情況發生，保障系

作業系統-併發控制原理及其實現

　　首先我們要明白“皮之不存，毛將焉附”的道理，計算機系統是硬體與系統軟體完美結合的一個有機整體。因此在學習這一部分時，特別是學習中斷控制原理和系統凋用等內容時，要聯絡計算機組成原理的知識，這樣才能對整個系統瞭解。一、程式和程序　　程序(process)這一術語，最初是在麻省理工學院(MIT)開發的

四位計算機的原理及其實現

你是否想過，計算機為什麼會加減乘除？或者更直接一點，計算機的原理到底是什麼？ Waitingforfriday有一篇詳細的教程，講解了如何自己動手，製作一臺四位計算機。從中可以看到，二進位制、數理邏輯、電子學怎樣融合在一起，構成了現代計算機的基礎。一、什麼是二進位

Adobe AE外掛原理及其實現

PICA構件體系在PICA的實現中，有一個與COM類似的介面Suite。Suite實際上是函式指標的結構體，PICA體系按功能將PICA API函式做成不同的Suite提供給使用者。下面是PlCA最基本的Suite，其它的Suite都是通過該Suite獲得。與COM區別將PICA與

【進階4-2期】Object.assign 原理及其實現

引言上篇文章介紹了賦值、淺拷貝和深拷貝，其中介紹了很多賦值和淺拷貝的相關知識以及兩者區別，限於篇幅只介紹了一種常用深拷貝方案。本篇文章會先介紹淺拷貝 Object.assign 的實現原理，然後帶你手動實現一個淺拷貝，並在文末留下一道面試題，期待你的評論。淺拷貝 Object.assign 上篇

DHCP協議原理及其實現流程

DHCP（Dynamic Host Configuration Protocol）：動態主機配置協議在常見的小型網路中（例如家庭網路和學生宿舍網），網路管理員都是採用手工分配IP地址的方法，而到了中、大型網路，這種方法就不太適用了。在中、大型網路，特別是大型網路中，往往有超過100臺的客戶機，手動分配IP

I2C通信基本原理及其實現

false 波形如何 tps function del 數據通信 aaa char I2C是一種總線式結構，它只需要SCL時鐘信號線與SDA數據線，兩根線就能將連接與總線上的設備實現數據通信，由於它的簡便的構造設計，於是成為一種較為常用的通信方式。由於I2C采用的

HotSpot設計原理與實現：一、初識HotSpot

global 生命周期類型系統 png 內存分享圖片 tro bsp http 題註：《揭秘Java虛擬機（JVM設計原理與實現）》和《HotSpot實戰》的讀書筆記一、HotSpot內核模塊組成和功能框架1、HotSpot內核模塊圖

JavaScript碰撞檢測原理及其實現

1.模擬碰撞簡單模擬碰撞過程,用一個可以拖拽的div2去嘗試碰撞一個固定的div1(均用絕對定位) 2.碰撞檢測原理如圖所示: 使得div分別有4個距離屬性( L(left),T(t

框架升級 -- 增量爬蟲設計原理及其實現

目標

1 增量爬蟲設計原理

1.1 實現關閉請求去重

1.2 實現無限發起請求:

相關推薦