多爬蟲實現之三 -- 多爬蟲檔案

阿新 • • 發佈：2018-12-27

目標

優化現有的爬蟲結構，實現同時開始執行多個爬蟲

1 為什麼需要優化現有的爬蟲結構

當爬蟲比較少的時候，我們的專案結構相對合理，但是當要抓取的網站比較多的時候，可以借鑑scrapy的方法，把不同網站的爬蟲分別在不同的py檔案中編寫，之後放在一個目錄下；同時，我們很多時候還希望能夠有同時啟動專案中的所有的爬蟲

2 將多個爬蟲類分離為多個爬蟲檔案爬蟲檔案

為了解耦合，應將每個站點的爬蟲寫為單獨一個py檔案，因此更改一下放置爬蟲的模組，結構如下：

- 專案資料夾
  -- main.py
  -- spiders
     -- __init__.py
     -- baidu.py
     -- douban.py
  -- settings.py

其中baidu.py和douban.py分別是抓取百度和豆瓣的爬蟲檔案

baidu.py:

# project_dir/spiders/baidu.py
from scrapy_plus.core.spider import Spider

# 繼承框架的爬蟲基類
class BaiduSpider(Spider):

    start_urls = ['http://www.baidu.com']    # 設定初始請求url

douban.py: 抓取豆瓣電影top250的列表頁資訊

# project_dir/spiders/douban.py
from scrapy_plus.core.spider import Spider
from scrapy_plus.http.request import Request
from scrapy_plus.item import Item


class DoubanSpider(Spider):

    start_urls = []  # 重寫start_requests方法後，這個屬性就沒有設定的必要了

    def start_requests(self):
        # 重寫start_requests方法，返回多個請求
        base_url = 'http://movie.douban.com/top250?start='
        for i in range(0, 250, 25):    # 逐個返回第1-10頁的請求屬相
            url = base_url + str(i)
            yield Request(url)

    def parse(self, response):
        '''解析豆瓣電影top250列表頁'''
        title_list = []    # 儲存所有的
        for li in response.xpath("//ol[@class='grid_view']/li"):    # 遍歷每一個li標籤
            # title = li.xpath(".//span[@class='title'][1]/text()")    # 提取該li標下的 標題
            # title_list.append(title[0])
            detail_url = li.xpath(".//div[@class='info']/div[@class='hd']/a/@href")[0]
            yield Request(detail_url, parse="parse_detail")    # 發起詳情頁的請求，並指定解析函式是parse_detail方法
        # yield Item(title_list)    # 返回標題

    def parse_detail(self, response):
        '''解析詳情頁'''
        print('詳情頁url：', response.url)    # 列印一下響應的url
        return []    # 由於必須返回一個容器，這裡返回一個空列表

對main.py進行相應修改，測試新增的douban爬蟲

  from scrapy_plus.core.engine import Engine    # 匯入引擎

  from spiders.baidu import BaiduSpider
  from spiders.douban import DoubanSpider

  if __name__ == '__main__':
      # spider = BaiduSpider()    # 例項化爬蟲物件
      douban_spider = DoubanSpider()    # 例項化爬蟲物件
      engine = Engine(douban_spider)    # 傳入爬蟲物件
      engine.start()    # 啟動引擎

3 同時執行多個不同的爬蟲

如把豆瓣爬蟲和百度爬蟲一起啟動並執行

傳入形式：並用字典的形式傳入多個爬蟲：

main.py

# project_dir/main.py
from scrapy_plus.core.engine import Engine    # 匯入引擎

from spiders.baidu import BaiduSpider
from spiders.douban import DoubanSpider

if __name__ == '__main__':
    baidu_spider = BaiduSpider()    # 例項化爬蟲物件
    douban_spider = DoubanSpider()    # 例項化爬蟲物件
    spiders = {'baidu':baidu_spider, 'douban':douban_spider}
    engine = Engine(spiders)    # 傳入爬蟲物件
    engine.start()    # 啟動引擎

在引擎中用到爬蟲物件的地方都要做相應的修改

engine.py：

'''引擎
a. 對外提供整個的程式的入口
b. 依次呼叫其他元件對外提供的介面，實現整個框架的運作(驅動)
'''
......
class Engine(object):

    def __init__(self, spiders):    # 接收外部傳入的多個爬蟲物件
        self.spiders = spiders    # 爬蟲物件

        ......

    ......

    def _start_requests(self):
        '''向排程器新增初始請求'''
        # 1. 爬蟲模組發出初始請求
        for spider_name, spider in self.spiders.items():
            for start_request in spider.start_requests():
                # 2. 把初始請求新增給排程器
                # 利用爬蟲中介軟體預處理請求物件
                start_request = self.spider_mid.process_request(start_request)
                start_request.spider_name = spider_name    #為請求物件繫結它所屬的爬蟲的名稱
                self.scheduler.add_request(start_request)

    def _execute_request_response_item(self):
        '''根據請求、發起請求獲取響應、解析響應、處理響應結果'''

        ......

        spider = self.spiders[request.spider_name]  # 根據請求的spider_name屬性，獲取對應的爬蟲物件

        # 5. 利用爬蟲的解析響應的方法，處理響應，得到結果
        parse = getattr(spider, request.parse)    # 獲取對應的解析函式
        results = parse(response)    # parse函式的返回值是一個容器，如列表或者生成器物件
        for result in results:
           # 6. 判斷結果物件
           # 6.1 如果是請求物件，那麼就再交給排程器
           if isinstance(result, Request):
               # 利用爬蟲中介軟體預處理請求物件
               result = self.spider_mid.process_request(result)
               result.spider_name = request.spider_name  # 為請求物件繫結它所屬的爬蟲的名稱
               self.scheduler.add_request(result)
           # 6.2 否則，就交給管道處理
           ......
    ......

安裝程式碼，並執行main.py，直到除錯成功

4 再次改進，將每個爬蟲的名稱直接設定為爬蟲類的一個屬性

參考：

class BaiduSpider(Spider):
    name = 'baidu'    # 為爬蟲命名
    start_urls = ['http://www.baidu.com']    # 設定初始請求url

'''那麼main.py就可以按照這樣的方式設定key值'''
spiders = {BaiduSpider.name: baidu_spider, DoubanSpider.name: douban_spider}

多爬蟲實現之三 -- 多爬蟲檔案

目標優化現有的爬蟲結構，實現同時開始執行多個爬蟲 1 為什麼需要優化現有的爬蟲結構當爬蟲比較少的時候，我們的專案結構相對合理，但是當要抓取的網站比較多的時候，可以借鑑scrapy的方法，把不同網站的爬蟲分別在不同的py檔案中編寫，之後放在一個目錄下；同時，我們很多時候還

多爬蟲實現之二 -- 爬蟲實現多個解析函式

目標完成spider中如果解析函式呼叫的封裝掌握getattr的方法完成通過meta在不通過的解析函式中傳遞資料的方法 1. 爬蟲實現多個解析函式的意義 2 響應物件的解析方法封裝為response物件封裝xpath、正則、json、等方法和屬

Python多任務實現之協程並發下載多圖片

python 協程多任務協程是Python中實現多任務一種方式，相比多任務之進程和線程，協程不需要消耗過多的資源，更高效的利用了cpu資源。在Python中通過gevent封裝generator叠代器功能實現多任務的切換。協程在運行過程中是靠程序的耗時操作來實現程序中斷。達到切換多任務。至始至終，

Java多線程之三volatile與等待通知機制示例

不存在跳出循環三種安全同步完成後了解 try code 原子性，可見性與有序性在多線程中，線程同步的時候一般需要考慮原子性，可見性與有序性原子性原子性定義：一個操作或者多個操作在執行過程中要麽全部執行完成，要麽全部都不執行，不存在執行一部分的情況。以我們

C++中動多型實現之虛擬函式與虛表指標

1、靜多型與命名傾軋，動多型與虛擬函式：（1）概述：我們知道，C++的多型有靜多型（Static polymorphism）與動多型（Dynamic polymorphism）之分，靜多型是依靠函式過載（function overloading）實現的，

Java多執行緒之三volatile與等待通知機制示例

原子性，可見性與有序性在多執行緒中，執行緒同步的時候一般需要考慮原子性，可見性與有序性原子性原子性定義：一個操作或者多個操作在執行過程中要麼全部執行完成，要麼全部都不執行，不存在執行一部分的情況。以我們在Java程式碼中經常用到的自增操作i++為例，i++實際上並不是一步操作，而是首先對i的值加一，然

從零開始學習Gradle之三---多專案構建

隨著資訊化的快速發展，IT專案變得越來越複雜，通常都是由多個子系統共同協作完成。對於這種多系統、多專案的情況，很多構建工具都已經提供了不錯的支援，像maven、ant。Gradle除了借鑑了ant或者maven的繼承的方式定義子專案，也提供了一種更為方便的集中配置的方式，大大減少了構建帶來的複雜度。

二、MyBatis教程之三—多參數的獲取方式

傳遞多參數 update1 https str detail net set pda param 如果接口中的方法擁有多個參數，那麽在mapper文件中該如何獲取呢？有三種方式： 1、就是普通寫法，在文件中通過arg或param獲取 2、使用Map集合，在文件中使用#{k

版本控制git之三-多人協作

exit 刪除 fir 一個地方含義 files fas 公開 nothing 如果你想獲得一份已經存在了的 Git 倉庫的拷貝，比如說，你想為某個開源項目貢獻自己的一份力，這時就要用到 `git clone` 命令。如果你對其它的 VCS 系統（比如說Subve

scrapy爬蟲系列之三--爬取圖片保存到本地及日誌的基本用法

用法 request 讀取配置 turn 重寫方法沒有 elf sel jpg 功能點：如何爬取圖片，並保存到本地爬取網站：鬥魚主播完整代碼：https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代碼： dou

python網路-多工實現之協程

一、協程協程，又稱微執行緒，纖程。英文名Coroutine。協程不是程序，也不是執行緒，它就是一個函式，一個特殊的函式——可以在某個地方掛起，並且可以重新在掛起處繼續執行。所以說，協程與程序、執行緒相比，不是一個維度的概念。一個程序可以包含多個執行緒，一個執行緒也可以包含多

2017.08.11 Python網絡爬蟲實戰之Beautiful Soup爬蟲

文件的華僑定位 spa 文件目錄 lxml odi nco unicode 1.與Scrapy不同的是Beautiful Soup並不是一個框架，而是一個模塊；與Scrapy相比，bs4中間多了一道解析的過程（Scrapy是URL返回什麽數據，程序就接受什麽數據進行過濾

統計學習方法ｃ++實現之三　樸素貝葉斯法

樸素貝葉斯法前言樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法，這與我們生活中判斷一件事情的邏輯有點類似，樸素貝葉斯法的核心是引數的估計，在這之前，先來看一下如何用樸素貝葉斯法分類。程式碼地址https://github.com/bBobxx/statistical-learning,歡

列印一首唐詩的N種實現之三：巨集替換

雖然在C++在一般推薦不要使用巨集，但在一些特定的場合，巨集還是能發揮很大的作用。下面就是一些巨集替換法，思路應該是不言自明的了。 1、替換main()函式 #define main main() ...{ cout<<"白日依山盡, "<<

Qt總結之三：磁碟檔案操作、遍歷資料夾和檔案目錄，並過濾和獲取檔案資訊、字尾名、字首名（三）

前言本節內容主要包括磁碟容量檢測、磁碟內指定或特定檔案的操作話不多說，先上效果圖共分為兩個部分，第一部分是檢測磁碟容量，第二部分是篩選磁碟內指定檔案(test.txt)或特定檔案(.txt / .png型別檔案) 獲取磁碟容量關鍵函式：【fileapi.h】

C++ COM實現之三實現類廠

類廠是什麼？就是一個工廠用於建立各種產品，將建立好的產品提供給外部使用者使用。其實現如下： factory.h #pragma once #include "unknwn.h" class CClassFactory : public IClassFactory { pu

爬蟲相關之淺聊爬蟲

1.安裝：要是說到爬蟲，我們不得不提一個大而全的爬蟲元件/框架，這個框架就是scrapy：scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。其可以應用在資料探勘，資訊處理或儲存歷史資料等一系列的程式中。那麼我們直接進入正題，先說說這個框架的兩種安裝方式：第一種：win

Java多執行緒之執行多個任務並處理所有結果

執行器框架給我們提供了一個方法，讓我們可以傳送給執行器一個任務列表，並等待任務列表中的所有任務執行完畢。然後它將返回一個與任務列表對應的Future列表。 package com.primer.d

JDBC連線MySQL方法之三建立配置檔案

資料庫的連線是可配置的，所以可以建立可配置檔案，當需要修改連線配置時，只需要修改配置檔案內容即可。操作步驟：首先，在src目錄下建立File檔案，命名為 XXX.properties,內容為

SpringBoot防止重複請求，重複表單提交超級簡單的註解實現之三（升級版2）

升級攔截器上一篇文章留下2個問題1.某些情況下request獲取不到，或造成異常情況，為了處理這種情況我將獲取Request的方法進行了升級2.能不能在異常發生的時候就將重複提交標記就移除呢？當然可以！通過@AfterThrowing即可實現下面是改造後的攔截器程式碼：/**

多爬蟲實現之三 -- 多爬蟲檔案

目標

1 為什麼需要優化現有的爬蟲結構

2 將多個爬蟲類分離為多個爬蟲檔案爬蟲檔案

3 同時執行多個不同的爬蟲

4 再次改進，將每個爬蟲的名稱直接設定為爬蟲類的一個屬性

相關推薦