1. 程式人生 > >爬蟲之scrapy框架

爬蟲之scrapy框架

web 信息 .cn 入隊 依賴 下載器 新建 和數 類定義

一 scrapy框架簡介

1 介紹

Scrapy一個開源和協作的框架,其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的,使用它可以以快速、簡單、可擴展的方式從網站中提取所需的數據。但目前Scrapy的用途十分廣泛,可用於如數據挖掘、監測和自動化測試等領域,也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。Scrapy 是基於twisted框架開發而來,twisted是一個流行的事件驅動的python網絡框架。因此Scrapy使用了一種非阻塞(又名異步)的代碼來實現並發。

整體架構大致如下:

技術分享圖片

技術分享圖片
‘‘‘
Components:

1、引擎(EGINE)
引擎負責控制系統所有組件之間的數據流,並在某些動作發生時觸發事件。有關詳細信息,請參見上面的數據流部分。

2、調度器(SCHEDULER)
用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL的優先級隊列, 由它來決定下一個要抓取的網址是什麽, 同時去除重復的網址
3、下載器(DOWLOADER) 用於下載網頁內容, 並將網頁內容返回給EGINE,下載器是建立在twisted這個高效的異步模型上的
4、爬蟲(SPIDERS) SPIDERS是開發人員自定義的類,用來解析responses,並且提取items,或者發送新的請求
5、項目管道(ITEM PIPLINES) 在items被提取後負責處理它們,主要包括清理、驗證、持久化(比如存到數據庫)等操作 下載器中間件(Downloader Middlewares)位於Scrapy引擎和下載器之間,主要用來處理從EGINE傳到DOWLOADER的請求request,已經從DOWNLOADER傳到EGINE的響應response,
你可用該中間件做以下幾件事:   (1) process a request just before it is sent to the Downloader (i.e. right before Scrapy sends the request to the website);   (2) change received response before passing it to a spider;   (3) send a new Request instead of passing received response to a spider;   (4) pass response to a spider without fetching a web page;   (5) silently drop some requests.
6、爬蟲中間件(Spider Middlewares) 位於EGINE和SPIDERS之間,主要工作是處理SPIDERS的輸入(即responses)和輸出(即requests) ‘‘‘
技術分享圖片

官網鏈接

2 安裝

技術分享圖片
#Windows平臺

1、pip3 install wheel #安裝後,便支持通過wheel文件安裝軟件,wheel文件官網:https://www.lfd.uci.edu/~gohlke/pythonlibs
3、pip3 install lxml
4、pip3 install pyopenssl
5、下載並安裝pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/
6、下載twisted的wheel文件:()http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted(在134天中海濤發的文件)

7、小黑框cmd中執行pip3 install 跟上下載的(或者海濤發的文件的)目錄\Twisted-17.9.0-cp36-cp36m-win_a

技術分享圖片

3 命令行工具

技術分享圖片
# 1 查看幫助
    scrapy -h
    scrapy <command> -h

# 2 有兩種命令:其中Project-only必須切到項目文件夾下才能執行,而Global的命令則不需要
    Global commands:
        startproject #創建項目
        genspider    #創建爬蟲程序
        settings     #如果是在項目目錄下,則得到的是該項目的配置
        runspider    #運行一個獨立的python文件,不必創建項目
        shell        #scrapy shell url地址  在交互式調試,如選擇器規則正確與否
        fetch        #獨立於程單純地爬取一個頁面,可以拿到請求頭
        view         #下載完畢後直接彈出瀏覽器,以此可以分辨出哪些數據是ajax請求
        version      #scrapy version 查看scrapy的版本,scrapy version -v查看scrapy依賴庫的版本
    Project-only commands:
        crawl        #運行爬蟲,必須創建項目才行,確保配置文件中ROBOTSTXT_OBEY = False
        check        #檢測項目中有無語法錯誤
        list         #列出項目中所包含的爬蟲名
        edit         #編輯器,一般不用
        parse        #scrapy parse url地址 --callback 回調函數  #以此可以驗證我們的回調函數是否正確
        bench        #scrapy bentch壓力測試

# 3 官網鏈接
    https://docs.scrapy.org/en/latest/topics/commands.html
技術分享圖片

4 目錄結構

技術分享圖片
‘‘‘
project_name/
   scrapy.cfg
   project_name/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py
           爬蟲1.py
           爬蟲2.py
           爬蟲3.py

‘‘‘
技術分享圖片

文件說明:

  • scrapy.cfg 項目的主配置信息,用來部署scrapy時使用,爬蟲相關的配置信息在settings.py文件中。
  • items.py 設置數據存儲模板,用於結構化數據,如:Django的Model
  • pipelines 數據處理行為,如:一般結構化的數據持久化
  • settings.py 配置文件,如:遞歸的層數、並發數,延遲下載等。強調:配置文件的選項必須大寫否則視為無效,正確寫法USER_AGENT=‘xxxx‘
  • spiders 爬蟲目錄,如:創建文件,編寫爬蟲規則

註意:

1、一般創建爬蟲文件時,以網站域名命名

2、默認只能在終端執行命令,為了更便捷操作:

1 2 3 #在項目根目錄下新建:entrypoint.py from scrapy.cmdline import execute execute([‘scrapy‘, ‘crawl‘, ‘xiaohua‘])

框架基礎:spider類,選擇器,

回到頂部

二 Spider類

Spiders是定義如何抓取某個站點(或一組站點)的類,包括如何執行爬行(即跟隨鏈接)以及如何從其頁面中提取結構化數據(即抓取項目)。換句話說,Spiders是您為特定站點(或者在某些情況下,一組站點)爬網和解析頁面定義自定義行為的地方。 

技術分享圖片
‘‘‘
1、 生成初始的Requests來爬取第一個URLS,並且標識一個回調函數
     第一個請求定義在start_requests()方法內默認從start_urls列表中獲得url地址來生成Request請求,
默認的回調函數是parse方法。回調函數在下載完成返回response時自動觸發 2、 在回調函數中,解析response並且返回值 返回值可以4種: 包含解析數據的字典 Item對象 新的Request對象(新的Requests也需要指定一個回調函數) 或者是可叠代對象(包含Items或Request) 3、在回調函數中解析頁面內容 通常使用Scrapy自帶的Selectors,但很明顯你也可以使用Beutifulsoup,lxml或其他你愛用啥用啥。 4、最後,針對返回的Items對象將會被持久化到數據庫 通過Item Pipeline組件存到數據庫:https://docs.scrapy.org/en/latest/topics/item-pipeline.html#topics-item-pipeline) 或者導出到不同的文件(通過Feed exports:https://docs.scrapy.org/en/latest/topics/feed-exports.html#topics-feed-exports) ‘‘‘
技術分享圖片 回到頂部

三 選擇器

技術分享圖片
為了解釋如何使用選擇器,我們將使用Scrapy shell(提供交互式測試)和Scrapy文檔服務器中的示例頁面,

這是它的HTML代碼:

<html>
 <head>
  <base href=‘http://example.com/‘ />
  <title>Example website</title>
 </head>
 <body>
  <div id=‘images‘>
   <a href=‘image1.html‘>Name: My image 1 <br /><img src=‘image1_thumb.jpg‘ /></a>
   <a href=‘image2.html‘>Name: My image 2 <br /><img src=‘image2_thumb.jpg‘ /></a>
   <a href=‘image3.html‘>Name: My image 3 <br /><img src=‘image3_thumb.jpg‘ /></a>
   <a href=‘image4.html‘>Name: My image 4 <br /><img src=‘image4_thumb.jpg‘ /></a>
   <a href=‘image5.html‘>Name: My image 5 <br /><img src=‘image5_thumb.jpg‘ /></a>
  </div>
 </body>
</html>

首先,讓我們打開shell:

1 scrapy shell https://doc.scrapy.org/en/latest/_static/selectors-sample1.html
然後,在shell加載之後,您將獲得響應作為response shell變量,並在response.selector屬性中附加選擇器。

讓我們構建一個XPath來選擇title標簽內的文本:


>>> response.selector.xpath(‘//title/text()‘)
[<Selector (text) xpath=//title/text()>]
使用XPath和CSS查詢響應非常常見,響應包括兩個便捷快捷方式:response.xpath()和response.css():


>>> response.xpath(‘//title/text()‘)
[<Selector (text) xpath=//title/text()>]
>>> response.css(‘title::text‘)
[<Selector (text) xpath=//title/text()>]
正如你所看到的,.xpath()並且.css()方法返回一個 SelectorList實例,這是新的選擇列表。此API可用於快速選擇嵌套數據:


>>> response.css(‘img‘).xpath(‘@src‘).extract()
[u‘image1_thumb.jpg‘,
 u‘image2_thumb.jpg‘,
 u‘image3_thumb.jpg‘,
 u‘image4_thumb.jpg‘,
 u‘image5_thumb.jpg‘]
要實際提取文本數據,必須調用selector .extract() 方法,如下所示:


>>> response.xpath(‘//title/text()‘).extract()
[u‘Example website‘]
如果只想提取第一個匹配的元素,可以調用選擇器 .extract_first()

>>> response.xpath(‘//div[@id="images"]/a/text()‘).extract_first()
u‘Name: My image 1 ‘
現在我們將獲得基本URL和一些圖像鏈接:

>>> response.xpath(‘//base/@href‘).extract()
[u‘http://example.com/‘]
 
>>> response.css(‘base::attr(href)‘).extract()
[u‘http://example.com/‘]
 
>>> response.xpath(‘//a[contains(@href, "image")]/@href‘).extract()
[u‘image1.html‘,
 u‘image2.html‘,
 u‘image3.html‘,
 u‘image4.html‘,
 u‘image5.html‘]
 
>>> response.css(‘a[href*=image]::attr(href)‘).extract()
[u‘image1.html‘,
 u‘image2.html‘,
 u‘image3.html‘,
 u‘image4.html‘,
 u‘image5.html‘]
 
>>> response.xpath(‘//a[contains(@href, "image")]/img/@src‘).extract()
[u‘image1_thumb.jpg‘,
 u‘image2_thumb.jpg‘,
 u‘image3_thumb.jpg‘,
 u‘image4_thumb.jpg‘,
 u‘image5_thumb.jpg‘]
 
>>> response.css(‘a[href*=image] img::attr(src)‘).extract()
[u‘image1_thumb.jpg‘,
 u‘image2_thumb.jpg‘,
 u‘image3_thumb.jpg‘,
 u‘image4_thumb.jpg‘,
 u‘image5_thumb.jpg‘]
技術分享圖片 回到頂部

四 Item(項目)

抓取的主要目標是從非結構化源(通常是網頁)中提取結構化數據。Scrapy蜘蛛可以像Python一樣返回提取的數據。雖然方便和熟悉,但P很容易在字段名稱中輸入拼寫錯誤或返回不一致的數據,尤其是在具有許多蜘蛛的較大項目中。

為了定義通用輸出數據格式,Scrapy提供了Item類。 Item對象是用於收集抓取數據的簡單容器。它們提供類似字典的 API,並具有用於聲明其可用字段的方便語法。

1 聲明項目

使用簡單的類定義語法和Field 對象聲明項。這是一個例子:

1 2 3 4 5 6 7 import scrapy class Product(scrapy.Item): name = scrapy.Field() price = scrapy.Field() stock = scrapy.Field() last_updated = scrapy.Field(serializer=str)

註意那些熟悉Django的人會註意到Scrapy Items被宣告類似於Django Models,除了Scrapy Items更簡單,因為沒有不同字段類型的概念。

2 項目字段

Field對象用於指定每個字段的元數據。例如,last_updated上面示例中說明的字段的序列化函數。

您可以為每個字段指定任何類型的元數據。Field對象接受的值沒有限制。出於同樣的原因,沒有所有可用元數據鍵的參考列表。

Field對象中定義的每個鍵可以由不同的組件使用,只有那些組件知道它。您也可以根據Field自己的需要定義和使用項目中的任何其他鍵。

Field對象的主要目標是提供一種在一個地方定義所有字段元數據的方法。通常,行為取決於每個字段的那些組件使用某些字段鍵來配置該行為。

3 使用項目

以下是使用上面聲明的Product項目對項目執行的常見任務的一些示例 。您會註意到API與dict API非常相似。

+ View Code

4 擴展項目

您可以通過聲明原始Item的子類來擴展Items(以添加更多字段或更改某些字段的某些元數據)。

例如:

1 2 3 class DiscountedProduct(Product): discount_percent = scrapy.Field(serializer=str) discount_expiration_date = scrapy.Field()
回到頂部

五 Item PipeLine

在一個項目被蜘蛛抓取之後,它被發送到項目管道,該項目管道通過順序執行的幾個組件處理它。

每個項目管道組件(有時簡稱為“項目管道”)是一個實現簡單方法的Python類。他們收到一個項目並對其執行操作,同時決定該項目是否應該繼續通過管道或被丟棄並且不再處理。

項目管道的典型用途是:

  • cleansing HTML data
  • validating scraped data (checking that the items contain certain fields)
  • checking for duplicates (and dropping them)
  • storing the scraped item in a database

1 編寫自己的項目管道

技術分享圖片
‘‘‘
每個項管道組件都是一個必須實現以下方法的Python類:

process_item(self,項目,蜘蛛)
為每個項目管道組件調用此方法。process_item() 

必須要麽:返回帶數據的dict,返回一個Item (或任何後代類)對象,返回Twisted Deferred或引發 DropItem異常。丟棄的項目不再由其他管道組件處理。

此外,他們還可以實現以下方法:

open_spider(self,蜘蛛)
打開蜘蛛時會調用此方法。

close_spider(self,蜘蛛)
當蜘蛛關閉時調用此方法。

from_crawler(cls,crawler )
如果存在,則調用此類方法以從a創建管道實例Crawler。它必須返回管道的新實例。Crawler對象提供對所有Scrapy核心組件的訪問,
如設置和信號; 它是管道訪問它們並將其功能掛鉤到Scrapy的一種方式。
‘‘‘
技術分享圖片

2 項目管道示例

(1) 價格驗證和丟棄物品沒有價格

讓我們看看下面的假設管道,它調整 price那些不包含增值稅(price_excludes_vat屬性)的項目的屬性,並刪除那些不包含價格的項目:

+ View Code

(2) 將項目寫入JSON文件

以下管道將所有已刪除的項目(來自所有蜘蛛)存儲到一個items.jl文件中,每行包含一個以JSON格式序列化的項目:

+ View Code

註意JsonWriterPipeline的目的只是介紹如何編寫項目管道。如果您確實要將所有已刪除的項目存儲到JSON文件中,則應使用Feed導出。

(3) 將項目寫入數據庫

在這個例子中,我們將使用pymongo將項目寫入MongoDB。MongoDB地址和數據庫名稱在Scrapy設置中指定; MongoDB集合以item類命名。

這個例子的要點是展示如何使用from_crawler() 方法以及如何正確地清理資源:

+ View Code

(4) 重復過濾

一個過濾器,用於查找重復項目,並刪除已處理的項目。假設我們的項目具有唯一ID,但我們的蜘蛛會返回具有相同ID的多個項目:

+ View Code

3 激活項目管道組件

要激活Item Pipeline組件,必須將其類添加到 ITEM_PIPELINES設置中,如下例所示:

1 2 3 4 ITEM_PIPELINES = { ‘myproject.pipelines.PricePipeline‘: 300, ‘myproject.pipelines.JsonWriterPipeline‘: 800, }

您在此設置中為類分配的整數值決定了它們運行的??順序:項目從較低值到較高值類進行。習慣上在0-1000範圍內定義這些數字。

回到頂部

六 下載中間件

技術分享圖片
class MyDownMiddleware(object):
    def process_request(self, request, spider):
        """
        請求需要被下載時,經過所有下載器中間件的process_request調用
        :param request: 
        :param spider: 
        :return:  
            None,繼續後續中間件去下載;
            Response對象,停止process_request的執行,開始執行process_response
            Request對象,停止中間件的執行,將Request重新調度器
            raise IgnoreRequest異常,停止process_request的執行,開始執行process_exception
        """
        pass



    def process_response(self, request, response, spider):
        """
        spider處理完成,返回時調用
        :param response:
        :param result:
        :param spider:
        :return: 
            Response 對象:轉交給其他中間件process_response
            Request 對象:停止中間件,request會被重新調度下載
            raise IgnoreRequest 異常:調用Request.errback
        """
        print(‘response1‘)
        return response

    def process_exception(self, request, exception, spider):
        """
        當下載處理器(download handler)或 process_request() (下載中間件)拋出異常
        :param response:
        :param exception:
        :param spider:
        :return: 
            None:繼續交給後續中間件處理異常;
            Response對象:停止後續process_exception方法
            Request對象:停止中間件,request將會被重新調用下載
        """
        return None
技術分享圖片 回到頂部

七 settings配置

技術分享圖片 View Code 回到頂部

八 項目代碼

下載項目代碼

爬蟲之scrapy框架