本文希望達到以下目標:

簡要介紹Scarpy
閱讀官網入門文件並實現文件中的範例
使用Scarpy優豆瓣爬蟲的抓取
制定下一步學習目標

初學Scrapy, 如有翻譯不當, 或者程式碼錯誤, 請指出, 非常感謝

1. Scrapy簡介

Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。
其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的資料(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試

Scrapy 使用了 Twisted非同步網路庫來處理網路通訊。整體架構大致如下

Scrapy

Scrapy主要包括了以下元件：

引擎(Scrapy): 用來處理整個系統的資料流處理, 觸發事務(框架核心)
排程器(Scheduler): 用來接受引擎發過來的請求, 壓入佇列中, 並在引擎再次請求的時候返回. 可以想像成一個URL（抓取網頁的網址或者說是連結）的優先佇列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址
下載器(Downloader): 用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)
爬蟲(Spiders): 爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的資訊, 即所謂的實體(Item)。使用者也可以從中提取出連結,讓Scrapy繼續抓取下一個頁面

專案管道(Pipeline): 負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的資訊。當頁面被爬蟲解析後，將被髮送到專案管道，並經過幾個特定的次序處理資料。
下載器中介軟體(Downloader Middlewares): 位於Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請求及響應。
爬蟲中介軟體(Spider Middlewares): 介於Scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。
排程中介軟體(Scheduler Middewares): 介於Scrapy引擎和排程之間的中介軟體，從Scrapy引擎傳送到排程的請求和響應。

Scrapy執行流程大概如下：

首先，引擎從排程器中取出一個連結(URL)用於接下來的抓取
引擎把URL封裝成一個請求(Request)傳給下載器，下載器把資源下載下來，並封裝成應答包(Response)
然後，爬蟲解析Response
若是解析出實體（Item）,則交給實體管道進行進一步的處理。
若是解析出的是連結（URL）,則把URL交給Scheduler等待抓取

2. 安裝Scrapy

使用以下命令:

Python

sudo pip install virtualenv  #安裝虛擬環境工具
virtualenv ENV  #建立一個虛擬環境目錄
source ./ENV/bin/active  #啟用虛擬環境
pip install Scrapy
#驗證是否安裝成功
pip list
#輸出如下
cffi (0.8.6)
cryptography (0.6.1)
cssselect (0.9.1)
lxml (3.4.1)
pip (1.5.6)
pycparser (2.10)
pyOpenSSL (0.14)
queuelib (1.2.2)
Scrapy (0.24.4)
setuptools (3.6)
six (1.8.0)
Twisted (14.0.2)
w3lib (1.10.0)
wsgiref (0.1.2)
zope.interface (4.1.1)

12345678910111213141516171819202122

sudo pip install virtualenv#安裝虛擬環境工具virtualenv ENV#建立一個虛擬環境目錄source./ENV/bin/active#啟用虛擬環境pip install Scrapy#驗證是否安裝成功pip list#輸出如下cffi(0.8.6)cryptography(0.6.1)cssselect(0.9.1)lxml(3.4.1)pip(1.5.6)pycparser(2.10)pyOpenSSL(0.14)queuelib(1.2.2)Scrapy(0.24.4)setuptools(3.6)six(1.8.0)Twisted(14.0.2)w3lib(1.10.0)wsgiref(0.1.2)zope.interface(4.1.1)

3. Scrapy Tutorial

在抓取之前, 你需要新建一個Scrapy工程. 進入一個你想用來儲存程式碼的目錄，然後執行：

Python

$ scrapy startproject tutorial

1	$scrapy startproject tutorial

這個命令會在當前目錄下建立一個新目錄 tutorial, 它的結構如下:

Python

.
├── scrapy.cfg
└── tutorial
    ├── __init__.py
    ├── items.py
    ├── pipelines.py
    ├── settings.py
    └── spiders
        └── __init__.py

123456789

.├──scrapy.cfg└──tutorial├──__init__.py├──items.py├──pipelines.py├──settings.py└──spiders└──__init__.py

這些檔案主要是：

scrapy.cfg: 專案配置檔案
tutorial/: 專案python模組, 之後您將在此加入程式碼
tutorial/items.py: 專案items檔案
tutorial/pipelines.py: 專案管道檔案
tutorial/settings.py: 專案配置檔案
tutorial/spiders: 放置spider的目錄

3.1. 定義Item

Items是將要裝載抓取的資料的容器，它工作方式像 python 裡面的字典，但它提供更多的保護，比如對未定義的欄位填充以防止拼寫錯誤。

通過建立scrapy.Item類, 並且定義型別為 scrapy.Field 的類屬性來宣告一個Item.

我們通過將需要的item模型化，來控制從 dmoz.org 獲得的站點資料，比如我們要獲得站點的名字，url 和網站描述，我們定義這三種屬性的域。在 tutorial 目錄下的 items.py 檔案編輯

Python

from scrapy.item import Item, Field


class DmozItem(Item):
    # define the fields for your item here like:
    name = Field()
    description = Field()
    url = Field()

12345678

fromscrapy.item importItem,FieldclassDmozItem(Item):# define the fields for your item here like:name=Field()description=Field()url=Field()

3.2. 編寫Spider

Spider 是使用者編寫的類, 用於從一個域（或域組）中抓取資訊, 定義了用於下載的URL的初步列表, 如何跟蹤連結，以及如何來解析這些網頁的內容用於提取items。

要建立一個 Spider，繼承 scrapy.Spider 基類，並確定三個主要的、強制的屬性：

name：爬蟲的識別名，它必須是唯一的，在不同的爬蟲中你必須定義不同的名字.
start_urls：包含了Spider在啟動時進行爬取的url列表。因此，第一個被獲取到的頁面將是其中之一。後續的URL則從初始的URL獲取到的資料中提取。我們可以利用正則表示式定義和過濾需要進行跟進的連結。
parse()：是spider的一個方法。被呼叫時，每個初始URL完成下載後生成的 Response 物件將會作為唯一的引數傳遞給該函式。該方法負責解析返回的資料(response data)，提取資料(生成item)以及生成需要進一步處理的URL的 Request 物件。

這個方法負責解析返回的資料、匹配抓取的資料(解析為 item )並跟蹤更多的 URL。

在 /tutorial/tutorial/spiders 目錄下建立 dmoz_spider.py

Python

import scrapy

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        filename = response.url.split("/")[-2]
        with open(filename, 'wb') as f:
            f.write(response.body)

1234567891011121314

importscrapyclassDmozSpider(scrapy.Spider):name="dmoz"allowed_domains=["dmoz.org"]start_urls=["http://www.dmoz.org/Computers/Programming/Languages/Python/Books/","http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"]defparse(self,response):filename=response.url.split("/")[-2]withopen(filename,'wb')asf:f.write(response.body)

3.3. 爬取

當前專案結構

Python

├── scrapy.cfg
└── tutorial
    ├── __init__.py
    ├── items.py
    ├── pipelines.py
    ├── settings.py
    └── spiders
        ├── __init__.py
        └── dmoz_spider.py

123456789

├──scrapy.cfg└──tutorial├──__init__.py├──items.py├──pipelines.py├──settings.py└──spiders├──__init__.py└──dmoz_spider.py

到專案根目錄, 然後執行命令:

Python

$ scrapy crawl dmoz

1	$scrapy crawl dmoz

執行結果:

Python

2014-12-15 09:30:59+0800 [scrapy] INFO: Scrapy 0.24.4 started (bot: tutorial)
2014-12-15 09:30:59+0800 [scrapy] INFO: Optional features available: ssl, http11
2014-12-15 09:30:59+0800 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'tutorial.spiders', 'SPIDER_MODULES': ['tutorial.spiders'], 'BOT_NAME': 'tutorial'}
2014-12-15 09:30:59+0800 [scrapy] INFO: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState
2014-12-15 09:30:59+0800 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2014-12-15 09:30:59+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2014-12-15 09:30:59+0800 [scrapy] INFO: Enabled item pipelines:
2014-12-15 09:30:59+0800 [dmoz] INFO: Spider opened
2014-12-15 09:30:59+0800 [dmoz] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2014-12-15 09:30:59+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2014-12-15 09:30:59+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080
2014-12-15 09:31:00+0800 [dmoz] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2014-12-15 09:31:00+0800 [dmoz] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2014-12-15 09:31:00+0800 [dmoz] INFO: Closing spider (finished)
2014-12-15 09:31:00+0800 [dmoz] INFO: Dumping Scrapy stats:
    {'downloader/request_bytes': 516,
     'downloader/request_count': 2,
     'downloader/request_method_count/GET': 2,
     'downloader/response_bytes': 16338,
     'downloader/response_count': 2,
     'downloader/response_status_count/200': 2,
     'finish_reason': 'finished',
     'finish_time': datetime.datetime(2014, 12, 15, 1, 31, 0, 666214),
     'log_count/DEBUG': 4,
     'log_count/INFO': 7,
     'response_received_count': 2,
     'scheduler/dequeued': 2,
     'scheduler/dequeued/memory': 2,
     'scheduler/enqueued': 2,
     'scheduler/enqueued/memory': 2,
     'start_time': datetime.datetime(2014, 12, 15, 1, 30, 59, 533207)}
2014-12-15 09:31:00+0800 [dmoz] INFO: Spider closed (finished)

1234567891011121314151617181920212223242526272829303132

2014-12-1509:30:59+0800[scrapy]INFO:Scrapy0.24.4started(bot:tutorial)2014-12-1509:30:59+0800[scrapy]INFO:Optional features available:ssl,http112014-12-1509:30:59+0800[scrapy]INFO:Overridden settings:{'NEWSPIDER_MODULE':'tutorial.spiders','SPIDER_MODULES':['tutorial.spiders'],'BOT_NAME':'tutorial'}2014-12-1509:30:59+0800[scrapy]INFO:Enabled extensions:LogStats,TelnetConsole,CloseSpider,WebService,CoreStats,SpiderState2014-12-1509:30:59+0800[scrapy]INFO:Enabled downloader middlewares:HttpAuthMiddleware,DownloadTimeoutMiddleware,UserAgentMiddleware,RetryMiddleware,DefaultHeadersMiddleware,MetaRefreshMiddleware,HttpCompressionMiddleware,RedirectMiddleware,CookiesMiddleware,ChunkedTransferMiddleware,DownloaderStats2014-12-1509:30:59+0800[scrapy]INFO:Enabled spider middlewares:HttpErrorMiddleware,OffsiteMiddleware,RefererMiddleware,UrlLengthMiddleware,DepthMiddleware2014-12-1509:30:59+0800[scrapy]INFO:Enabled item pipelines:2014-12-1509:30:59+0800[dmoz]INFO:Spider opened2014-12-1509:30:59+0800[dmoz]INFO:Crawled0pages(at0pages/min),scraped0items(at0items/min)2014-12-1509:30:59+0800[scrapy]DEBUG:Telnet console listening on127.0.0.1:60232014-12-1509:30:59+0800[scrapy]DEBUG:Web service listening on127.0.0.1:60802014-12-1509:31:00+0800[dmoz]DEBUG:Crawled(200)<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/>(referer:None)2014-12-1509:31:00+0800[dmoz]DEBUG:Crawled(200)<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>(referer:None)2014-12-1509:31:00+0800[dmoz]INFO:Closing spider(finished)2014-12-1509:31:00+0800[dmoz]INFO:Dumping Scrapy stats:{'downloader/request_bytes':516,'downloader/request_count':2,'downloader/request_method_count/GET':2,'downloader/response_bytes':16338,'downloader/response_count':2,'downloader/response_status_count/200':2,'finish_reason':'finished','finish_time':datetime.datetime(2014,12,15,1,31,0,666214),'log_count/DEBUG':4,'log_count/INFO':7,'response_received_count':2,'scheduler/dequeued':2,'scheduler/dequeued/memory':2,'scheduler/enqueued':2,'scheduler/enqueued/memory':2,'start_time':datetime.datetime(2014,12,15,1,30,59,533207)}2014-12-1509:31:00+0800[dmoz]INFO:Spider closed(finished)

3.4. 提取Items

3.4.1. 介紹Selector

從網頁中提取資料有很多方法。Scrapy使用了一種基於 XPath 或者 CSS 表示式機制： Scrapy Selectors

出XPath表示式的例子及對應的含義:

/html/head/title: 選擇HTML文件中標籤內的元素
/html/head/title/text(): 選擇元素內的文字
//td: 選擇所有的元素
//div[@class=”mine”]: 選擇所有具有

相關推薦

Python 爬蟲 (六) -- Scrapy 框架學習

本文希望達到以下目標: 簡要介紹Scarpy 閱讀官網入門文件並實現文件中的範例使用Scarpy優豆瓣爬蟲的抓取制定下一步學習目標初學Scrapy, 如有翻譯不當, 或者程式碼錯誤, 請指出, 非常感謝 1. Scrapy簡介 Scrapy是一個為了爬取網站資料，提

爬蟲系列---Scrapy框架學習

產生 follow everyone 頁面 pos per iso select -s 項目的需求需要爬蟲某網的商品信息，自己通過Requests,BeautifulSoup等編寫了一個spider，把抓取的數據存到數據庫裏面。跑起來的感覺速度有點慢，尤其是進入詳情頁

python爬蟲中scrapy框架是否安裝成功及簡單建立

判斷框架是否安裝成功，在新建的爬蟲資料夾下開啟碟符中框輸入cmd，在命令中輸入scrapy，若顯示如下圖所示，則說明成功安裝爬蟲框架：檢視當前版本：在剛剛開啟的命令框內輸入scrapy version，如下圖顯示：在cmd中啟動一個工程名：例：在

python爬蟲：scrapy框架xpath和css選擇器語法

Xpath基本語法一、常用的路徑表示式：表示式描述例項 nodename 選取nodename節點的所有子節點 //div / 從根節點選取

Python爬蟲：Scrapy框架基礎框架結構及騰訊爬取

Scrapy終端是一個互動終端，我們可以在未啟動spider的情況下嘗試及除錯程式碼，也可以用來測試XPath或CSS表示式，檢視他們的工作方式，方便我們爬取的網頁中提取的資料。如果安裝了 IPython ，Scrapy終端將使用 IPython (替代標準Python終端)。 IPytho

Python爬蟲之scrapy框架爬蟲步驟

1.先建立一個資料夾用來執行整個爬蟲專案 2.在PowerShell 中：cd 進入資料夾所在位置 3.通過scrapy 命令建立爬蟲專案： scrapy startprojec

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

python爬蟲之Scrapy框架中的Item Pipeline用法

RoCE 執行 ise inf 優先執行 sin .com 如果 ica 當Item在Spider中被收集之後, 就會被傳遞到Item Pipeline中進行處理. 每個item pipeline組件是實現了簡單的方法的python類, 負責接收到item並通過它執行一些

python爬蟲之Scrapy框架:兩種隨機選擇User-Agent的方法

修改請求時的User-Agent一般有兩種思路:一是修改setting中的User-Agent變數(適用於極少量的agent更換,一般不採用);另一種就是通過Downloader Middleware的process_request()方法來修改,即在middlewares.

Python爬蟲：scrapy框架Spider類引數設定

Spider設定引數說明示例 name 爬蟲名稱，必須唯一 name = “myspider” handle_httpstatus_list 需要

Python爬蟲之Scrapy框架的UA池和代理池

loader 代理 user 4.5 fill 中間件 5.1 html linu 一下載Scrapy的下載中間件下載中間件（Downloader Middlewares）位於scrapy引擎和下載器之間的一層組件。下載中間件的作用：（1）引擎請求傳遞給下載器的

python爬蟲之Scrapy框架（CrawSpider）

.com xxx desc rule 解析 pic ide 自動繼承需求想要爬去糗事百科全站的數據方法：（1）基於Scrapy框架中的Spider的遞歸爬去實現（2）基於Scrapy框架的CrawlSpider的自動爬取來進行實現那麽CrawlSpider又

python爬蟲入門(六) Scrapy框架之原理介紹

Scrapy框架 Scrapy簡介 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy 使用了 Twi

python爬蟲—使用scrapy爬蟲框架

pywin32 rip for 鏈接是把 ror sdn 成功 repl 問題1.使用scrapy框架，使用命令提示符pip命令下載scrapy後，卻無法使用scrapy命令，出現scrapy不是內部或外部命令。也不是可運行的程序解決：一開始，我是把python安裝在

2018 - Python 3.7 爬蟲之 Scrapy 框架的安裝及配置（一）

一，安裝 Python3.7 二，安裝 pip 三，安裝 pywin32 四，安裝 pyOpenSSL 五，安裝 lxml 六，安裝 zope.interface 七，安裝 twisted 八，安裝 Scrapy 九，一鍵升級所有庫，Python 3.7親測可用，建立

[爬蟲入門]Python中使用scrapy框架實現圖片爬取

轉載： https://www.jianshu.com/p/c1704b4dc04d 連結中作者寫的十分詳細，雖然示例中的網站已經無法訪問，但是零基礎效仿也能試著自己做！真的很良心的文章，作為零基礎入門的小白可以靠看註釋和函式關係猜測出函式用法

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

引入提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞迴爬取進行實現（Request模組遞歸回調parse方法）。方法二：基於CrawlSpider的自動爬取進行實現（更加簡潔和高效）。今日概

18、python網路爬蟲之Scrapy框架中的CrawlSpider詳解

正則 art _id 糗事百科 put pytho 切換 ron 提交 CrawlSpider的引入：　　　　提問：如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？　　方法一：基於Scrapy框架中的Spider的遞歸爬取進行實現（Reque

Python網絡爬蟲之Scrapy框架（CrawlSpider）

setting ref 網頁 del tle python網絡 yield 介紹 import 目錄 Python網絡爬蟲之Scrapy框架（CrawlSpider） CrawlSpider使用

python爬蟲入門-Scrapy的安裝

命令集成 ssl tool sta python2 執行成功 pytho 下載集成包鏈接：http://pan.baidu.com/s/1pKD2zBP 密碼：f75b因為沒有支持python3的Scrapy,所以這裏采用python2.7.9安裝步驟：1.安裝pyth

Python 爬蟲 (六) -- Scrapy 框架學習

1. Scrapy簡介

2. 安裝Scrapy

3. Scrapy Tutorial

3.1. 定義Item

3.2. 編寫Spider

3.3. 爬取

3.4. 提取Items

3.4.1. 介紹Selector

相關推薦