scrapy1-安裝及創建第一個項目

阿新 • • 發佈：2017-12-24

lock 們的 img 之前 body 通過 inf cif info

https://zhuanlan.zhihu.com/p/24669128

技術分享圖片

架構概覽

各組件作用

Scrapy Engine

引擎負責控制數據流在系統中所有組件中流動，並在相應動作發生時觸發事件。詳細內容查看下面的數據流(Data Flow)部分。

此組件相當於爬蟲的“大腦”，是整個爬蟲的調度中心。

調度器(Scheduler)

調度器從引擎接受request並將他們入隊，以便之後引擎請求他們時提供給引擎。

初始的爬取URL和後續在頁面中獲取的待爬取的URL將放入調度器中，等待爬取。同時調度器會自動去除重復的URL（如果特定的URL不需要去重也可以通過設置實現，如post請求的URL）

下載器(Downloader)

下載器負責獲取頁面數據並提供給引擎，而後提供給spider。

Spiders

Spider是Scrapy用戶編寫用於分析response並提取item(即獲取到的item)或額外跟進的URL的類。每個spider負責處理一個特定(或一些)網站。

Item Pipeline

Item Pipeline負責處理被spider提取出來的item。典型的處理有清理、驗證及持久化(例如存取到數據庫中)。

當頁面被爬蟲解析所需的數據存入Item後，將被發送到項目管道(Pipeline)，並經過幾個特定的次序處理數據，最後存入本地文件或存入數據庫。

下載器中間件(Downloader middlewares)

下載器中間件是在引擎及下載器之間的特定鉤子(specific hook)，處理Downloader傳遞給引擎的response。其提供了一個簡便的機制，通過插入自定義代碼來擴展Scrapy功能。

通過設置下載器中間件可以實現爬蟲自動更換user-agent、IP等功能。

Spider中間件(Spider middlewares)

Spider中間件是在引擎及Spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。其提供了一個簡便的機制，通過插入自定義代碼來擴展Scrapy功能。

數據流(Data flow)

引擎打開一個網站(open a domain)，找到處理該網站的Spider並向該spider請求第一個要爬取的URL(s)。

引擎從Spider中獲取到第一個要爬取的URL並在調度器(Scheduler)以Request調度。

引擎向調度器請求下一個要爬取的URL。

調度器返回下一個要爬取的URL給引擎，引擎將URL通過下載中間件(請求(request)方向)轉發給下載器(Downloader)。

一旦頁面下載完畢，下載器生成一個該頁面的Response，並將其通過下載中間件(返回(response)方向)發送給引擎。

引擎從下載器中接收到Response並通過Spider中間件(輸入方向)發送給Spider處理。

Spider處理Response並返回爬取到的Item及(跟進的)新的Request給引擎。

引擎將(Spider返回的)爬取到的Item給Item Pipeline，將(Spider返回的)Request給調度器。

(從第二步)重復直到調度器中沒有更多地request，引擎關閉該網站。

1. 安裝scrapy

cmd 管理員權限進去

pip install scrapy 會出錯

用conda install scrapy 安裝，解決依賴關系，成功安裝

2.創建爬蟲項目

在桌面上創建一個Python_project文件夾

cmd 切換目錄到Python_project文件夾

在開始爬取之前，首先要創建一個新的Scrapy項目。這裏以爬取我的博客為例，進入你打算存儲代碼的目錄中，運行下列命令:

crapy startproject scrapyspider

然後就會生成scrapyspider文件到Python_project文件夾裏

該命令將會創建包含下列內容的scrapyspider目錄:

scrapyspider/
    scrapy.cfg
    scrapyspider/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

這些文件分別是:

scrapy.cfg: 項目的配置文件。
scrapyspider/: 該項目的python模塊。之後您將在此加入代碼。
scrapyspider/items.py: 項目中的item文件。
scrapyspider/pipelines.py: 項目中的pipelines文件。
scrapyspider/settings.py: 項目的設置文件。
scrapyspider/spiders/: 放置spider代碼的目錄。

技術分享圖片

3.編寫第一個爬蟲(Spider)

Spider是用戶編寫用於從單個網站(或者一些網站)爬取數據的類。

其包含了一個用於下載的初始URL，如何跟進網頁中的鏈接以及如何分析頁面中的內容，提取生成 item 的方法。

為了創建一個Spider，您必須繼承 scrapy.Spider 類，且定義以下三個屬性:

name: 用於區別Spider。該名字必須是唯一的，您不可以為不同的Spider設定相同的名字。

start_urls: 包含了Spider在啟動時進行爬取的url列表。因此，第一個被獲取到的頁面將是其中之一。後續的URL則從初始的URL獲取到的數據中提取。

parse() 是spider的一個方法。被調用時，每個初始URL完成下載後生成的 Response 對象將會作為唯一的參數傳遞給該函數。該方法負責解析返回的數據(response data)，提取數據(生成item)以及生成需要進一步處理的URL的 Request 對象。

以下為我們的第一個Spider代碼，保存在scrapyspider/spiders目錄下的blog_spider.py文件中:

技術分享圖片

from scrapy.spiders import Spider


class BlogSpider(Spider):
    name = ‘woodenrobot‘
    start_urls = [‘http://woodenrobot.me‘]

    def parse(self, response):
        titles = response.xpath(‘//a[@class="post-title-link"]/text()‘).extract()
        for title in titles:
            print title.strip()

4.啟動爬蟲

打開終端進入項目所在路徑(即:scrapyspider路徑下)運行下列命令：

scrapy crawl woodenrobot

　啟動爬蟲後就可以看到打印出來當前頁所有文章標題了。

技術分享圖片

scrapy1-安裝及創建第一個項目

lock 們的 img 之前 body 通過 inf cif info https://zhuanlan.zhihu.com/p/24669128 架構概覽各組件作用 Scrapy Engine 引擎負責控制數據流在系統中所有組件中流動，並在相應動作發生時

quick-cocos2d-x教程1:在window上創建第一個項目文件夾，並制作helloworld

項目編碼 rip pla 命令模式 utf-8 cape tps quick 說明：此教程是針對cocos2dx 2.0系列的，3.0的版本號，如今還沒有公布出來。 1）首先從github.com把這個項目下載到本地。然後裝到d盤的根文件夾，並設置文件夾路徑為d:\

cocos2d-x_下載遊戲引擎並創建第一個項目

rom 代碼 setting col file load setup 桌面目錄我是一名小白。下載並創建遊戲項目第一步：去官網下載cocos2d-x http://www.cocos.com/download 第二步：將安裝包裏邊的 setup.

【3】Django創建第一個項目

lock 成功更新 onf mys 細節問題 resp ef6 如果天地所以能長且久者，以其不自生，故能長生。 ——老子《道德經》寫在前面：Django在學習的過程中，我們會參考官方文檔，從兩部分進行講解，第一部分主要是一個入門項目的搭建開發，第二部分是核心的講解。

安裝Vue 及創建一個Vue 項目

uid 輸出創建 ref 意思 htm install 之前 ejs 創建一個Vue項目首先要先安裝node 及 npm 詳情見【http://www.cnblogs.com/ylboke/p/8342116.html 】及【http://www.cnblogs.c

iOS 同一個workspace下創建多個項目編程

alt www. nbsp ios開發 com 習慣 set 目標 workspace 在iOS開發中，相關聯的多個項目可能會放在同一個workspace下進行開發，那習慣了一個項目在一個工作空間下的同學該怎麽快速開擼呢? 只需要三步而已！第一步，先用Xcode在目標目錄

01 在IDEA的同一目錄下創建多個項目

.com 兩個 img info 實現創建 reat 選擇直接 1.打開IDEA,點擊Create New Project 2.選擇左邊的Empty Project,點擊next,創建一個空白的項目 3.給項目根目錄命名，並選擇項目存放路徑　　此時會彈出一個對話

11. IDEA 在同一工作空間創建多個項目

工作空間分享圖片 ide 多個 ima bubuko vat 結構 work 1.創建項目二.、創建工作空間 JavaWorkspace 1、File-> New Project -> 創建工作空間 JavaWorkspace，並順便創建項目 JavaO

二、PyCharm 創建Django 第一個項目

com nbsp 刪除 project 令行 wsgi return size sgi PyCharm 下創建Django項目 File->New Project->Django 目錄說明： dj: 項目的容器。 manage.py: 一個

JavaScript-創建第一個自己的類庫

spa 內部 man efi i++ ont 基礎上 ner dev 通過上一節面向對象和原型的學習。我們知道了怎樣創建一個類，包含類的私有化屬性和方法、公有化屬性和方法、靜態屬性和方法。在這裏略微回想一下。首先要創建一個類能夠通過1.new obj

Eclipse創建Maven-Web項目及解決 jre版本和web.xml版本問題

edit ctype 去掉 ble rip java se alt .com group Eclipse 通過 Maven 建立 SSM 框架項目（web項目）時，默認的web.xml文件版本為 2.3，jre版本為 1.5；在修改其版本遇到了各種問題例如： web.

一、WCF學習之旅-創建第一個服務

img image pub 頁面添加服務 ets art idt null WCF基本介紹：http://baike.baidu.com/link?url=TGjLYt3HS4dt4-hIiGRknLy6udRsZ52QxJz9cmRKlR4NXbP9rCZDsKn2fD

創建第一個簡單的AI分類器

[0 找到 predict ont 簡單 ear 蘋果規律函數 from sklearn import tree# 第一個簡單的分類器features = [[140, 1], [130, 1], [150, 0], [170, 0]] #列表左邊的變量代表水果的重量，

Sqlite初識（Sqlite下載安裝及創建數據庫方法）

還要 -a 執行現在 struct ble alt 源代碼系統界面和MYSQL一樣，都是CMD界面，但不是在SQLite.exe中創建數據庫：首先還是說一下cmd下sqlite的使用網上已經很多了、不做過多的贅述。大致說一下相應的命令就行了、作為學習sqlite的一

Django學習1---安裝Django，創建、啟動項目

django 最近在自己獨立開發一套運維管理系統，在一些python的web框架中選擇了Django進行開發，在這裏把開發過程中的一些操作記錄下來，供自己回顧，也供初學django的朋友們參考！本例是基於python3.6版本，Django1.11.7版本。安裝Django：# pip inst

pyqt（二）創建第一個程序（helloworld）

存在 == () 目錄控制 family 發的 sta port 1.運行Qt Creator QtCreator主界面分為了6個模式：歡迎模式、編輯模式、設計模式、Debug調試模式、項目模式和幫助模式，分別由左側的6個圖標進行切換，對應的快捷鍵是Ctrl +

Eclipse 創建Maven scala 項目安裝並解決加載項目類型慢的問題

不能創建還需 ffffff 加載 mave clip pda epo 使用Eclipse 構建maven scala 項目1、先安裝Scala IDE ,Help-->Eclipse Marketplace--->輸入 scala --> Insta

IntelliJ IDEA 2017.3 創建多Module項目時，右邊欄出現多個root模塊的問題。如圖。

tel modules 新建努力 bsp png 結果 int 配置我新建了一個項目，裏面有三個模塊(Module)，結果建好後，出現了三個root。然後我發現主模塊的pom文件，包含這樣一段配置 <modules> <module&g

vmware workstation虛擬環境安裝及創建虛擬機

python vmware workstation 虛擬化一、學習環境搭建 vmware workstation虛擬機軟件的介紹是一款虛擬化軟件，借助 VMware Workstation Pro，您可以將多個操作系統作為虛擬機（包括 Windows 虛擬機）在單臺 Windows 或 L

vue2.0-下載安裝vue,搭建第一個項目

下一步安裝 msi guid class 名稱 pac IE 管理 Vue.js 是什麽 Vue (讀音 /vju?/，類似於 view) 是一套用於構建用戶界面的漸進式框架。與其它大型框架不同的是，Vue 被設計為可以自底向上逐層應用。Vue 的核心庫只關註視圖層，不僅

scrapy1-安裝及創建第一個項目

架構概覽

各組件作用

Scrapy Engine

調度器(Scheduler)

下載器(Downloader)

Spiders

Item Pipeline

下載器中間件(Downloader middlewares)

Spider中間件(Spider middlewares)

數據流(Data flow)

3.編寫第一個爬蟲(Spider)

4.啟動爬蟲

相關推薦