scrapy爬蟲框架簡單入門例項（一）

阿新 • • 發佈：2018-11-27

scrapy是一個用於爬取網站資料，提取結構性資料的python應用框架。爬取的資料一般用於資料分析，資料處理，儲存歷史資料等。scrapy的整體架構大致如下：

主要包括了以下元件：

引擎(Scrapy)
用來處理整個系統的資料流, 觸發事務(框架核心)
排程器(Scheduler)
用來接受引擎發過來的請求, 壓入佇列中, 並在引擎再次請求的時候返回. 可以想像成一個URL（抓取網頁的網址或者說是連結）的優先佇列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址
下載器(Downloader)
用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)
爬蟲(Spiders)
爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的資訊, 即所謂的實體(Item)。使用者也可以從中提取出連結,讓Scrapy繼續抓取下一個頁面
專案管道(Pipeline)
負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的資訊。當頁面被爬蟲解析後，將被髮送到專案管道，並經過幾個特定的次序處理資料。
下載器中介軟體(Downloader Middlewares)
位於Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請求及響應。
爬蟲中介軟體(Spider Middlewares)
介於Scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。
排程中介軟體(Scheduler Middewares)
介於Scrapy引擎和排程之間的中介軟體，從Scrapy引擎傳送到排程的請求和響應。

scrapy執行流程大概如下：

引擎從排程器中取出一個連結(URL)用於接下來的抓取
引擎把URL封裝成一個請求(Request)傳給下載器
下載器把資源下載下來，並封裝成應答包(Response)
爬蟲解析Response
解析出實體（Item）,則交給實體管道進行進一步的處理
解析出的是連結（URL）,則把URL交給排程器等待抓取

---------------------------------------------------------------------------------------------------------------------------------------------------

紙上得來終覺淺，絕知此事要躬行。安裝好scrapy框架後直接寫一個例項吧，首先在你想儲存專案程式碼的目錄下執行如下命令：

scrapy startproject '你的專案名稱'

現在已經建立了一個爬蟲專案，但是還需要建立一個爬蟲程式，繼續執行如下命令：（一般建立爬蟲檔案時，以網站域名命名）

cd '剛才建立的專案名稱'
scrapy genspider '爬蟲名稱'

建立的目錄及檔案：

scrapy.cfg 專案的配置資訊，主要為scrapy命令列工具提供一個基礎的配置資訊。（真正爬蟲相關的配置資訊在settings.py檔案中）
items.py 設定資料儲存模板，用於結構化資料。
pipelines 資料處理行為，如：儲存資料寫入檔案
settings.py 配置檔案，如：遞迴的層數、併發數，延遲下載等
spiders 爬蟲目錄，如：建立檔案，編寫爬蟲規則

好了，基本工作都做完了，現在分析一下要爬取的目標網站，這裡我選擇新浪的雙色球網站，爬取指定期數的雙色球中獎號資料；這裡涉及到一個表單提交，用瀏覽器抓一下請求看看提交的地址和欄位：

開始編寫爬蟲，定義一個Spider，只需繼承scrapy.Spider類並定於一些屬性：

（開啟在"專案名稱"/spiders資料夾下面的"建立的爬蟲".py）

name: Spider名稱，必須是唯一的
start_urls: 初始化下載連結URL
parse(): 用來解析下載後的Response物件，Response也是這個方法的唯一引數。它負責解析返回頁面資料並提取出相應的Item（返回Item物件），還有其他合法的連結URL（返回Request物件）。

class SsqSpider(scrapy.Spider):
    name = 'ssq'
    allowed_domains = ['http://zst.aicai.com/ssq/']  # 爬取域名
    # start_urls = ['http://zst.aicai.com/ssq/']
    # 爬取網址,只適於不需要提交cookie的網站，因為沒法設定cookie等資訊
    scope_date = [['2012001', '2014200'], [
        '2015001', '2017200'], ['2018001', '2018130']]

    # 設定瀏覽器使用者代理
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}

    def start_requests(self):
        # 第一次請求頁面，設定開啟cookie使其得到cookie，設定回撥函式
        return [Request('http://zst.aicai.com/ssq/', meta={'cookiejar': 1}, callback=self.parse)]

    def parse(self, response):
        print('請求頭資訊')
        print(response.request.headers)
        print('響應頭資訊')
        print(response.headers)
        print(response.status)
        print('---Cookie---')
        # 請求Cookie
        request_Cookie = response.request.headers.getlist('Cookie')
        print(request_Cookie)
        # 響應Cookie
        response_Cookie = response.headers.getlist('Set-Cookie')
        print(response_Cookie)
        print('---end---')

現在可以執行爬蟲檢視返回的Response物件了，執行命令：

scrapy crawl '爬蟲名稱'

後面的文章再繼續介紹，從Response物件中提取出我們需要的Item資料物件。

scrapy爬蟲框架簡單入門例項（一）

scrapy是一個用於爬取網站資料，提取結構性資料的python應用框架。爬取的資料一般用於資料分析，資料處理，儲存歷史資料等。scrapy的整體架構大致如下：主要包括了以下元件：引擎(Scrapy) 用來處理整個系統的資料流, 觸發事務(框架核心) 排程器(

scrapy爬蟲框架簡單入門例項（二）

接著上一篇文章，我們已經可以用爬蟲訪問目標網站爬取頁面了，現在需要自動提交表單查詢資料，並且從頁面中篩選出每期中獎號碼儲存為json檔案匯出。首先建立一個scrapy.Item類（開啟專案資料夾下的items.py檔案）： import scrapy class SsqSpiderIte

hibernate簡單入門教程（一）---------基本配置

應用級別所以很粗淺首先介紹一下hibernate框架： 1.優秀的持久化（通俗講把記憶體上的短時間執行資訊儲存在持久化硬碟上）框架。 2.作用於持久層，因為沒什麼侵入性，所以同樣適用於其他層面上的儲存 3.高度整合jdbc，簡化了很多jdbc的操作。比如查詢，比如儲存 4.二級快取。快取一部分所查

OrmLite框架 —— OrmLite 入門使用（一）

OrmLite 三篇文章簡介本片文章主要是針對 Android 使用 OrmLite 框架對資料庫的基本操介紹，如有那些地方介紹的不對，請指出來，一起學習，一起進步。新增 OrmLite 包向工程中新增 OrmLite jar 包有兩

npm的安裝及Vue.js2.0從入門到放棄---入門例項（一）

下載地址：http://nodejs.cn/download/ https://nodejs.org/en/download/ 兩者都可以安裝node.js從node.js官網下載並安裝node，安裝過程很簡單，一路“下一步”就可以了（傻瓜式安裝）。安裝完成之後，開啟命令列

JAVA Socket模擬簡單通訊例項（一）

什麼是Sokcet？ Socket就是套接字，說白了就是連結的一端。建立網路通訊的雙方，都有一個socket，每一個socket都儲存有一個此次通訊需要的資料，例如對方的網路地址，埠號等。有了網路地址，就可以在網路中找到那個需要連線的機器，有了埠號，就知道連結對

Python Scrapy 爬蟲框架例項（一）

之前有介紹 scrapy 的相關知識，但是沒有介紹相關例項，在這裡做個小例，供大家參考學習。注：後續不強調python 版本，預設即為python3.x。爬取目標這裡簡單找一個圖片網站，獲取圖片的先關資訊。該網站網址： http://www.58pic.com/c/ 建立專案終端命令列執

小白學 Python 爬蟲（33）：爬蟲框架 Scrapy 入門基礎（一）

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

Maven入門實戰（一）——MVN的安裝、配置、生命週期、簡單入門例項和建立父/子工程

1 Maven簡介 Maven是Apache旗下的一個開源專案，是純Java開發的一個專案管理工具，並且只是用來管理Java專案的。 1.1 Maven的好處 1）Maven專案佔用容量小同樣的一個專案，如果是用Maven構建的話，專案的大小要小得多。（這是由於Ma

scrapy框架 - 入門使用（一）

目標掌握如何建立專案掌握如何建立爬蟲熟悉建立專案後每個檔案的作用掌握pipeline的使用掌握scrapy中logging的使用 1 scrapy專案實現流程建立一個scrapy專案：scrapy startproject myS

scrapy爬蟲框架簡單例項

宣告：初學scrapy，總結學習內容。目錄四、測試一、安裝scrapy pip install scrapy 二、建立工程 scrapy startproject mySpider #建立scra

【Node.js Koa框架入門】（一）Koa 框架介紹以及環境搭建、簡單使用

一、框架介紹 Koa -- 基於 Node.js 平臺的下一代 web 開發框架 koa是由 Express 原班人馬打造的，致力於成為一個更小、更富有表現力、更健壯的 Web 框架。使用 koa 編寫 web 應用，可以免除重複繁瑣的回撥函式巢狀，並極大地提升錯誤

asp webForm 三層框架的簡單例項（一）未完待續--

Note：本文主要通過簡單的例項引導初學者對webForm 三層框架的一個入門，其中也是個自學獲得的理解，難免與大神有出入，敬請批評指導。一、引言 webForm是asp.net 其中的一種web開發方式，其三層框架是經驗獲得最有效的軟體開發模式架構。大體上可分為三層，就

Yii2框架RESTful API教程（一） - 快速入門

比較 exp values cnblogs -- restful extends .cn pat 前不久做一個項目，是用Yii2框架寫一套RESTful風格的API，就去查了下《Yii 2.0 權威指南》，發現上面寫得比較簡略。所以就在這裏寫一篇教程貼，希望幫助剛接觸Yi

Scrapy分布式爬蟲打造搜索引擎（一）,開發環境安裝

req per 分布式 apt fff mkdir bootstra ble douban Technorati 標簽: 分布式爬蟲 Linux環境下安裝mysqlsudo apt-get install mysqlserver 然後可以查看是否啟動 ps aux | gr

【Java】 Spring 框架初步學習總結（一）簡單實現 IoC 和 AOP

1.0 其中表示只需要第一篇否則 info fin pojo 　　Spring 是一個開源的設計層面的輕量級框架，Spring 的好處網上有太多，這裏就不在贅述。　　IoC 控制反轉和 AOP 面向切面編程是 Spring 的兩個重要特性。　　IoC（Inver

NS3入門學習（一）之指令碼執行例項

ns3中使用的編譯系統是waf，所有的c++工程都需要經過waf編譯後執行，除錯時也需要waf的。在3.1.3中還是使用C++寫指令碼，在/ns-3.1.3/examples/tutorial/的second.cc指令碼中可以看出來，在3.2.6以上版本中已經增加了python

Scrapy入門教程（一）

既然你點進來看了，我就預設你知道什麼是爬蟲了。不知道也沒有關係，來看一下爬蟲的定義：網路爬蟲，是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。可以寫爬蟲的語言、框架有很多，這裡記錄一下Scrapy的入門教程。一、為什麼要選擇Scrapy? Scrapy有名氣，只要你做過爬蟲就基本上

Spring框架入門教程（一）——框架簡介

介紹 Spring是一個分層的(一站式) 輕量級開源框架 Spring的核心是控制反轉（IoC）和麵向切面（AOP）為什麼說分層一站式呢？ javaEE分三層開發 WEB層，業務層，持久層。在ssh整合框架中s == Struts2， s == spring，h

怎樣解決安裝scrapy爬蟲框架失敗的問題（圖文教程）？

下面是我安裝scrapy成功的經歷，分享給大家：安裝scrapy一般使用：pip install scrapy 是安裝不成功的，在安裝的過程中會報錯，本人的安裝過程中報錯的資訊如下： 1.第一個錯誤提示：錯誤的原因：沒有安裝Twisted Failed

scrapy爬蟲框架簡單入門例項（一）

相關推薦