Scrapy爬蟲----（二）專案實戰（上）

阿新 • • 發佈：2019-02-13

結合上一篇博文《Scrapy爬蟲—-（一）命令列工具》中講解的一些常用的命令我們可以很方便的建立一個Scrapy專案，這篇文章便可以開始我們的第一個Scrapy爬蟲專案：爬取一個簡單的靜態網頁中的小說內容：http://yetianlian.com

一、專案目錄結構

下圖便是我們利用上一篇文章中的兩個命令建立的scrpay專案目錄結構以及檔案介紹：

二、專案目標

這裡專案是從開始爬取一個簡單的靜態網頁入手：http://www.yetianlian.com/ （這個靜態網頁涉及到的反爬蟲策略較少，方便新手學習）專案的目的是獲取下圖中文章中的標題，章節標題，每一小節的標題以及每一小節的小說內容最終以“小節名.txt”檔案格式存入按以上標題級別建立的檔案目錄下。

檔案目錄以及檔案圖示：

三、分析與實現

想實現最終的目標，我們第一步要做的是確定我們要爬取的內容是那些，定義在items.py檔案中，然後在ytl.py檔案中編寫parse方法，利用pipelines.py檔案對資料進行處理，最後修改settings.py檔案，其中每一個步驟都不能遺漏，最後執行crawl spider命令便可以按照我們所需要的內容對網頁解析原始碼，抓取資料，儲存資料。

3.1 ytl.py

首先進入spiders資料夾下檢視ytl.py自動生成的spider程式碼
爬蟲模組的程式碼都放置在這個資料夾中，爬蟲模組是用於從單個或者多個網站爬取資料的類。其中應該包括有初始頁面的URL，跟進的網頁連結，分析頁面內容，提取需要的資料函式。建立一個Spider類需要繼承scrapy.Spider類，其中定義有一下三個屬性：name，allowed_domains，start_urls，具體屬性的介紹在下面的程式碼的註釋部分體現：

ytl.py原始碼：

class YtlSpider(scrapy.Spider):
    # 爬蟲的唯一名字，不能為不同的spider設定相同的名字
    name = 'ytl'
    # 爬蟲允許爬取URL的域名範圍，這個爬蟲允許的爬取的範圍為yetianlian.com
    allowed_domains = ['yetianlian.com']
    # start_urls 是spider在啟動時進行爬取的入口的URL列表。因此，第一個被獲取的URL也是其中之一
    # 後續的URL則會從初始的URL的響應中主動提取
    start_urls = ['http://yetianlian.com' 
]

    # parse() 函式，是spider的一個方法。被呼叫時，根據初始的URL響應後的返回的Response物件
    # 將會作為唯一的引數傳遞給該方法。該方法有三個功能
    # (1.解析返回的資料(response data) 2.提取資料(生成item) 3.生成需要進一步處理的URL的Request物件)
    def parse(self, response):
    # pass是空語句,是為了保持程式結構的完整性。pass 不做任何事情,一般用做佔位語句
        pass

3.2 Items.py

我們根據所要獲取內容，可以再item中建立這些fields：chapternum、chaptername、chapterurl、chaptercontent。

Items.py原始碼：

class Testdemo001Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

    # 跟進的文章連結
    url = scrapy.Field()
    # 內部第幾章
    chapternum = scrapy.Field()
    # 該章節的名稱
    chaptertitle = scrapy.Field()
    # 該章節的url
    chapterurl = scrapy.Field()
    # 該章節的內容
    chaptercontent = scrapy.Field()

    pass

Item知識：

Item的目的是提供了一個方便讓爬取的資料從非結構性的資料來源提取結構性資料的簡單容器，可以用來儲存爬取到的資料，提供了類似於字典API以及用於宣告可用欄位的簡單語法。我們定義的Item類需要繼承scrapy.Item類，具體的程式碼如上。

Item的操作方式和字典很類似，這裡講常用的幾個操作簡單介紹：
建立物件：item = Testdemo001Item(title = ‘XXXX’, content = ‘XXX’)
獲取欄位的值：a = item[‘title’]
設定欄位的值：item[‘title’] = ‘XXX’
獲取所有鍵，值：item.keys()，item.values()
獲取item中所有的key以及key對應的值：item.items()
dict與item轉化：dict_item = dict(item)
Testdemo001Item可以被繼承，可以新增更多的欄位

3.3 ytl.py—(parse方法)

預設生成的spider檔案中沒有提供特殊的功能，僅僅提供了start_request()的預設實現，可以讀取並請求spider屬性中的start_urls，並根據返回的response呼叫spider的parse方法。上面完成了網頁下載的功能，接下來需要做的工作即是提取網頁中的資料：從網頁中提取我們需要的chapternum、chaptername、chapterurl、chaptercontent，然後將這些內容封裝成Item物件以便於後續的儲存操作。

網頁資料提取：

在1板塊中的ytl.py檔案建立後，我們執行crawl spidername爬蟲命令可以實現對網頁下載的功能，僅有網頁下載的功能我們無法獲取所需要的資料，接下來是對網頁資料的提取。

Scrapy有著自己的一套對於網頁資料提取的機制，稱為選擇器selector（點選可以檢視官方介紹），可以用selector通過特定的XPath和CSS表示式來選擇HTML檔案中的某個部分。scrapy選擇器是建立在lxml解析庫上，這意味scrapy在速度和解析準確度上比較的優秀。當然，我們也可以使用BeautifulSoup包進行解析，後面的文章會詳細介紹Phantomjs+BeautifulSoup建立的爬蟲。

Selector物件有四個基本方法：

xpath(query)：傳入XPath表示式query，返回該表示式所對應的所有節點的selector list 列表

css(query)：傳入CSS表示式query，返回該表示式所對應的所有節點的selector list 列表

extract()[]：序列化該節點為Unicode字串並返回list列表,[n]可以精確定位返回的第n個字串（從0開始索引，第0個字串……）

re(regex)：根據傳入的正則表示式對資料進行提取，返回Unicode字串列表。這裡regex表示的是根據語法寫的正則表示式。另外也可以使用re.compile(regex)，官方給出具體的解釋如下：regex can be either a compiled regular expression or a string which will be compiled to a regular expression using re.compile(regex) 【re模組中包含一個重要函式是compile(pattern [, flags]) ，該函式根據包含的正則表示式的字串建立模式物件。可以實現更有效率的匹配。在直接使用字串表示的正則表示式進行search,match和findall操作時，python會將字串轉換為正則表示式物件。而使用compile完成一次轉換之後，在每次使用模式的時候就不用重複轉換。當然，使用re.compile()函式進行轉換後，re.search(pattern, string)的呼叫方式就轉換為 pattern.search(string)的呼叫方式。】

而在YtlSpider類的parse()方法中，其中一個引數是response，將response傳入selector中，便可以直接構造出一個Selector物件，進而可以呼叫以上的四個方法。寫法可以使response.selector.xpath(query)一般使用簡寫的方式response.xpath(query)，或者response.xpath(query)的形式。我們可以使用scarpy shell url來檢測我們所獲取的xpath或者css等是否正確，這裡在上一篇文章中有介紹，這裡不再贅述。如果對於xpath和regex（正則表示式）不是很清楚，後面的部落格中會介紹關於xpath和regex部分。

網頁分析：

這裡使用的是GoogleChrome瀏覽器對網頁進行F12檢視元素（FireFox最新的版本已經關閉firebug和firepath等外掛的使用，大部分功能均集中到Firefox Developer Edition版本中，考慮到版本不穩定，文章中採用的均是Chrome檢視網頁原始碼）
可以使用ctl+shift+c快捷鍵開始審查元素的功能，這裡可以看到我們需要的內容所在網頁對應的原始碼部分，選中該元素右鍵可以copy該元素的xpath（若是對於一個元素的獲取，我們可以直接使用這個xpath，若是同類的元素，我們需要稍微修改一下xpath即可）

點選每一章節開啟後的網頁便是每一個章節小說的具體內容，我們可以使用同樣的方法，獲取小說內容在網頁中所對應的原始碼部分

資料提取：

我們通過selector選擇器和xpath來獲取我們需要的內容，可以再ipython中檢視我們所用的xpath是否正確

標題元素獲取

圖中第一個使用firefox自帶的開發者工具審查元素獲取的xpath，可以看出，是一個完整的路徑，對於我們要獲取相同元素的xpath修改不方便，第二個是chrome審查元素獲取的xpath，比較符合xpath的書寫，也便於我們後面的修改，一般都以後者書寫。

副標題的xpath，我們可以根據//[@id=”post-1135”]/div/h3/text()進行修改為//[@id=”post-1135”]/div/h2/text()或者//*[@id=”post-1135”]//h2/text()，然後可以在scrapy shell下檢測是否正確

可以看出子標題一共有三個，我們選擇出來四個，說明多了一個，檢視原始碼可以看出來，上面有一個標題和下面三個子標題xpath路徑規則一樣

我們可以採用extract()[]精確的獲取我們需要的部分，其中的操作和python中list的用法一樣，從‘0’開始索引，‘-1’表示結尾，[0:n]表示list中的第0個元素到第n-1個元素（不包括第n個元素），[-1]表示從list結尾開始數，倒數第一個元素，[-n]表示倒數第n個元素：

另外的幾個部分也可按照同樣的思路進行對網頁的資料進行提取
在完成以上的任務之後，我們開始可以著手parse()方法，方法的目的：從網頁中提取出我們需要的資料內容，然後封裝成Item物件，方便下一步的進行

結語：

文章的內容均是博主碼字上去的，在閱讀的過程中如果遇到有問題請指出，若對文章中的內容如有不同的見解，歡迎一起學習討論。

Scrapy爬蟲----（二）專案實戰（上）

結合上一篇博文《Scrapy爬蟲—-（一）命令列工具》中講解的一些常用的命令我們可以很方便的建立一個Scrapy專案，這篇文章便可以開始我們的第一個Scrapy爬蟲專案：爬取一個簡單的靜態網頁中的

從零開始Vue專案實戰（二）-搭建環境

1、下載node.js並安裝下載地址：https://nodejs.org/en/download/。下載.msi 格式的直接連續下一步就可以了。安裝完成後可以用 node -v 和 npm -v 檢視版本號。 2、安裝vue-cli 腳手架構建工具在命令列中輸入npm ins

簡單爬蟲專案實戰（一）

概述　　最近自己想搞一個小的專案，這個專案我們就先從爬蟲開始，爬取直播吧的NBA滾動新聞，再存入資料庫。先寫個簡單點的，後期再不斷的優化下。準備　　直播吧對於喜歡看球的朋友肯定不陌生，https://www.zhibo8.cc/，開啟我們看到如下介面，我們選擇NBA新聞tab,然後選擇滾動

vue全家桶(Vue+Vue-router+Vuex+axios)（Vue+webpack專案實戰系列之二）

一、Vue 　　系列一已經用vue-cli搭建了Vue專案，此處就不贅述了。二、Vue-router 　　Vue的路由，先獻上文件（https://router.vuejs.org/zh-cn/）。　　路由在全家桶裡面定位是什麼呢，建立單頁應用！簡單！

vue專案實戰（二）之首頁layout佈局

一、替換顯示頁面 1.在 src/components目錄下新建Layout.vue檔案： <template> <div> <h2>header</h2> <h2>con

爬蟲框架開發（4）--- 專案實戰——>新浪滾動新聞資訊實時資料採集

要求：儲存文章的標題、作者、釋出時間、正文、正文中的圖片連結、文章連結、文章所屬分類根據網站的實時更新(週期1分鐘)進行採集時間格式儲存為"yyyy-mm-dd HH:MM:SS" 儲存到mysql資料庫程式碼實現如下：新浪滾動的爬蟲檔案： # spid

【無私分享：ASP.NET CORE 專案實戰（第八章）】讀取配置檔案（二）讀取自定義配置檔案

目錄索引簡介　　但隨之產生了問題：我們使用的是在 Startup.cs 中（如下圖）來實現配置讀取，有兩個問題 ① 我們如果定義N種配置，是否要再這裡新增N條這樣的配置； ② 如果我們的配置不想寫在appsettings.json中呢　　解決問題

【無私分享：ASP.NET CORE 專案實戰（第十二章）】新增對SqlServer、MySql、Oracle的支援

目錄索引簡介　　增加對多資料庫的支援，並不是意味著同時對多種資料庫操作，當然，後面，我們會嘗試同時對多種資料庫操作，這可能需要多個上下文，暫且不論。分散式資料庫，我們採用的是阿里雲的Mycat，這個後面會更新出來。我們今天的場景是：我們的專案可能是在windows上開發的使用的

Vue專案實戰（二）- 引入JQuery等第三方庫

友情連結 1、說明引入JQuery庫的方式有多種，我曾經試過用npm直接把jquery安裝配置入專案，但是在後續開發中，尤其是用到基於jquery的第三方外掛的時候，遇到了很多的問題，所以這裡還是介紹一種非常簡單非常容易上手且沒有後顧之憂的方式。

Scrapy爬蟲入門教程七 Item Loaders（專案載入器）

目錄專案載入器巢狀裝載器開發環境： Python 3.6.0 版本（當前最新） Scrapy 1.3.2 版本（當前最新）專案載入器專案載入器提

從零開始Vue專案實戰（三）-專案結構

現在在瀏覽器中輸入http://localhost:8083，可以看到初始的“Welcome to Your Vue.js App”頁面了目錄結構 ├── README.md 專案介紹 ├── index.html 入口頁面 ├── build

從零開始Vue專案實戰（一）-準備篇

從前參與過一個react專案的程式碼編寫，大神搭建的框架，我主要負責業務邏輯程式碼編寫，現在回想起來似乎又什麼都不會，現在為了鞏固前端知識，決定用Vue來做這個專案的移動端網站，我本人Vue是從零開始的，一邊學習一邊寫程式碼，在這裡記錄一下過程。專案說明：主要功能實現一個投資平臺，會員身份為融資人或投

mysql資料庫優化（四）-專案實戰

在flask專案中，防止隨著時間的流逝，資料庫資料越來越多，導致介面訪問資料庫速度變慢。所以自己填充資料進行測試及 mysql優化 1.插入資料：通過指令碼，使用多程序，每100次提交資料 import multiprocessing import time from fla

手把手教你使用simulink配合STM32CUBEMX （生成keil專案實戰）

本文的作者在自學過程中發現該類資料的缺少以及前人敘述不夠完善的情況下進行了本文的創作文章將一步一步的講解如何使用simulink將F4的燈點亮更多的功能我們一起探索別的型號的 cpu 大家可以類比進行。 1.首先是將MATLAB安裝ST官方的STM32-MAT/TARGET開發庫

HTML5專案實戰（一）——PC端固定佈局全頁面——day eight

程式碼及圖片一、分離CSS 把css重複的部分移植到新的頁面而減少程式碼冗餘，單獨建立一個 CSS，以便後續的頁面重複呼叫。多觀察頁面，總結出相同的樣式，注意取名，方便呼叫。二、html頁面切換不同的html頁面通過連結實現跳轉，常用class="active"，設定當前

知識圖譜完整專案實戰（附原始碼)（1）

一、前言本文是《知識圖譜完整專案實戰（附原始碼)》系列博文的第一篇，主要介紹課程設定的初衷和綱要。知識圖譜的學習是一個基礎到實戰，從入門到精通的一個逐漸深入的、漸進式的過程。在這個過程中，一個完整的專案，起到的作用往往是對過往所學全部知識的串聯和融合。只有經過一個完整專案的實踐，才能真正把所學的、離散

React 16+Redux+React Router 4 Node.Js全棧開發招聘App專案實戰（雲盤下載）

第1章介紹課程目標和學習內容包括課程概述、課程安排、學習前提、講授方式等方面的介紹，最後演示了整個招聘App的功能，讓同學們對課程專案有一個直觀的瞭解。1-1 課程導學第2章知識儲備2-1 介紹React開發環境2-2 ES6常用語法2-3 express+mongodb

Python Selenium專案實戰（一）—— 怎麼去驗證一個按鈕是啟用的（可點選）？

Q: 使用 Python Selenium WebDriver 怎麼去驗證一個按鈕是啟用的（可點選）？ A：Selenium WebDriver API 裡面給出瞭解決方法is_enabled() 使用WebDriver API —— driver.find_element_by_css_selector()

ASP.NET Core 專案實戰（持續更新~~~）

一、前言　　準備寫這個系列文章的設想開始於今年9月，毫無意外，期間又又又又拖了很長時間，文章主要是為了記錄自己學習使用 ASP.NET Core Web API 與 Vue 建立一個前後端分離的專案的整個過程。嗯，2018年快要結束了，應該能在 .NET Core 3.0 正式版和 Vue 3

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）全套課程下載：https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取碼: 9n1x 本門課程來源於一線生產專案，所有程式碼都是在現網大資料叢集上穩定執行，拒絕Demo。課程涵蓋了離線分析

Scrapy爬蟲----（二）專案實戰（上）

一、專案目錄結構

二、專案目標

三、分析與實現

3.1 ytl.py

3.2 Items.py

3.3 ytl.py—(parse方法)

網頁資料提取：

結語：

相關推薦