Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

阿新 • • 發佈：2019-01-10

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。

背景：

Python版本：Anaconda3

執行平臺：Windows

IDE：PyCharm

資料庫：MongoDB

瀏覽器工具： Chrome瀏覽器

前面的部落格中已經對Scrapy作了相當多的介紹所以這裡不再對Scrapy技術作過多的講解。

一、爬蟲準備工作：

此次我們爬取的是免費小說網站：頂點小說

我們要想把它全部的小說爬取下來，是不是得有全部

小說的連結？

我們看到頂點小說網站上有一個總排行榜。

這裡寫圖片描述

點選進入後我們看到，這裡有網站上所有的小說，一共有1144頁，每頁大約20本小說，算下來一共大約有兩萬兩千多本，是一個龐大的資料量，並且小說的數量還在不斷的增長中。

好！我們遇到了第一個問題，如何獲取總排行榜中的頁數呢？也就是現在的“1144”。

1、獲取排行榜頁面數：

最好的方法就是用Xpath。

我們先用F12審查元素，看到“1144”放在了“id”屬性為“pagestats”的em節點中。

這裡寫圖片描述

我們再用Scrapy Shell分析一下網頁。

注意：Scrapy Shell是一個非常好的工具，我們在編寫爬蟲過程中，可以用它不斷的測試我們編寫的Xpath語句，非常方便。

輸入命令：

scrapy shell "http://www.23us.so/top/allvisit_2.html"

然後就進入了scrapy shell
這裡寫圖片描述

因為頁數放在“id”屬性為“pagestats”的em節點中，所以我們可以在shell中輸入如下指令獲取。

response.xpath('//*[@id="pagestats"]/text()').extract_first()

這裡寫圖片描述

我們可以看到，Xpath一如既往的簡單高效，頁面數已經被擷取下來了。

2、獲取小說主頁連結、小說名稱：

接下來，我們遇到新的問題，如何獲得每個頁面上的小說的連結呢？我們再來看頁面的HTML程式碼。

這裡寫圖片描述

小說的連結放在了“a”節點裡，而且這樣的a節點區別其他的“a”節點的是，沒有“title”屬性。

所以我們用shell測試一下，輸入命令：

response.xpath('//td/a[not(@title)]/@href').extract()

這裡寫圖片描述
我們看到，小說的連結地址我們抓到了。

同樣還有小說名，

response.xpath('//td/a[not(@title)]/text()').extract()

這裡寫圖片描述

我們可以看到頁面上的小說名稱我們也已經抓取到了。

3、獲取小說詳細資訊：

我們點開頁面上的其中一個小說連結：

這裡寫圖片描述

這裡有小說的一些相關資訊和小說章節目錄的地址。

我們想要的資料首先是小說全部章節目錄的地址，然後是小說類別、小說作者、小說狀態、小說最後更新時間。

我們先看小說全部章節目錄的地址。用F12，我們看到：

這裡寫圖片描述

小說全部章節地址放在了“class”屬性為“btnlinks”的“p”節點的第一個“a”節點中。

我們還是用scrapy shell測試一下我們寫的xpath語句。

鍵入命令，進入shell介面

scrapy shell "http://www.23us.so/xiaoshuo/13007.html"

在shell中鍵入命令：

response.xpath('//p[@class="btnlinks"]/a[1]/@href').extract_first()

這裡寫圖片描述

小說的章節目錄頁面我們已經擷取下來了。

類似的還有小說類別、小說作者、小說狀態、小說最後更新時間，命令分別是：

#小說類別
response.xpath('//table/tr[1]/td[1]/a/text()').extract_first()    
#小說作者
response.xpath('//table/tr[1]/td[2]/text()').extract_first()   
#小說狀態
response.xpath('//table/tr[1]/td[3]/text()').extract_first()   
#小說最後更新時間
response.xpath('//table/tr[2]/td[3]/text()').extract_first()

這裡寫圖片描述

4、獲取小說全部章節：

我們點開“最新章節”，來到小說全部章節頁面。

這裡寫圖片描述

我們如何獲得這些連結呢？答案還是Xpath。

用F12看到，各章節地址和章節名稱放在了一個“table”中：

這裡寫圖片描述
退出上次的scrapy shell ,分析全部章節頁面。

scrapy shell "http://www.23us.so/files/article/html/13/13007/index.html"

在shell中鍵入Xpath語句：

response.xpath('//table/tr/td/a/@href').extract()

這裡寫圖片描述

同樣還有各章節名稱

response.xpath('//table/tr/td/a/text()').extract()

這裡寫圖片描述

5、爬取小說章節內容：

好了，小說各個章節地址我們擷取下來了，接下來就是小說各個章節的內容。

我們用F12看到，章節內容放在了“id”屬性為“contents”的“dd”節點中。

這裡寫圖片描述

這裡我們再用Xpath看一下,鍵入Xpath語句：

Response.xpath('//dd[@id="contents"]').extract()

這裡寫圖片描述

我們看到，小說內容已經讓我們擷取到了！

二、編寫爬蟲：

整個流程上面已經介紹過了，還有一個非常重要的問題：

斷點續傳問題

我們知道，爬蟲不可能一次將全部網站爬取下來，網站的資料量相當龐大，在短時間內不可能完成爬蟲工作，在下一次啟動爬蟲時難道再將已經做過的工作再做一次？當然不行，這樣的爬蟲太不友好。那麼我們如何來解決斷點續傳問題呢？

我這裡的方法是，將已經爬取過的小說每一章的連結存入Mongodb資料庫的一個集合中。在爬蟲工作時首先檢測，要爬取的章節連結是否在這個集合中：

如果在，說明這個章節已經爬取過，不需要再次爬取，跳過；

如果不在，說明這個章節沒有爬取過，則爬取這個章節。爬取完成後，將這個章節連結存入集合中；

如此，我們就完美實現了斷點續傳問題，十分好用。

接下來貼出整個專案程式碼：

註釋我寫的相當詳細，熟悉一下就可以看懂。

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class DingdianxiaoshuoItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    #小說名字
    novel_name=scrapy.Field()
    #小說類別
    novel_family=scrapy.Field()
    #小說主頁地址
    novel_url=scrapy.Field()
    #小說作者
    novel_author=scrapy.Field()
    #小說狀態
    novel_status=scrapy.Field()
    #小說字數
    novel_number=scrapy.Field()
    #小說所有章節頁面
    novel_all_section_url= scrapy.Field()
    #小說最後更新時間
    novel_updatetime=scrapy.Field()

    #存放小說的章節地址，程式中存放的是一個列表
    novel_section_urls=scrapy.Field()

    #存放小說的章節地址和小說章節名稱的對應關係，程式中儲存的是一個字典
    section_url_And_section_name=scrapy.Field()

dingdian.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Selector
from dingdianxiaoshuo.items import DingdianxiaoshuoItem

class dingdian(scrapy.Spider):
    name="dingdian"
    allowed_domains=["23us.so"]
    start_urls = ['http://www.23us.so/top/allvisit_1.html']
    server_link='http://www.23us.so/top/allvisit_'
    link_last='.html'

    #從start_requests傳送請求
    def start_requests(self):
        yield scrapy.Request(url = self.start_urls[0], callback = self.parse1)


    #獲取總排行榜每個頁面的連結
    def parse1(self, response):
        items=[]
        res = Selector(response)
        #獲取總排行榜小說頁碼數
        max_num=res.xpath('//*[@id="pagestats"]/text()').extract_first()
        max_num=max_num.split('/')[1]
        print("總排行榜最大頁面數為："+max_num)
        #for i in max_num+1:
        for i in range(0,int(max_num)):
            #構造總排行榜中每個頁面的連結
            page_url=self.server_link+str(i)+self.link_last
            yield scrapy.Request(url=page_url,meta={'items':items},callback=self.parse2)


    #訪問總排行榜的每個頁面
    def parse2(self,response):
        print(response.url)
        items=response.meta['items']
        res=Selector(response)
        #獲得頁面上所有小說主頁連結地址
        novel_urls=res.xpath('//td/a[not(@title)]/@href').extract()
        #獲得頁面上所有小說的名稱
        novel_names=res.xpath('//td/a[not(@title)]/text()').extract()

        page_novel_number=len(novel_urls)
        for index in range(page_novel_number):
            item=DingdianxiaoshuoItem()
            item['novel_name']=novel_names[index]
            item['novel_url'] =novel_urls[index]
            items.append(item)

        for item in items:
            #訪問每個小說主頁,傳遞novel_name
            yield scrapy.Request(url=item['novel_url'],meta = {'item':item},callback = self.parse3)

    #訪問小說主頁，繼續完善item
    def parse3(self, response):
        #接收傳遞的item
        item=response.meta['item']
        #寫入小說類別
        item['novel_family']=response.xpath('//table/tr[1]/td[1]/a/text()').extract_first()
        #寫入小說作者
        item['novel_author']=response.xpath('//table/tr[1]/td[2]/text()').extract_first()
        #寫入小說狀態
        item['novel_status']=response.xpath('//table/tr[1]/td[3]/text()').extract_first()
        #寫入小說最後更新時間
        item['novel_updatetime']=response.xpath('//table/tr[2]/td[3]/text()').extract_first()
        #寫入小說全部章節頁面
        item['novel_all_section_url']=response.xpath('//p[@class="btnlinks"]/a[1]/@href').extract_first()
        url=response.xpath('//p[@class="btnlinks"]/a[@class="read"]/@href').extract_first()
        #訪問顯示有全部章節地址的頁面
        print("即將訪問"+item['novel_name']+"全部章節地址")
        #yield item
        yield  scrapy.Request(url=url,meta={'item':item},callback=self.parse4)

    #將小說所有章節的地址和名稱構造列表存入item
    def parse4(self, response):
        #print("這是parse4")
        #接收傳遞的item
        item=response.meta['item']
        #這裡是一個列表，存放小說所有章節地址
        section_urls=response.xpath('//table/tr/td/a/@href').extract()
        #這裡是一個列表，存放小說所有章節名稱
        section_names=response.xpath('//table/tr/td/a/text()').extract()

        item["novel_section_urls"]=section_urls
        #計數器
        index=0
        #建立雜湊表，儲存章節地址和章節名稱的對應關係
        section_url_And_section_name=dict(zip(section_urls,section_names))
        #將對應關係，寫入item
        item["section_url_And_section_name"]=section_url_And_section_name


        yield item

settings.py

# -*- coding: utf-8 -*-

# Scrapy settings for dingdianxiaoshuo project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'dingdianxiaoshuo'

SPIDER_MODULES = ['dingdianxiaoshuo.spiders']
NEWSPIDER_MODULE = 'dingdianxiaoshuo.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'dingdianxiaoshuo (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 0.25


#CLOSESPIDER_TIMEOUT = 60 # 後結束爬蟲


# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'dingdianxiaoshuo.middlewares.DingdianxiaoshuoSpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'dingdianxiaoshuo.middlewares.DingdianxiaoshuoDownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'dingdianxiaoshuo.pipelines.DingdianxiaoshuoPipeline': 300,
}

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5

pipeline.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

#因為爬取整個網站時間較長，這裡為了實現斷點續傳，我們把每個小說下載完成的
#章節地址存入資料庫一個單獨的集合裡，記錄已完成抓取的小說章節

from pymongo import MongoClient
from urllib import request
from bs4 import BeautifulSoup

#在pipeline中我們將實現下載每個小說，存入MongoDB資料庫

class DingdianxiaoshuoPipeline(object):
    def process_item(self, item, spider):
        #print("馬衍碩")
        #如果獲取章節連結進行如下操作
        if "novel_section_urls" in item:
            # 獲取Mongodb連結
            client = MongoClient("mongodb://127.0.0.1:27017")
            #連線資料庫
            db =client.dingdian
            #獲取小說名稱
            novel_name=item['novel_name']
            #根據小說名字，使用集合，沒有則建立
            novel=db[novel_name]

            #使用記錄已抓取網頁的集合，沒有則建立
            section_url_downloaded_collection=db.section_url_collection

            index=0
            print("正在下載："+item["novel_name"])


            #根據小說每個章節的地址，下載小說各個章節
            for section_url in item['novel_section_urls']:

                #根據對應關係，找出章節名稱
                section_name=item["section_url_And_section_name"][section_url]
                #如果將要下載的小說章節沒有在section_url_collection集合中，也就是從未下載過，執行下載
                #否則跳過
                if  not section_url_downloaded_collection.find_one({"url":section_url}):
                    #使用urllib庫獲取網頁HTML
                    response = request.Request(url=section_url)
                    download_response = request.urlopen(response)
                    download_html = download_response.read().decode('utf-8')
                    #利用BeautifulSoup對HTML進行處理，擷取小說內容
                    soup_texts = BeautifulSoup(download_html, 'lxml')
                    content=soup_texts.find("dd",attrs={"id":"contents"}).getText()


                    #向Mongodb資料庫插入下載完的小說章節內容
                    novel.insert({"novel_name": item['novel_name'], "novel_family": item['novel_family'],
                                  "novel_author":item['novel_author'], "novel_status":item['novel_status'],
                                  "section_name":section_name,
                                  "content": content})
                    index+=1
                    #下載完成，則將章節地址存入section_url_downloaded_collection集合
                    section_url_downloaded_collection.insert({"url":section_url})


        print("下載完成："+item['novel_name'])
        return item

三、啟動專案，檢視執行結果：

程式編寫完成後，我們進入專案所在目錄，鍵入命令啟動專案：

scrapy crawl dingdian

啟動專案後，我們通過Mongodb視覺化工具–RoBo看到，我們成功爬取了小說網站，接下來的問題交給時間。
這裡寫圖片描述

這裡寫圖片描述

當想中斷爬蟲時，直接關掉控制檯。下次開啟爬蟲時將不會重複上次的工作，這就是斷點續傳的美妙之處。（嚴格意義上不會在上次終止的地點開始爬取，但是不會重複已經爬取的工作）

後續將會開闢scrapy系列部落格，專門記錄scrapy架構的爬蟲工作。

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。背景： Python版本：Anaconda3 執行平臺：Windows IDE：PyCharm 資料庫：MongoDB 瀏

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

說明： Python版本：Python IDE：PyCharm chrome版本：我的版本63 chromedriver.exe：因為是模擬瀏覽器訪問，chrome需要再下載一個驅動，具體方式在我的上一篇部落格，內容很詳細。傳送門：Python網路爬蟲（

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

[Python]網路爬蟲（五）：urllib2的使用細節與抓站技巧

前面說到了urllib2的簡單入門，下面整理了一部分urllib2的使用細節。 1.Proxy 的設定 urllib2 預設會使用環境變數 http_proxy 來設定 HTTP Proxy。如果想在程式中明確控制 Proxy 而不受環境變數的影響，可以使用代理。

Python網路爬蟲（三）：chromdriver.exe與chrome版本對映及下載連結

前言：最近正在學習Python網路爬蟲，學到selenium，需要用到chrome瀏覽器的驅動，但是網上的很多地址都被牆了，而且沒有準確的驅動和chrome版本的對映，很麻煩。現在我已經解決了這些問題，現在把對映和下載連結分享出來。（一）檢視chrome

Python網路爬蟲（四）：視訊下載器

這一節實現一個下載 iqiyi VIP視訊的爬蟲。需要的準備：旋風視訊VIP解析網站或其他解析網站原理理解：在視訊解析網站獲取視訊的過程中，首先會向視訊伺服器傳送GET請求，獲得伺服器發來的資訊；接到資訊後，再向伺服器POST資料，即將類似於密碼

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=F

Python網路爬蟲（七）：解決ImportError:DLL load failed：作業系統無法執行問題

背景： Python版本：Anaconda3 問題描述：最近在執行scrapy專案時，本來安裝好好的scrapy框架突然報錯，猝不及防， ImportError:DLL load failed：作業系統無法執行%1 如圖：自己也是百思

[Python]網路爬蟲（三）：使用cookiejar管理cookie 以及模擬登入知乎

大家好哈，上一節我們研究了一下爬蟲的異常處理問題，那麼接下來我們一起來看一下Cookie的使用。為什麼要使用Cookie呢？ Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料（通常經過加密）比如說有些網站需要登入後才

[Python]網路爬蟲（四）：Opener與Handler

在開始後面的內容之前，先來解釋一下urllib2中的兩個個方法：info and geturl urlopen返回的應答物件response(或者HTTPError例項)有兩個很有用的方法info()和geturl() 1.geturl()： geturl()返回獲

小白學 Python 爬蟲（25）：爬取股票資訊

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

爬蟲（七）：爬取貓眼電影top100

all for rip pattern 分享爬取 values findall proc 一：分析網站目標站和目標數據目標地址：http://maoyan.com/board/4?offset=20目標數據：目標地址頁面的電影列表，包括電影名，電影圖片，主演，上映日期以

python網路爬蟲（五）:併發抓取

在進行單個爬蟲抓取的時候，我們不可能按照一次抓取一個url的方式進行網頁抓取，這樣效率低，也浪費了cpu的資源。目前python上面進行併發抓取的實現方式主要有以下幾種：程序，執行緒，協程。程序不在的討論範圍之內，一般來說，程序是用來開啟多個spider，比如我

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

Python爬蟲實戰（2）：爬取京東商品列表

1，引言在上一篇》，爬取了一個用Drupal做的論壇，是靜態頁面，抓取比較容易，即使直接解析html原始檔都可以抓取到需要的內容。相反，JavaScript實現的動態網頁內容，無法從html原始碼抓取

網路爬蟲（六）：Python中的正則表示式教程

接下來準備用糗百做一個爬蟲的小例子。但是在這之前，先詳細的整理一下Python中的正則表示式的相關內容。正則表示式在Python爬蟲中的作用就像是老師點名時用的花名冊一樣，是必不可少的神兵利器。整理時沒有注意，實在抱歉。一、正則表示式基礎 1.1.概

python網路爬蟲（7）爬取靜態資料詳解

目的爬取http://seputu.com/資料並存儲csv檔案匯入庫 lxml用於解析解析網頁HTML等原始碼，提取資料。一些參考：https://www.cnblogs.com/zhangxinqi/p/9210211.html requests請求網頁 chardet用於判斷網頁中的字元編

python網路爬蟲（10）分散式爬蟲爬取靜態資料

目的意義爬蟲應該能夠快速高效的完成資料爬取和分析任務。使用多個程序協同完成一個任務，提高了資料爬取的效率。以百度百科的一條為起點，抓取百度百科2000左右詞條資料。說明參閱模仿了：https://book.douban.com/subject/27061630/。作者說是簡單的分散式爬蟲（

python網路爬蟲（11）近期電影票房或熱度資訊爬取

目標意義為了理解動態網站中一些資料如何獲取，做一個簡單的分析。說明思路，原始程式碼來源於：https://book.douban.com/subject/27061630/。構造-下載器構造分下載器，下載原始網頁，用於原始網頁的獲取，動態網頁中，js部分的響應獲取。通過瀏覽器模仿，合理

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。

背景：

前面的部落格中已經對Scrapy作了相當多的介紹所以這裡不再對Scrapy技術作過多的講解。

一、爬蟲準備工作：

此次我們爬取的是免費小說網站：頂點小說

我們要想把它全部的小說爬取下來，是不是得有全部

小說的連結？

我們看到頂點小說網站上有一個總排行榜。

點選進入後我們看到，這裡有網站上所有的小說，一共有1144頁，每頁大約20本小說，算下來一共大約有兩萬兩千多本，是一個龐大的資料量，並且小說的數量還在不斷的增長中。

好！我們遇到了第一個問題，如何獲取總排行榜中的頁數呢？也就是現在的“1144”。

1、獲取排行榜頁面數：

最好的方法就是用Xpath。

我們先用F12審查元素，看到“1144”放在了“id”屬性為“pagestats”的em節點中。

我們再用Scrapy Shell分析一下網頁。

注意：Scrapy Shell是一個非常好的工具，我們在編寫爬蟲過程中，可以用它不斷的測試我們編寫的Xpath語句，非常方便。

輸入命令：

因為頁數放在“id”屬性為“pagestats”的em節點中，所以我們可以在shell中輸入如下指令獲取。

2、獲取小說主頁連結、小說名稱：

接下來，我們遇到新的問題，如何獲得每個頁面上的小說的連結呢？我們再來看頁面的HTML程式碼。

小說的連結放在了“a”節點裡，而且這樣的a節點區別其他的“a”節點的是，沒有“title”屬性。

所以我們用shell測試一下，輸入命令：

同樣還有小說名，

3、獲取小說詳細資訊：

我們點開頁面上的其中一個小說連結：

這裡有小說的一些相關資訊和小說章節目錄的地址。

我們想要的資料首先是小說全部章節目錄的地址，然後是小說類別、小說作者、小說狀態、小說最後更新時間。

我們先看小說全部章節目錄的地址。用F12，我們看到：

小說全部章節地址放在了“class”屬性為“btnlinks”的“p”節點的第一個“a”節點中。

我們還是用scrapy shell測試一下我們寫的xpath語句。

鍵入命令，進入shell介面

在shell中鍵入命令：

類似的還有小說類別、小說作者、小說狀態、小說最後更新時間，命令分別是：

4、獲取小說全部章節：

我們點開“最新章節”，來到小說全部章節頁面。

我們如何獲得這些連結呢？答案還是Xpath。

用F12看到，各章節地址和章節名稱放在了一個“table”中：

同樣還有各章節名稱

5、爬取小說章節內容：

好了，小說各個章節地址我們擷取下來了，接下來就是小說各個章節的內容。

我們用F12看到，章節內容放在了“id”屬性為“contents”的“dd”節點中。

這裡我們再用Xpath看一下,鍵入Xpath語句：

我們看到，小說內容已經讓我們擷取到了！

二、編寫爬蟲：

整個流程上面已經介紹過了，還有一個非常重要的問題：

斷點續傳問題

我這裡的方法是，將已經爬取過的小說每一章的連結存入Mongodb資料庫的一個集合中。在爬蟲工作時首先檢測，要爬取的章節連結是否在這個集合中：

如果在，說明這個章節已經爬取過，不需要再次爬取，跳過；

如果不在，說明這個章節沒有爬取過，則爬取這個章節。爬取完成後，將這個章節連結存入集合中；

如此，我們就完美實現了斷點續傳問題，十分好用。

接下來貼出整個專案程式碼：

註釋我寫的相當詳細，熟悉一下就可以看懂。

三、啟動專案，檢視執行結果：

程式編寫完成後，我們進入專案所在目錄，鍵入命令啟動專案：

當想中斷爬蟲時，直接關掉控制檯。下次開啟爬蟲時將不會重複上次的工作，這就是斷點續傳的美妙之處。（嚴格意義上不會在上次終止的地點開始爬取，但是不會重複已經爬取的工作）

後續將會開闢scrapy系列部落格，專門記錄scrapy架構的爬蟲工作。

相關推薦