Scrapy爬蟲（5）爬取當當網圖書暢銷榜

阿新 • • 發佈：2018-06-12

The log sdn detail iss 就是 pan 微信公眾號打開

??本次將會使用Scrapy來爬取當當網的圖書暢銷榜，其網頁截圖如下：

技術分享圖片

??我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並保存為csv格式的文件。項目的具體創建就不再多講，可以參考上一篇博客，我們只需要修改items.py文件，以及新建一個爬蟲文件BookSpider.py.
??items.py文件的代碼如下，用來儲存每本書的排名，書名，作者，出版社，價格以及評論數。

import scrapy

class BookspiderItem(scrapy.Item):
    rank = scrapy.Field()
    name = scrapy.Field()
    author = 
 scrapy.Field()
    press = scrapy.Field()
    price = scrapy.Field()
    comments = scrapy.Field()

??BookSpider.py代碼如下，用來具體地爬取數據。

import scrapy
from scrapy.selector import Selector
from bookSpider.items import BookspiderItem

class bookSpider(scrapy.Spider):
    name = ‘bookScrapy‘
    start_urls = 
 [‘http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-%d‘%i for i in range(1,26)]

    def parse(self, response):
        item = BookspiderItem()
        sel = Selector(response)
 
        book_list = response.css(‘ul.bang_list.clearfix.bang_list_mode‘).xpath(‘li‘)
 
        for book in book_list:
            item[‘rank‘ 
] = book.css(‘div.list_num‘).xpath(‘text()‘).extract_first()
            item[‘name‘] = book.css(‘div.name‘).xpath(‘a/text()‘).extract_first()
            item[‘author‘] = book.css(‘div.publisher_info‘)[0].xpath(‘a/text()‘).extract_first()
            item[‘press‘] = book.css(‘div.publisher_info‘)[1].xpath(‘a/text()‘).extract_first()
            item[‘price‘] = book.css(‘span.price_n‘).xpath(‘text()‘).extract_first()
            item[‘comments‘] = book.css(‘div.star‘).xpath(‘a/text()‘).extract_first()
            
            yield item

??代碼就是這麽簡單，哈哈，別忘了在settings.py中將設置“ROBOTSTXT_OBEY = False”.
??整個項目就是這樣啦，最後，我們運行命令

scrapy crawl bookScrapy -o dangdang.csv -t csv

這樣就會把剛才爬取的數據保存為dangdang.csv，該文件在spiders目錄下。

技術分享圖片

??打開dangdang.csv，其中的部分內容如下：

技術分享圖片

??我們可以發現，書的信息不是有序儲存的，但還是達到了筆者的要求，怎麽樣，是不是覺得Scrapy簡單又使用呢？強大的Scrapy!

註意：本人現已開通兩個微信公眾號：因為Python（微信號為：python_math）以及輕松學會Python爬蟲（微信號為：easy_web_scrape），歡迎大家關註哦~~

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

The log sdn detail iss 就是 pan 微信公眾號打開 ??本次將會使用Scrapy來爬取當當網的圖書暢銷榜，其網頁截圖如下： ??我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並保存為csv格式的文件。項目的具體創建就不

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

Scrapy爬蟲（5）爬取噹噹網圖書暢銷榜

Scrapy爬蟲（4）爬取豆瓣電影Top250圖片

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

爬蟲（GET）——爬取多頁的html

網易雲音樂評論爬蟲（三）:爬取歌曲的全部評論

python 爬蟲（五）爬取多頁內容

java爬蟲（Jsoup）爬取某站點評論

PyQt5與爬蟲（一）——爬取某站動畫每週列表

python爬蟲（一）爬取豆瓣電影Top250

Python3 爬蟲（三） -- 爬取豆瓣首頁圖片

Python資料爬蟲學習筆記（11）爬取千圖網圖片資料

python爬蟲（三）爬取網易雲音樂歌曲列表

python網路爬蟲（7）爬取靜態資料詳解

python學習（三）scrapy爬蟲框架（三）——爬取桌布儲存並命名

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

零基礎掌握百度地圖興趣點獲取POI爬蟲（python語言爬取）（基礎篇）

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

相關推薦