Scrapy爬蟲（5）爬取噹噹網圖書暢銷榜

阿新 • • 發佈：2019-02-03

本次將會使用Scrapy來爬取噹噹網的圖書暢銷榜，其網頁截圖如下：

噹噹網圖書暢銷榜

我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並儲存為csv格式的檔案。專案的具體建立就不再多講，可以參考上一篇部落格，我們只需要修改items.py檔案，以及新建一個爬蟲檔案BookSpider.py.
items.py檔案的程式碼如下，用來儲存每本書的排名，書名，作者，出版社，價格以及評論數。

import scrapy

class BookspiderItem(scrapy.Item):
    rank = scrapy.Field()
    name = scrapy.Field 
()
    author = scrapy.Field()
    press = scrapy.Field()
    price = scrapy.Field()
    comments = scrapy.Field()

BookSpider.py程式碼如下，用來具體地爬取資料。

import scrapy
from scrapy.selector import Selector
from bookSpider.items import BookspiderItem

class bookSpider(scrapy.Spider):
    name = 'bookScrapy' 

    start_urls = ['http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-%d'%i for i in range(1,26)]

    def parse(self, response):
        item = BookspiderItem()
        sel = Selector(response)

        book_list = response.css('ul.bang_list.clearfix.bang_list_mode').xpath('li')

        for 
 book in book_list:
            item['rank'] = book.css('div.list_num').xpath('text()').extract_first()
            item['name'] = book.css('div.name').xpath('a/text()').extract_first()
            item['author'] = book.css('div.publisher_info')[0].xpath('a/text()').extract_first()
            item['press'] = book.css('div.publisher_info')[1].xpath('a/text()').extract_first()
            item['price'] = book.css('span.price_n').xpath('text()').extract_first()
            item['comments'] = book.css('div.star').xpath('a/text()').extract_first()

            yield item

程式碼就是這麼簡單，哈哈，別忘了在settings.py中將設定“ROBOTSTXT_OBEY = False”.
整個專案就是這樣啦，最後，我們執行命令

scrapy crawl bookScrapy -o dangdang.csv -t csv

這樣就會把剛才爬取的資料儲存為dangdang.csv，該檔案在spiders目錄下。

開啟dangdang.csv，其中的部分內容如下：

我們可以發現，書的資訊不是有序儲存的，但還是達到了筆者的要求，怎麼樣，是不是覺得Scrapy簡單又使用呢？強大的Scrapy!

Scrapy爬蟲（5）爬取噹噹網圖書暢銷榜

本次將會使用Scrapy來爬取噹噹網的圖書暢銷榜，其網頁截圖如下：我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並儲存為csv格式的檔案。專案的具體建立就不再多講，可以參考上一篇部落格，我們只需要修改items.py檔

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

The log sdn detail iss 就是 pan 微信公眾號打開 ??本次將會使用Scrapy來爬取當當網的圖書暢銷榜，其網頁截圖如下： ??我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並保存為csv格式的文件。項目的具體創建就不

Scrapy爬蟲（4）爬取豆瓣電影Top250圖片

在用Python的urllib和BeautifulSoup寫過了很多爬蟲之後，本人決定嘗試著名的Python爬蟲框架——Scrapy. 本次分享將詳細講述如何利用Scrapy來下載豆瓣電影Top250, 主要解決的問題有：如何利用ImagesPi

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

爬蟲（GET）——爬取多頁的html

調度不同 odin 新建文件內容存儲 rom 寫入 adp 工具：python3 目標：將編寫的代碼封裝，不同函數完成不同功能，爬取任意頁數的html 新學語法：with open as 除了有更優雅的語法，with還可以很好的處理上下文環境產生的

網易雲音樂評論爬蟲（三）:爬取歌曲的全部評論

用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論，由於網易雲音樂的評論都做了混淆加密處理，因此我們需要深入瞭解它的加密過程之後才能爬取到網易雲音樂歌曲的全部評論．一，首

python 爬蟲（五）爬取多頁內容

import urllib.request import ssl import re def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5

java爬蟲（Jsoup）爬取某站點評論

在上一篇中，我們抓取到了新聞的標題，超連結和摘要，這次我們通過新聞的超連結，進入新聞的評論頁，然後爬取評論！先看下評論頁的標籤：主要是尋找id為“art_content”的標籤下的 id為“text”下的“div”標籤。程式碼： p

PyQt5與爬蟲（一）——爬取某站動畫每週列表

某站動畫列表PyQt程式截圖，可以點選圖片按鈕，然後會開啟谷歌瀏覽器到你選擇的動漫介面。貼程式碼：main.pyfrom PyQt5.QtWidgets import QWidget,QApplication import sys from MyWidget import W

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

Python3 爬蟲（三） -- 爬取豆瓣首頁圖片

序前面已經完成了簡單網頁以及偽裝瀏覽器的學習。下面，實現對豆瓣首頁所有圖片爬取程式，把圖片儲存到本地一個路徑下。首先，豆瓣首頁部分圖片展示這只是擷取的一部分。下面給出，整個爬蟲程式。爬蟲程式

python爬蟲（三）爬取網易雲音樂歌曲列表

1.開啟網易雲音樂列表，按F12，選擇Doc模式，方便檢視。2.檢視網頁的請求方式--get請求3.檢視header4. 在Preview中搜索任意一首歌曲，比如：無由可以看到，歌曲列表在‘ul’標籤中，那麼我們可以通過Be阿UtigulSoup去搜索明晰了結構，就可以寫程式

python網路爬蟲（7）爬取靜態資料詳解

目的爬取http://seputu.com/資料並存儲csv檔案匯入庫 lxml用於解析解析網頁HTML等原始碼，提取資料。一些參考：https://www.cnblogs.com/zhangxinqi/p/9210211.html requests請求網頁 chardet用於判斷網頁中的字元編

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

5-14更新注意：目前拉勾網換了json結構，之前是content - result 現在改成了content- positionResult - result,所以大家寫程式碼的時候要特別注意加上

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

上次挖了一個坑，今天終於填上了，還記得之前我們做的拉勾爬蟲嗎？那時我們實現了一頁的爬取，今天讓我們再接再厲，實現多頁爬取，順便實現職位和公司的關鍵詞搜尋功能。之前的內容就不再介紹了，不熟悉的請一定要去看之前的文章，程式碼是在之前的基礎上修改的

python學習（三）scrapy爬蟲框架（三）——爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，再過一遍scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從網站上爬

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

零基礎掌握百度地圖興趣點獲取POI爬蟲（python語言爬取）（基礎篇）

region map 基礎輸入 filter put mark page -h 實現目的：爬取昆明市範圍內的全部中學數據，包括名稱、坐標。先進入基礎篇，本篇主要講原理方面，並實現步驟分解，為python代碼編寫打基礎。因為是0基礎開始，所以講得會比較詳細。如實現目的

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

secure host agen cat hand .com cati ica sts 我們打開新浪新聞，看到頁面如下，首先去爬取一級 url，圖片中藍色圓圈部分第二zh張圖片，顯示需要分頁，

Scrapy爬蟲（5）爬取噹噹網圖書暢銷榜

相關推薦