Scrapy爬取知名網站的圖書資訊

阿新 • • 發佈：2019-01-22

開啟虛擬環境，建立專案檔案

開啟控制檯，輸入`workon py3scrapy`

這裡寫圖片描述

進入虛擬環境所在盤（我的是E盤)

這裡寫圖片描述

建立專案檔案，輸入`scrapy startproject demo`（建立的專案檔案叫demo）

這裡寫圖片描述
在E盤可以找到所建立的資料夾。

檢視專案目錄下的檔案，輸入`tree/F demo`

這裡寫圖片描述
好，到此專案檔案就建立成功了。

開啟所爬取網站，分析所爬取的內容。

可以看出，每一本書的資訊包裹在<article class="product_pod">元素內
這裡寫圖片描述
書名資訊在其下的 **h3** > a元素的 **title** 屬性中

。

書價資訊在其下<p class="price_color">£51.77</p>的文字中。
這裡寫圖片描述

由於這個網頁有50頁，下一頁的URL在 ul.pager>li.next>a元素的href屬性中
如：<li class="next"><a href="catalogue/page-2.html">next</a></li>
這裡寫圖片描述

編寫程式碼，實現爬蟲

在spider目錄下，建立一個book_spider.py檔案。
這裡寫圖片描述
執行無錯誤。
程式碼如下：

# -*- coding:utf-8 -*-
import 
 scrapy
class BooksSpider(scrapy.Spider):
    #爬蟲唯一標識
    name = "books"
    #爬取的起始點
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):
        #提取資訊
        for book in response.css('article.produce_pod'):
            #書名資訊
            name = book.xpath('./h3/a/@title').extract_first()
            #書價資訊 

            price = book.css('p.price_color::text').extract_first()

            yield{
                'name':name,
                'price':price,
            }
        #提取連結
        next_url = response.css('ul.pager li.next a::attr(href)').extract_first()
        if next_url:
            #如果找到下一位URL，得到絕對路徑，構造新的Request物件
            next_url = response.urljoin(next_url)
            yield scrapy.Request(next_url, callback = self.parse)

執行程式碼，抓取資料

在控制檯輸入scrapy crawl books -o books.csv回車
這裡寫圖片描述
等程式執行完，在demo資料夾裡可以找到：

好，抓取完畢。

Scrapy爬取知名網站的圖書資訊

開啟虛擬環境，建立專案檔案開啟控制檯，輸入workon py3scrapy 進入虛擬環境所在盤（我的是E盤) 建立專案檔案，輸入scrapy startproj

Scrapy ：爬取培訓網站講師資訊

Scrapy 框架 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy 使用

Scrapy爬取知名技術網站文章並儲存到MySQL資料庫

之前的幾篇文章都是在講如何把資料爬下來，今天記錄一下把資料爬下來並儲存到MySQL資料庫。文章中有講同步和非同步兩種方法。所有文章文章的地址：http://blog.jobbole.com/all-posts/ 對所有文章

scrapy 爬取天貓商品資訊

spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co

Python爬蟲實戰專案2 | 動態網站的抓取（爬取電影網站的資訊）

1.什麼是動態網站？動態網站和靜態網站的區別在於，網頁中常常包含JS，CSS等動態效果的內容或者檔案，這些內容也是網頁的有機整體。但對於瀏覽器來說，它是如何處理這些額外的檔案的呢？首先瀏覽器先下載html檔案，然後根據需要，下載JS等額外檔案，它會自動去下載它們，如果我們要爬取這些網頁中的動態

使用scrapy爬取小說網站

宣告：僅供學習交流使用 items.py ->內容模板 import scrapy class QqduItem(scrapy.Item): book = scrapy.Fie

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書資訊

我們將要爬取哪些資訊：書名、連結、評分、一句話評價…… 1. 爬取單個資訊我們先來嘗試爬取書名，利用之前的套路，還是先複製書名的xpath：得到第一本書《追風箏的人》的書名xpath如下： //*[@id=

爬取豆瓣的圖書資訊

emmm，感謝豆瓣提供的平臺，爬也沒那麼多反爬蟲機制。於是順手爬了。。。# coding:utf-8# 採集豆瓣書資訊和圖片，寫進資料庫from urllib import parsefrom urllib import requestfrom lxml import etr

43.scrapy爬取鏈家網站二手房資訊-1

首先分析：目的：採集鏈家網站二手房資料1.先分析一下二手房主介面資訊，顯示情況如下：url = https://gz.lianjia.com/ershoufang/pg1/顯示總資料量為27589套，但是頁面只給返回100頁的資料，每頁30條資料，也就是隻給返回3000條資料。

44.scrapy爬取鏈家網站二手房資訊-2

全面採集二手房資料：網站二手房總資料量為27650條，但有的引數欄位會出現一些問題，因為只給返回100頁資料，具體檢視就需要去細分請求url引數去請求網站資料。我這裡大概的獲取了一下篩選條件引數，一些存在問題也沒做細化處理，大致的採集資料量為21096，實際19794條。看一下執行完成結果： {'d

利用scrapy輕鬆爬取招聘網站資訊並存入MySQL

前言 Scrapy版本：1.4； Python版本：3.6； OS：win10；本文完整專案程式碼：完整示例；本文目標：通過爬取騰訊招聘網站招聘崗位，熟悉scrapy，並掌握資料庫儲存操作；一、準備工作 ♣ 基礎工作首先你要安裝S

scrapy爬取愛上租網站的房源資訊（一）

爬取的頁面如下：愛上租的租房頁面需要爬取該頁面下所有房間的基本資訊 scrapy框架的安裝和使用教程參考以下連結 http://www.scrapyd.cn/doc/178.html 首先在spiders目錄下新建一個house_spider.py，將上面爬

scrapy爬取西刺網站ip

close mon ins css pro bject esp res first # scrapy爬取西刺網站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem clas

python scrapy爬取皇冠體育源碼下載網站數據二（scrapy使用詳細介紹）

時間源碼保存文件 i+1 zh-cn china flat url def 1、scrapy工程創建皇冠體育源碼下載論壇：haozbbs.com Q1446595067 在命令行輸入如下命令，創建一個使用scrapy框架的工程 scrapy startproject s

scrapy爬取京東商城某一類商品的資訊和評論（二）

2、任務二：爬取商品評論資訊如果不需要爬取使用者的地域資訊，那麼用這個網址爬就好： http://club.jd.com/review/10321370917-1-1-0.html 其中10321370917是商品的ID，評論的第一頁就是 -1-1-0.htm

scrapy爬取京東商城某一類商品的資訊和評論（一）

剛寫完京東爬蟲，趁著記憶還深刻，寫點總結吧。一、前提預設已用scrapy爬取過網站，有爬蟲基礎，有爬蟲環境二、以爬取電子煙為例 1、任務一：爬取商品資訊在搜尋框裡面直接搜尋電子煙，搜出來的介面，你會發現它是動態載入的。即一開始原始碼裡面只

43.scrapy爬取鏈家網站二手房信息-1

response ons tro 問題 import xtra dom nts class 首先分析：目的：采集鏈家網站二手房數據1.先分析一下二手房主界面信息，顯示情況如下：url = https://gz.lianjia.com/ershoufang/pg1/顯示

使用scrapy框架,用模擬瀏覽器的方法爬取京東上面膜資訊,並存入mysql,sqlite,mongodb資料庫

因為京東的頁面是由JavaScript動態載入的所以使用模擬瀏覽器的方法進行爬取,具體程式碼如下 : spider.py # -*- coding: utf-8 -*- import scrapy from scrapy import Request from jdpro.items

分散式scrapy+redis 爬取房天下租房資訊

利用scrapy框架結合redis分散式爬蟲 #建立專案 scrapy startproject homepro #根據提示進入指定目錄建立爬蟲 scrapy genspider home example.com #spider爬蟲 scrapy genspider -t c

利用scrapy爬取需要登入的網站的資料（包含驗證碼的處理）

利用scrapy爬取需要登入的網站的資料（包含驗證碼的處理）–以爬取豆瓣網資料為例 1、在cmd命令列中輸入 scrapy startproject douban，建立scrapy爬蟲專案 2、在cmd命令列中調整到douban專案資料夾下輸入 scrapy genspider -t

Scrapy爬取知名網站的圖書資訊

開啟虛擬環境，建立專案檔案

開啟控制檯，輸入workon py3scrapy

進入虛擬環境所在盤（我的是E盤)

建立專案檔案，輸入scrapy startproject demo（建立的專案檔案叫demo）

檢視專案目錄下的檔案，輸入tree/F demo

開啟所爬取網站，分析所爬取的內容。

編寫程式碼，實現爬蟲

執行程式碼，抓取資料

相關推薦

開啟控制檯，輸入`workon py3scrapy`

建立專案檔案，輸入`scrapy startproject demo`（建立的專案檔案叫demo）

檢視專案目錄下的檔案，輸入`tree/F demo`