我的第一個Scrapy 程序 - 爬取當當網信息

阿新 • • 發佈：2018-02-06

ref http ide ces passwd lds url ext !=

前面已經安裝了Scrapy，下面來實現第一個測試程序。

概述

Scrapy是一個爬蟲框架，他的基本流程如下所示（下面截圖來自互聯網）

技術分享圖片

簡單的說，我們需要寫一個item文件，定義返回的數據結構；寫一個spider文件，具體爬取的數據程序，以及一個管道 pipeline 文件，作為後續操作，比如保存數據等等。

下面以當當網為例，看看怎麽實現。
這個例子裏面我想爬取的內容是前面20頁的羽絨服產品，包括產品名字，鏈接和評論數。

過程

1. 創建一個Scrapy的項目

scrapy startproject dangdang

2. 創建一個爬蟲文件**

scrapy genspider -t basic dd dangdang.com

這樣他會自動創建一個爬蟲文件，結構如下所示：
技術分享圖片

3. 編寫items.py

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class DangdangItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

    title=scrapy.Field()
    url=scrapy.Field()
    comment=scrapy.Field()

4. 編寫爬蟲文件dd.py

前面第二步已經自動生成了一個模板，我們直接修改就行。
dd.py

# -*- coding: utf-8 -*-

import scrapy
from dangdang.items import DangdangItem
from scrapy.http import Request

class DdSpider(scrapy.Spider):
    name = ‘dd‘
    allowed_domains = [‘dangdang.com‘]
    start_urls = [‘http://category.dangdang.com/pg1-cid4010275.html‘]

    def parse(self, response):

        item=DangdangItem()
        item[‘title‘]=response.xpath(u"//a[@dd_name=‘單品標題‘]/text()").extract()
        item[‘url‘]=response.xpath("//a[@dd_name=‘單品標題‘]/@href").extract()
        item[‘comment‘]=response.xpath("//a[@dd_name=‘單品評論‘]/text()").extract()
        text = response.body
        # content_type = chardet.detect(text)
        # if content_type[‘encoding‘] != ‘UTF-8‘:
        #     text = text.decode(content_type[‘encoding‘])
        # text = text.encode(‘utf-8‘)
        # print(text)

        yield item

        for i in range(2,20):
            url=‘http://category.dangdang.com/pg%d-cid4010275.html‘%i
            yield Request(url,callback=self.parse)

5. 編寫pipelines.py

為了使用pipeline，配置文件需要做個小修改，我順便關掉了對robot文件的確認
settings.py

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {
   ‘dangdang.pipelines.DangdangPipeline‘: 300,
}

pipeline.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymysql

class DangdangPipeline(object):
    def process_item(self, item, spider):
        conn=pymysql.connect(host=‘127.0.0.1‘,user=‘root‘,passwd=‘root‘,db=‘dangdang‘,use_unicode=True,charset=‘utf8‘)
        for i in range(0,len(item[‘title‘])):
            title=item[‘title‘][i]
            link=item[‘url‘][i]
            comment=item[‘comment‘][i]

            print(type(title))
            print(title)
            # sql="insert into dd(title,link,comment) values (‘"+title+"‘,‘"+link+"‘,‘"+comment+"‘)"
            sql = "insert into dd(title,link,comment) values(‘" + title + "‘,‘" + link + "‘,‘" + comment + "‘)"
            try:
                conn.query(sql)
            except Exception as err:
                pass
        conn.close()

        return item

6. 創建數據庫和表

我最後的數據要保存到mysql裏面，python裏面可以通過pymysql進行操作。我提前在mysql命令行界面裏面創建了一個數據庫和空表

mysql> create database dangdang;
mysql> create table dd(id int auto_increment primary, title varchar(100), link varchar(100), comment varchar(32));

7. 執行

scrapy crawl dd
如果不想看日誌可以使用
scrapy crawl dd --nolog

8. 檢測結果

test.py

#！/usr/bin/env python
#! -*- coding:utf-8 -*-
# Author: Yuan Li
import pymysql
conn=pymysql.connect(host=‘127.0.0.1‘,user=‘root‘,passwd=‘root‘,db=‘dangdang‘,use_unicode=True,charset=‘utf8‘)

cursor = conn.cursor(cursor=pymysql.cursors.DictCursor)
#SQL查詢
cursor.execute("select * from dd")
row=cursor.fetchall()
for i in row:
    print(i)
conn.close()

結果測試成功

技術分享圖片

我的第一個Scrapy 程序 - 爬取當當網信息

ref http ide ces passwd lds url ext != 前面已經安裝了Scrapy，下面來實現第一個測試程序。概述 Scrapy是一個爬蟲框架，他的基本流程如下所示（下面截圖來自互聯網）簡單的說，我們需要寫一個item文件，定義返回的數據結構；寫

scrapy案例:爬取翼蜂網絡新聞列表和詳情頁面

model rap name lB htm nod meta http AR # -*- coding: utf-8 -*- import scrapy from Demo.items import DemoItem class AbcSpider(scrapy.Sp

Python：scrapy框架爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案 xiaohuawang/: 該專案的python模組。之後您將在此加入程

Python的scrapy之爬取鏈家網房價資訊並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。先看mylian

Python的scrapy之爬取鏈家網房價信息並保存到本地

width gif pat lse idt ext tst maximum spa 因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並保存到本地。先看鏈家網的源碼。。房價信息都保存在 ul 下的li 裏面 ? 爬蟲結構： ? 其中封裝了一

python爬蟲(16)使用scrapy框架爬取頂點小說網

本文以scrapy 框架來爬取整個頂點小說網的小說 1.scrapy的安裝這個安裝教程，網上有很多的例子，這裡就不在贅述了 2.關於scrapy scrapy框架是一個非常好的東西，能夠實現非同步爬取，節省時間，其實本文純粹的按照之前的思維來做，也不是不可以，但是感

Python爬蟲【實戰篇】scrapy 框架爬取某招聘網存入mongodb

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構 items.py title = scrapy.Field()

使用BeautifulSoup爬取“0daydown”站點的信息（2）——字符編碼問題解決

snippet sni 結束編碼錯誤 charset utf 教程作者 request 上篇中的程序實現了抓取0daydown最新的10頁信息。輸出是直接輸出到控制臺裏面。再次改進代碼時我準備把它們寫入到一個TXT文檔中。這是問題就出來了。最初我的代碼例如以

Python 爬取淘寶商品信息和相應價格

獲得 com ppa pri 大小 light parent tps 爬取！只用於學習用途！ plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html) ：獲得商品價格和view_price字段，並保存在plt中 tlt =

爬取ofo共享單車信息

tco tty -s 返回 es2017 ram mac os x common market 　　前段時間看到很多微信公眾號在轉發一篇爬取mobike單車的信息，也不知道什麽原因，在網上搜索了下很少有人在爬取ofo共享單車的數據，所以決定看看可以爬取ofo共享單車的那些數

python爬取nba今天的信息

headers pri 獨行俠 agent ade 偉大的 mozilla 勝利開拓者最近無聊在寫python爬蟲，分享一個爬去nba今天信息的python腳本，可能沒寫的美觀，有優化的請大神指點！? /test sudo vim nba.py #!/usr/bin/

Python爬取CFDA化妝品生產信息

req image src 態度天使後悔協議中心 source 環境：Python3.6+Windows 開發工具：你喜歡用啥就用啥，總而言之，言而總之你開心就好使用的Python模塊 requests Requests 是用Python語言編寫，基於u

利用Selenium爬取淘寶商品信息

支持 down oca ace element 掃描 coo name implicit 一. Selenium和PhantomJS介紹 Selenium是一個用於Web應用程序測試的工具，Selenium直接運行在瀏覽器中，就像真正的用戶在操作一樣。由於這個性質，Sel

使用requests、re、BeautifulSoup、線程池爬取攜程酒店信息並保存到Excel中

備案 info imp lis sub host write count star import requests import json import re import csv import threadpool import time, random

爬取京東商城商品信息

final finall pan __name__ cit spi web 爬取 webdriver from selenium import webdriver from selenium.webdriver import ActionChains from se

利用爬蟲、SMTP和樹莓派3B發送郵件(爬取墨跡天氣預報信息)

zip ont 一份 receive 編譯 zh-cn 郵件接受 code -----------------------------------------------------------學無止境-----------------------------------

我的第一個UWP程序

為什麽 aml blog click 更多想象力圖標版本 pan 1.為什麽喜歡UWP 本人無悔入網易雲音樂，各種設備上都少不了這個紅色圖標的軟件從win10發布，網易做了UWP版本的雲音樂應用輕巧、簡潔、功能全，接著又下了許多UWP的應用都給人不一樣的感覺，從

我在linux的第一個C程序

自帶 nbsp str logs c++ world 命令直接生活今天在虛擬機裝起了linux，根據大家學習所需要，可以安裝自己喜歡的版本，我這裏裝的是centos 7.0版本，也正是學習的開始，現在來看看簡潔大氣的centos界面吧；在centos編譯C程

我的第一個JS程序

js 第一個我的第一個小程序：<!DOCTYPE HTML><html><head><meta charset="utf-8"><title>第二個</title></head> <body

Java版GA_TSP（我的第一個Java程序）

結果 end figure 數列 fit 部分遺傳 ret 平衡　　嗯哼，第一次寫博客，準確說是第一次通過文字的方式記錄自己的工作，閑話少敘，技術汪的博客就該直奔技術主題（關於排版問題，會在不斷寫博客的過程中慢慢學習，先將就著用吧，重在技術嘛~~~）。　　遺傳算法（G

我的第一個Scrapy 程序 - 爬取當當網信息

概述

過程

1. 創建一個Scrapy的項目

2. 創建一個爬蟲文件**

3. 編寫items.py

4. 編寫爬蟲文件dd.py

5. 編寫pipelines.py

6. 創建數據庫和表

7. 執行

8. 檢測結果

相關推薦