用scrapy爬取京東的資料

阿新 • • 發佈：2018-12-13

# -*- coding: utf-8 -*-
import scrapy
from ..items import JdphoneItem
import sys

reload(sys)
sys.setdefaultencoding("utf-8")


class JdSpider(scrapy.Spider):
    name = 'jd'
    allowed_domains = ['jd.com']  # 有的時候寫個www.jd.com會導致search.jd.com無法爬取
    keyword = "手機"
    page = 1
    url = 'https://search.jd.com/Search?keyword=%s&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%s&cid2=653&cid3=655&page=%d&click=0 
'
    next_url = 'https://search.jd.com/s_new.php?keyword=%s&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%s&cid2=653&cid3=655&page=%d&scrolling=y&show_items=%s'

    def start_requests(self):
        yield scrapy.Request(self.url % (self.keyword, self.keyword, self.page), callback=self.parse)

     
def parse(self, response):
        """
        爬取每頁的前三十個商品，資料直接展示在原網頁中
        :param response:
        :return:
        """
        ids = []
        for li in response.xpath('//*[@id="J_goodsList"]/ul/li'):
            item = JdphoneItem()

            title = li.xpath('div/div/a/em/text()').extract()  # 標題 

            price = li.xpath('div/div/strong/i/text()').extract()  # 價格
            comment_num = li.xpath('div/div/strong/a/text()').extract()  # 評價條數
            id = li.xpath('@data-pid').extract()  # id
            ids.append(''.join(id))

            url = li.xpath('div/div[@class="p-name p-name-type-2"]/a/@href').extract()  # 需要跟進的連結

            item['title'] = ''.join(title)
            item['price'] = ''.join(price)
            item['comment_num'] = ''.join(comment_num)
            item['url'] = ''.join(url)

            if item['url'].startswith('//'):
                item['url'] = 'https:' + item['url']
            elif not item['url'].startswith('https:'):
                item['info'] = None
                yield item
                continue

            yield scrapy.Request(item['url'], callback=self.info_parse, meta={"item": item})

        headers = {'referer': response.url}
        # 後三十頁的連結訪問會檢查referer，referer是就是本頁的實際連結
        # referer錯誤會跳轉到：https://www.jd.com/?se=deny
        self.page += 1
        yield scrapy.Request(self.next_url % (self.keyword, self.keyword, self.page, ','.join(ids)),
                             callback=self.next_parse, headers=headers)

    def next_parse(self, response):
        """
        爬取每頁的後三十個商品，資料展示在一個特殊連結中：url+id(這個id是前三十個商品的id)
        :param response:
        :return:
        """
        for li in response.xpath('//li[@class="gl-item"]'):
            item = JdphoneItem()
            title = li.xpath('div/div/a/em/text()').extract()  # 標題
            price = li.xpath('div/div/strong/i/text()').extract()  # 價格
            comment_num = li.xpath('div/div/strong/a/text()').extract()  # 評價條數
            url = li.xpath('div/div[@class="p-name p-name-type-2"]/a/@href').extract()  # 需要跟進的連結

            item['title'] = ''.join(title)
            item['price'] = ''.join(price)
            item['comment_num'] = ''.join(comment_num)
            item['url'] = ''.join(url)

            if item['url'].startswith('//'):
                item['url'] = 'https:' + item['url']
            elif not item['url'].startswith('https:'):
                item['info'] = None
                yield item
                continue

            yield scrapy.Request(item['url'], callback=self.info_parse, meta={"item": item})

        if self.page < 200:
            self.page += 1
            yield scrapy.Request(self.url % (self.keyword, self.keyword, self.page), callback=self.parse)

    def info_parse(self, response):
        """
        連結跟進，爬取每件商品的詳細資訊,所有的資訊都儲存在item的一個子欄位info中
        :param response:
        :return:
        """
        item = response.meta['item']
        item['info'] = {}
        type = response.xpath('//div[@class="inner border"]/div[@class="head"]/a/text()').extract()
        name = response.xpath('//div[@class="item ellipsis"]/text()').extract()
        item['info']['type'] = ''.join(type)
        item['info']['name'] = ''.join(name)

        for div in response.xpath('//div[@class="Ptable"]/div[@class="Ptable-item"]'):
            h3 = ''.join(div.xpath('h3/text()').extract())
            if h3 == '':
                h3 = "未知"
            dt = div.xpath('dl/dt/text()').extract()
            dd = div.xpath('dl/dd[not(@class)]/text()').extract()
            item['info'][h3] = {}
            for t, d in zip(dt, dd):
                item['info'][h3][t] = d
        yield item

用scrapy爬取京東的資料

# -*- coding: utf-8 -*- import scrapy from ..items import JdphoneItem import sys reload(sys) sys.setdefaultencoding("utf-8") class JdSpider(scrapy.Spid

用scrapy爬取京東商城的商品信息

keywords XML 1.5 rom toc ons lines open 3.6 軟件環境： 1 gevent (1.2.2) 2 greenlet (0.4.12) 3 lxml (4.1.1) 4 pymongo (3.6.0) 5 pyO

用scrapy爬取京東的數據

identify allow 9.png spider main %d 網頁 pro fyi 本文目的是使用scrapy爬取京東上所有的手機數據,並將數據保存到MongoDB中。一、項目介紹主要目標 1、使用scrapy爬取京東上所有的手機數據 2、將爬取的數據

scrapy框架用post 爬取網站資料的兩種方法區別

post請求，一定要重新呼叫父類的 start_requests(self)方法方法1：（推薦）重構start_requests def start_requests(self): data = { 'source': 'index_na

用scrapy爬取搜狗Lofter圖片

request index import rap .so 圖片 file loader clas 用scrapy爬取搜狗Lofter圖片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http

scrapy爬取京東商城某一類商品的資訊和評論（二）

2、任務二：爬取商品評論資訊如果不需要爬取使用者的地域資訊，那麼用這個網址爬就好： http://club.jd.com/review/10321370917-1-1-0.html 其中10321370917是商品的ID，評論的第一頁就是 -1-1-0.htm

scrapy爬取京東商城某一類商品的資訊和評論（一）

剛寫完京東爬蟲，趁著記憶還深刻，寫點總結吧。一、前提預設已用scrapy爬取過網站，有爬蟲基礎，有爬蟲環境二、以爬取電子煙為例 1、任務一：爬取商品資訊在搜尋框裡面直接搜尋電子煙，搜出來的介面，你會發現它是動態載入的。即一開始原始碼裡面只

用python爬取股票資料的一點小結

一、背景網上對於爬取股票資料有相對完善的教程。不過大部分教程都是隻能夠爬取一段時間的股票資料，針對某一隻股票的歷史資料爬取，目前還沒有看到比較好的教程。下面對近期學的東西進行一點點小結。二、股票資料爬取網站網上更多推薦的是東方財富的股票資料，連結為：http://quote.eas

經典爬蟲：用Scrapy爬取百度股票

前言今天我們編寫一個用 Scrapy 框架來爬取百度股票的程式碼，之前寫過一篇爬取百度股票的文章（點我），程式碼的邏輯和這篇文章的邏輯是一樣的，用到的解析器不同罷了。 Scrapy 爬蟲框架 Scrapy 爬蟲框架是由 7+2 的結構構成：引擎

用 scrapy 爬取 xml 源

1.建立專案資料夾：scrapy startproject myxml 2.編輯 items 檔案，定義要儲存的結構化資料 3.建立一個爬蟲檔案用於分析 XML 源： 1)scrapy genspider -l 先查詢可使用爬蟲模板檔案 2)scrapy genspider -t x

爬取京東資料

import re from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By fro

用scrapy爬取有用的免費的西刺代理

爬蟲為什麼要使用代理伺服器？可以總結為以下幾點： 1.我們在使用python爬蟲爬取一個網站時，通常會頻繁訪問該網站。網站的反爬蟲技術就會檢某一段時間某個IP的訪問次數，如果訪問次數過多，它就會禁用你的IP，所以我們可以設定一些代理伺服器來幫助你做工作，每隔一段時間

Scrapy爬取京東商城華為全系列手機評論

本文轉自：https://mp.weixin.qq.com/s?__biz=MzA4MTk3ODI2OA==&mid=2650342004&idx=1&sn=4d270ab7ca54f6f2f7ec7aca113993f4&chksm=87811487b0f

scrapy 爬取的資料儲存到exce表格中

只需把爬取過來的資料yield出來,並在pipelines中定義表格即可。from openpyxl import Workbook from Job import settings class JobPipeline(object): # 設定工序一 wb =

用scrapy爬取ttlsa博文相關數據存儲至mysql

添加 contains exec 什麽 dev paths 爬取 spa mark 運維生存時間這個博客內容還是比較詳盡的,對與運維技術人員的我來說,是偶爾溜達進來的地方,從中也學習到不少知識，感謝博主的奉獻! 這段時間我就通過scrapy來收集下此博客內文章的相關數據,供

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

scrapy爬取京東

new tro allow 錯誤 head spa hone strong esp 京東對於爬蟲來說太友好了，不向天貓跟淘寶那樣的喪心病狂，本次爬蟲來爬取下京東，研究下京東的數據是如何獲取的。 1 # 目標網址： jd.com 2 # 關鍵字：手機（任意關鍵字，本

scrapy 爬取京東例子

#-*- encoding: UTF-8 -*- #---------------------------------import------------------------------------ import scrapy import re from tutoria

用Scrapy爬取筆趣閣小說

今天早上無聊，去筆趣閣扒了點小說存Mongodb裡存著，想著哪天做一個小說網站有點用，無奈網太差，爬了一個小時就爬了幾百章，爬完全網的小說，不知道要到猴年馬月去了。再說說scrapy這個爬蟲框架，真是不用不知道，一用嚇一跳，這個實在太好用了，比自己用request，Beaut

scrapy爬取海量資料並儲存在MongoDB和MySQL資料庫中

前言一般我們都會將資料爬取下來儲存在臨時檔案或者控制檯直接輸出，但對於超大規模資料的快速讀寫，高併發場景的訪問，用資料庫管理無疑是不二之選。首先簡單描述一下MySQL和MongoDB的區別：MySQL與MongoDB都是開源的常用資料庫，MySQL是傳

用scrapy爬取京東的資料

相關推薦