用scrapy爬取京東商城的商品信息

阿新 • • 發佈：2018-01-25

keywords XML 1.5 rom toc ons lines open 3.6

軟件環境：

 1 gevent (1.2.2)
 2 greenlet (0.4.12)
 3 lxml (4.1.1)
 4 pymongo (3.6.0)
 5 pyOpenSSL (17.5.0)
 6 requests (2.18.4)
 7 Scrapy (1.5.0)
 8 SQLAlchemy (1.2.0)
 9 Twisted (17.9.0)
10 wheel (0.30.0)

1.創建爬蟲項目

2創建京東網站爬蟲. 進入爬蟲項目目錄，執行命令：

scrapy genspider jd www.jd.com

會在spiders目錄下會創建和你起的名字一樣的py文件：jd.py，這個文件就是用來寫你爬蟲的請求和響應邏輯的

3. jd.py文件配置

分析的amazon網站的url規則：

https://search.jd.com/Search?

以防關鍵字是中文，所以要做urlencode 1.首先寫一個start_request函數，用來發送第一次請求，並把請求結果發給回調函數parse_index，同時把reponse返回值傳遞給回調函數,response類型<class ‘scrapy.http.response.html.HtmlResponse‘>

 1     def start_requests(self):
 2 
         # https://www.amazon.cn/s/ref=nb_sb_ss_i_1_6?field-keywords=macbook+pro
 3         # 拼接處符合條件的URL地址
 4         # 並通過scrapy.Requst封裝請求，並調用回調函數parse_index處理,同時會把response傳遞給回調函數
 6         url = ‘https://search.jd.com/Search?‘
 7         # 拼接的時候field-keywords後面是不加等號的
 9         url += urlencode({" 
keyword": self.keyword, "enc": "utf-8"})
10         yield scrapy.Request(url,
11                              callback=self.parse_index,
12                              )

2.parse_index從reponse中獲取所有的產品詳情頁url地址，並遍歷所有的url地址發送request請求，同時調用回調函數parse_detail去處理結果

 1 def parse_detail(self, response):
 2     """
 3     接收parse_index的回調，並接收response返回值，並解析response
 4     :param response:
 5     :return:
 6     """
 7     jd_url = response.url
 8     sku = jd_url.split(‘/‘)[-1].strip(".html")
 9     # price信息是通過jsonp獲取，可以通過開發者工具中的script找到它的請求地址
10     price_url = "https://p.3.cn/prices/mgets?skuIds=J_" + sku
11     response_price = requests.get(price_url)
12     # extraParam={"originid":"1"}  skuIds=J_3726834
13     # 這裏是物流信息的請求地址，也是通過jsonp發送的，但目前沒有找到它的參數怎麽獲取的，這個是一個固定的參數，如果有哪位大佬知道，好望指教
14     express_url = "https://c0.3.cn/stock?skuId=3726834&area=1_72_4137_0&cat=9987,653,655&extraParam={%22originid%22:%221%22}"
15     response_express = requests.get(express_url)
16     response_express = json.loads(response_express.text)[‘stock‘][‘serviceInfo‘].split(‘>‘)[1].split(‘<‘)[0]
17     title = response.xpath(‘//*[@class="sku-name"]/text()‘).extract_first().strip()
18     price = json.loads(response_price.text)[0][‘p‘]
19     delivery_method = response_express
20     # # 把需要的數據保存到Item中，用來會後續儲存做準備
21     item = AmazonItem()
22     item[‘title‘] = title
23     item[‘price‘] = price
24     item[‘delivery_method‘] = delivery_method
25 
26     # 最後返回item，如果返回的數據類型是item，engine會檢測到並把返回值發給pipelines處理
27     return item

4. item.py配置

 1 import scrapy
 2 
 3 
 4 class JdItem(scrapy.Item):
 5     # define the fields for your item here like:
 6     # name = scrapy.Field()
 7     # amazome Item
 8     title = scrapy.Field()
 9     price = scrapy.Field()
10     delivery_method = scrapy.Field()

5. pipelines.py配置

 1 from pymongo import MongoClient
 2 
 3 
 4 class MongoPipeline(object):
 5     """
 6     用來保存數據到MongoDB的pipeline
 7     """
 8 
 9     def __init__(self, db, collection, host, port, user, pwd):
10         """
11         連接數據庫
12         :param db: databaes name
13         :param collection: table name
14         :param host: the ip for server
15         :param port: thr port for server
16         :param user: the username for login
17         :param pwd: the password for login
18         """
19         self.db = db
20         self.collection = collection
21         self.host = host
22         self.port = port
23         self.user = user
24         self.pwd = pwd
25 
26     @classmethod
27     def from_crawler(cls, crawler):
28         """
29         this classmethod is used for to get the configuration from settings
30         :param crwaler:
31         :return:
32         """
33         db = crawler.settings.get(‘DB‘)
34         collection = crawler.settings.get(‘COLLECTION‘)
35         host = crawler.settings.get(‘HOST‘)
36         port = crawler.settings.get(‘PORT‘)
37         user = crawler.settings.get(‘USER‘)
38         pwd = crawler.settings.get(‘PWD‘)
39 
40         return cls(db, collection, host, port, user, pwd)
41 
42     def open_spider(self, spider):
43         """
44         run once time when the spider is starting
45         :param spider:
46         :return:
47         """
48         # 連接數據庫
50         self.client = MongoClient("mongodb://%s:%s@%s:%s" % (
51             self.user,
52             self.pwd,
53             self.host,
54             self.port
55         ))
56 
57     def process_item(self, item, spider):
58         """
59         storage the data into database
60         :param item:
61         :param spider:
62         :return:
63         """
　　　　　　# 獲取item數據，並轉換成字典格式

64         d = dict(item)
　　　　　　 # 有空值得不保存
65         if all(d.values()):
　　　　　　　　　　# 保存到mongodb中
66             self.client[self.db][self.collection].save(d)
67         return item
68 
69         # 表示將item丟棄，不會被後續pipeline處理
70         # raise DropItem()

6. 配置文件

 1 # database server
 2 DB = "jd"
 3 COLLECTION = "goods"
 4 HOST = "127.0.0.1"
 5 PORT = 27017
 6 USER = "root"
 7 PWD = "123"
 8 ITEM_PIPELINES = {
 9    ‘MyScrapy.pipelines.MongoPipeline‘: 300,
10 }

技術分享圖片

用scrapy爬取京東商城的商品信息

爬取京東商城商品信息

final finall pan __name__ cit spi web 爬取 webdriver from selenium import webdriver from selenium.webdriver import ActionChains from se

用scrapy爬取京東商城的商品信息

keywords XML 1.5 rom toc ons lines open 3.6 軟件環境： 1 gevent (1.2.2) 2 greenlet (0.4.12) 3 lxml (4.1.1) 4 pymongo (3.6.0) 5 pyO

scrapy爬取京東商城某一類商品的資訊和評論（二）

2、任務二：爬取商品評論資訊如果不需要爬取使用者的地域資訊，那麼用這個網址爬就好： http://club.jd.com/review/10321370917-1-1-0.html 其中10321370917是商品的ID，評論的第一頁就是 -1-1-0.htm

scrapy爬取京東商城某一類商品的資訊和評論（一）

剛寫完京東爬蟲，趁著記憶還深刻，寫點總結吧。一、前提預設已用scrapy爬取過網站，有爬蟲基礎，有爬蟲環境二、以爬取電子煙為例 1、任務一：爬取商品資訊在搜尋框裡面直接搜尋電子煙，搜出來的介面，你會發現它是動態載入的。即一開始原始碼裡面只

scrapy框架爬取京東商城商品的評論

一、Scrapy介紹 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。所謂網路爬蟲，就是一個在網上到處或定向抓取資料的程式，當然，這種說法不夠專業，更專業的描述就是，抓取特定網站網頁的H

用scrapy爬取京東的數據

identify allow 9.png spider main %d 網頁 pro fyi 本文目的是使用scrapy爬取京東上所有的手機數據,並將數據保存到MongoDB中。一、項目介紹主要目標 1、使用scrapy爬取京東上所有的手機數據 2、將爬取的數據

用scrapy爬取京東的資料

# -*- coding: utf-8 -*- import scrapy from ..items import JdphoneItem import sys reload(sys) sys.setdefaultencoding("utf-8") class JdSpider(scrapy.Spid

Scrapy爬取京東商城華為全系列手機評論

本文轉自：https://mp.weixin.qq.com/s?__biz=MzA4MTk3ODI2OA==&mid=2650342004&idx=1&sn=4d270ab7ca54f6f2f7ec7aca113993f4&chksm=87811487b0f

利用python爬蟲爬取京東商城商品圖片

筆者曾經用python第三方庫requests來爬取京東商城的商品頁內容，經過解析之後發現只爬到了商品頁一半的圖片。（這篇文章我們以爬取智慧手機圖片為例）當滑鼠沒有向下滑時，此時檢視原始碼的話，就會看到上圖的內容，只有三十個 li 標籤（一個li標籤中有一個圖片地址）。但是滑

Python的網路爬蟲小系統——爬取京東商城商品資訊

import time from selenium import webdriver keyword = input('請輸入你要搜尋的關鍵字：') brow = webdriver.Firefox() brow.get('http://www.jd.com') searc

Python 爬取淘寶商品信息和相應價格

獲得 com ppa pri 大小 light parent tps 爬取！只用於學習用途！ plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html) ：獲得商品價格和view_price字段，並保存在plt中 tlt =

利用Selenium爬取淘寶商品信息

支持 down oca ace element 掃描 coo name implicit 一. Selenium和PhantomJS介紹 Selenium是一個用於Web應用程序測試的工具，Selenium直接運行在瀏覽器中，就像真正的用戶在操作一樣。由於這個性質，Sel

用scrapy爬取搜狗Lofter圖片

request index import rap .so 圖片 file loader clas 用scrapy爬取搜狗Lofter圖片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http

我的第一個Scrapy 程序 - 爬取當當網信息

ref http ide ces passwd lds url ext != 前面已經安裝了Scrapy，下面來實現第一個測試程序。概述 Scrapy是一個爬蟲框架，他的基本流程如下所示（下面截圖來自互聯網）簡單的說，我們需要寫一個item文件，定義返回的數據結構；寫

scrapy 爬取天貓商品資訊

spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co

經典爬蟲：用Scrapy爬取百度股票

前言今天我們編寫一個用 Scrapy 框架來爬取百度股票的程式碼，之前寫過一篇爬取百度股票的文章（點我），程式碼的邏輯和這篇文章的邏輯是一樣的，用到的解析器不同罷了。 Scrapy 爬蟲框架 Scrapy 爬蟲框架是由 7+2 的結構構成：引擎

用 scrapy 爬取 xml 源

1.建立專案資料夾：scrapy startproject myxml 2.編輯 items 檔案，定義要儲存的結構化資料 3.建立一個爬蟲檔案用於分析 XML 源： 1)scrapy genspider -l 先查詢可使用爬蟲模板檔案 2)scrapy genspider -t x

python爬蟲爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:utf

python爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:

用scrapy爬取有用的免費的西刺代理

爬蟲為什麼要使用代理伺服器？可以總結為以下幾點： 1.我們在使用python爬蟲爬取一個網站時，通常會頻繁訪問該網站。網站的反爬蟲技術就會檢某一段時間某個IP的訪問次數，如果訪問次數過多，它就會禁用你的IP，所以我們可以設定一些代理伺服器來幫助你做工作，每隔一段時間

用scrapy爬取京東商城的商品信息

軟件環境：

1.創建爬蟲項目

2創建京東網站爬蟲. 進入爬蟲項目目錄，執行命令：

3. jd.py文件配置

4. item.py配置

5. pipelines.py配置

6. 配置文件

相關推薦