scrapy爬取京東商城某一類商品的資訊和評論（二）

阿新 • • 發佈：2018-11-01

2、任務二：爬取商品評論資訊

如果不需要爬取使用者的地域資訊，那麼用這個網址爬就好：

http://club.jd.com/review/10321370917-1-1-0.html

其中10321370917是商品的ID，評論的第一頁就是 -1-1-0.html，第二頁就是-1-2-0.html。

之前商品不是存了評論總數嗎，一頁30個評論，除一下就可以知道多少頁了，或者直接抓取下一頁的連結也行。

但是這裡的評論是沒有使用者地區資訊的。下面放兩個圖對比一下

沒地區資訊的：

有地區資訊的：

因此如果不需要地區資訊，就按上面的方法抓取就好，很簡單。但是如果要地區資訊的話，就會複雜一些了。因為你會發現商品詳情頁中的評論也是動態載入的，不管你點第一頁，網址都不變。

老套路，從評論第一頁點到第二頁看network，看都載入了什麼檔案，找出有評論資訊的檔案。

這個比起前面的就少太多東西了。而且只有一個script檔案，不用找，就是它了，點開看看。

很多東西，用線上json解析網站解析一下，對比一下詳情頁的評論發現可以對應上。接下來看看網址：

http://sclub.jd.com/productpage/p-10321370917-s-0-t-3-p-1.html?callback=fetchJSON_comment98vv341

10321370917 是商品ID，第一頁是s-0-t-3-p-1 第二頁是s-0-t-3-p-2 第三頁是s-0-t-3-p-3 這個規律試一試就知道了

fetchJSON_comment98vv341去不掉，而且修改341網頁也會變。這時候我們需要去找找這個341在哪。

點開詳情頁的原始碼，ctrl+F搜尋一下341，發現有一個叫commentVersion的東西，所以在抓取詳情頁的時候需要存一下commentVersion後面的值，在這裡會用到。

看到上一篇抓取商品資訊博文的就知道，之前有個鋪墊。

這部分程式碼：

def parse(self, response):
        temp1 = response.body.split('productAttr')
        # if len(temp1) < 2:
        #     item2 = commentItem()
        #     item2['content'] = response.url.encode('utf-8')
        #     return item2
        #
        str = '{"productAttr' + temp1[1][:-2]
        str = str.decode("gbk").encode("utf-8")
        js = json.loads(unicode(str, "utf-8"))
        comments = js['comments']  # 該頁所有評論

        items = []
        for comment in comments:
            item1 = commentItem()
            item1['user_name'] = comment['nickname']
            item1['user_ID'] = comment['id']
            item1['userProvince'] = comment['userProvince']
            item1['content'] = comment['content']
            item1['good_ID'] = comment['referenceId']
            item1['good_name'] = comment['referenceName']
            item1['date'] = comment['referenceTime']
            item1['replyCount'] = comment['replyCount']
            item1['score'] = comment['score']
            item1['status'] = comment['status']
            title = ""
            if comment.has_key('title'):
                item1['title'] = comment['title']
            item1['title'] = title
            item1['userRegisterTime'] = comment['userRegisterTime']
            item1['productColor'] = comment['productColor']
            item1['productSize'] = comment['productSize']
            item1['userLevelName'] = comment['userLevelName']
            item1['isMobile'] = comment['isMobile']
            item1['days'] = comment['days']
            tags = ""
            if comment.has_key('commentTags'):
                for i in comment['commentTags']:
                    tags = tags + i['name'] + " "
            item1['commentTags'] = tags
            items.append(item1)
        return items

最後儲存到資料庫的資料如下圖：

全部程式碼已上傳github：

https://github.com/xiaoquantou/jd_spider

scrapy爬取京東商城某一類商品的資訊和評論（二）

2、任務二：爬取商品評論資訊如果不需要爬取使用者的地域資訊，那麼用這個網址爬就好： http://club.jd.com/review/10321370917-1-1-0.html 其中10321370917是商品的ID，評論的第一頁就是 -1-1-0.htm

scrapy爬取京東商城某一類商品的資訊和評論（一）

剛寫完京東爬蟲，趁著記憶還深刻，寫點總結吧。一、前提預設已用scrapy爬取過網站，有爬蟲基礎，有爬蟲環境二、以爬取電子煙為例 1、任務一：爬取商品資訊在搜尋框裡面直接搜尋電子煙，搜出來的介面，你會發現它是動態載入的。即一開始原始碼裡面只

Scrapy爬取京東商城華為全系列手機評論

本文轉自：https://mp.weixin.qq.com/s?__biz=MzA4MTk3ODI2OA==&mid=2650342004&idx=1&sn=4d270ab7ca54f6f2f7ec7aca113993f4&chksm=87811487b0f

用scrapy爬取京東商城的商品信息

keywords XML 1.5 rom toc ons lines open 3.6 軟件環境： 1 gevent (1.2.2) 2 greenlet (0.4.12) 3 lxml (4.1.1) 4 pymongo (3.6.0) 5 pyO

【原創】Python+Scrapy+Selenium簡單爬取淘寶天貓商品資訊及評論

（轉載請註明出處）哈嘍，大家好~前言：這次寫這個小指令碼的目的是為了給老師幫個小忙，爬取某一商品的資訊，寫完覺得這個程式似乎也可以用在更普遍的地方，所以就放出來給大家看看啦，然後因為是在很短時間寫的，所以自然有很多不足之處，想著總之實現了功能再說吧，程式碼太醜大不了之後再重構

Python 爬取網頁中JavaScript動態添加的內容（二）

python tab sta exe div int rom ava script 使用 selenium + phantomjs 實現 1、準備環境 selenium（一個用於web應用程測試的工具）安裝：pip install seleniumphantomjs（是

scrapy框架爬取京東商城商品的評論

一、Scrapy介紹 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。所謂網路爬蟲，就是一個在網上到處或定向抓取資料的程式，當然，這種說法不夠專業，更專業的描述就是，抓取特定網站網頁的H

利用python爬蟲爬取京東商城商品圖片

筆者曾經用python第三方庫requests來爬取京東商城的商品頁內容，經過解析之後發現只爬到了商品頁一半的圖片。（這篇文章我們以爬取智慧手機圖片為例）當滑鼠沒有向下滑時，此時檢視原始碼的話，就會看到上圖的內容，只有三十個 li 標籤（一個li標籤中有一個圖片地址）。但是滑

Python的網路爬蟲小系統——爬取京東商城商品資訊

import time from selenium import webdriver keyword = input('請輸入你要搜尋的關鍵字：') brow = webdriver.Firefox() brow.get('http://www.jd.com') searc

爬取京東商城商品信息

final finall pan __name__ cit spi web 爬取 webdriver from selenium import webdriver from selenium.webdriver import ActionChains from se

用scrapy爬取京東的數據

identify allow 9.png spider main %d 網頁 pro fyi 本文目的是使用scrapy爬取京東上所有的手機數據,並將數據保存到MongoDB中。一、項目介紹主要目標 1、使用scrapy爬取京東上所有的手機數據 2、將爬取的數據

用scrapy爬取京東的資料

# -*- coding: utf-8 -*- import scrapy from ..items import JdphoneItem import sys reload(sys) sys.setdefaultencoding("utf-8") class JdSpider(scrapy.Spid

scrapy爬取京東

new tro allow 錯誤 head spa hone strong esp 京東對於爬蟲來說太友好了，不向天貓跟淘寶那樣的喪心病狂，本次爬蟲來爬取下京東，研究下京東的數據是如何獲取的。 1 # 目標網址： jd.com 2 # 關鍵字：手機（任意關鍵字，本

scrapy 爬取京東例子

#-*- encoding: UTF-8 -*- #---------------------------------import------------------------------------ import scrapy import re from tutoria

利用Eclipse-Python簡單爬取京東商城書籍資訊進行視覺化

【實驗目的】熟悉從網上爬取資料到將資料進行視覺化的全部流程，通過例項瞭解並掌握每個過程。瞭解爬蟲爬取資料的原理，並選擇一種語言程式設計，將資料獲取到資料庫。熟練使用 eclipse 中 Java 語言操作資料庫資料。瞭解 ECharts 中各種圖的特

43.scrapy爬取鏈家網站二手房資訊-1

首先分析：目的：採集鏈家網站二手房資料1.先分析一下二手房主介面資訊，顯示情況如下：url = https://gz.lianjia.com/ershoufang/pg1/顯示總資料量為27589套，但是頁面只給返回100頁的資料，每頁30條資料，也就是隻給返回3000條資料。

44.scrapy爬取鏈家網站二手房資訊-2

全面採集二手房資料：網站二手房總資料量為27650條，但有的引數欄位會出現一些問題，因為只給返回100頁資料，具體檢視就需要去細分請求url引數去請求網站資料。我這裡大概的獲取了一下篩選條件引數，一些存在問題也沒做細化處理，大致的採集資料量為21096，實際19794條。看一下執行完成結果： {'d

python爬蟲爬取淘寶搜尋頁面商品資訊資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料以下是原始碼： #!coding=utf-8 import requests import re import

scrapy爬取愛上租網站的房源資訊（一）

爬取的頁面如下：愛上租的租房頁面需要爬取該頁面下所有房間的基本資訊 scrapy框架的安裝和使用教程參考以下連結 http://www.scrapyd.cn/doc/178.html 首先在spiders目錄下新建一個house_spider.py，將上面爬

利用Scrapy爬取所有知乎使用者詳細資訊並存至MongoDB

本節目標本節要實現的內容有：從一個大V使用者開始，通過遞迴抓取粉絲列表和關注列表，實現知乎所有使用者的詳細資訊的抓取。將抓取到的結果儲存到 MongoDB，並進行去重操作。思路分析我們都知道每個人都有關注列表和粉絲列表，尤其對於大V來說，粉絲和關注尤其

scrapy爬取京東商城某一類商品的資訊和評論（二）

相關推薦