Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

阿新 • • 發佈：2019-01-10

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。

我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。

京東的評論資料是通過介面提供的，所以先找到這個介面。

用Firefox開啟京東網站，隨便找到一個商品頁面，點選評論，然後點選頁面右上角‘三橫’標籤，找到‘WEB開發者’，再開啟'WEB控制檯'，點選‘網路’標籤，然後點選’下一頁‘，找到’productPageComments.action‘這行，顯示如下。

然後在右邊方框裡找到‘訊息頭’，‘引數’，'響應'，這裡能查到偽裝瀏覽器、傳遞的引數及返回的資料資訊，這些資料資訊在程式裡都能用到。

紅框裡是回撥函式，在程式裡的變數設定裡會用到，請注意一下。完整程式如下：

 # -*- coding: utf-8 -*- 
import pandas as pd
import urllib.request as req
import json
import sys
import time
import random

print(sys.getdefaultencoding())

class JDCommentsCrawler:
    
    def __init__(self,productId=None,callback=None,page=1,score=0,sortType=5,pageSize=10):
        self.productId = productId #商品ID
        self.score = score # 評論型別（好：3、中：2、差：1、所有：0）
        self.sortType = sortType # 排序型別（推薦：5、時間：6）
        self.pageSize = pageSize # 每頁顯示多少條記錄（預設10）
        self.callback = callback # 回撥函式，每個商品都不一樣
        self.page = page
        self.locationLink = 'https://sclub.jd.com/comment/productPageComments.action'
        self.paramValue = {
            'callback':self.callback,
            'productId':self.productId,
            'score':self.score,
            'sortType':self.sortType,
            'pageSize':self.pageSize,
        }        
        self.locationUrl = None
    def paramDict2Str(self,params):        
        str1 = ''
        for p,v in params.items():
            str1 = str1+ p+'='+str(v)+'&'
        return str1
    def concatLinkParam(self):
        self.locationUrl = self.locationLink+'?'+self.paramDict2Str(self.paramValue)+'isShadowSku=0&fold=1&page=0'
        #print(self.locationUrl)
        
    def requestMethod(self):
        headers = {
            'Connection': 'Keep-Alive',
            'Accept': 'text/html, application/xhtml+xml, */*',            
            'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0',
            'Referer':'https://item.jd.com/%d.html'%(self.productId),
            'Host':'sclub.jd.com'          
        }
        reqs = req.Request(self.locationUrl,headers=headers)
        print('reqs : ',reqs)
        return reqs       
    def showList(self):
        request_m = self.requestMethod()       
        conn = req.urlopen(request_m)
        return_str = conn.read().decode('gbk')
        return_str = return_str[len(self.callback)+1:-2]
        return json.loads(return_str)   
    def requestMethodPage(self,p):
        # 偽裝瀏覽器 ，開啟網站
        headers = {
            'Connection': 'Keep-Alive',
            'Accept': 'text/html, application/xhtml+xml, */*',            
            'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0',
            'Referer':'https://item.jd.com/%d.html'%(self.productId),
            'Host':'sclub.jd.com'          
        }
        url = self.locationUrl[:-1]+str(p)
        print('url : ',url)
        reqs = req.Request(url,headers=headers)
        return reqs
    def showListPage(self,p):
        request_m = self.requestMethodPage(p)       
        conn = req.urlopen(request_m)
        return_str = conn.read().decode('gbk')
        return_str = return_str[len(self.callback)+1:-2]
        return json.loads(return_str)
    def save_csv(self,df,p):
        # 儲存檔案
        df.to_csv(path_or_buf = 'd:\\xxx\\jd\\jd_%d.csv'%p,encoding='gbk') 
 
    def crawler(self):
        # 把抓取的資料存入CSV檔案，設定時間間隔，以免被遮蔽
        dfs = []
        for p in range(self.page):
            json_info = self.showListPage(p)
            tmp_list = []
            #print(json_info)
            productCommentSummary = json_info['productCommentSummary']
            productId = productCommentSummary['productId']
            comments = json_info['comments']
            for com in comments:
                tmp_list.append([com['id'],productId,com['guid'],com['content'],com['creationTime'],com['referenceId'],com['referenceTime'],com['score'],\
                                 com['nickname'],com['userLevelName'],com['isMobile'],com['userClientShow']])
            df = pd.DataFrame(tmp_list,columns=['comment_id','product_id','guid','content','create_time','reference_id','reference_time','score',\
                                                'nickname','user_level','is_mobile','user_client'])
            self.save_csv(df,p)
            dfs.append(df)
            time.sleep(random.randint(31,52))
        final_df = pd.concat(dfs,ignore_index=True)
        self.save_csv(final_df,self.page)
 
def jdComment():
    #設定關鍵變數
    page = 3 #頁數
    productId = 6474492 # 商品ID
    callback = 'fetchJSON_comment98vv782' #回撥函式
    JDC = JDCommentsCrawler(productId,callback,page)
    JDC.concatLinkParam()
    JDC.crawler()

if __name__ == '__main__':
    jdComment()

開發環境搭建好，檔案路徑設定正確，直接複製程式碼就可以了。

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。京東的評論資料是通過介面提供的，所以先找

python制作爬蟲爬取京東商品評論教程

頭文件天津 ref back 文字 eai 目的格式 open 作者：藍鯨類型：轉載本文是繼前2篇Python爬蟲系列文章的後續篇，給大家介紹的是如何使用Python爬取京東商品評論信息的方法，並根據數據繪制成各種統計圖表，非常的細致，有需要的小夥伴可以參考下

利用Python爬蟲爬取京東商品的簡要資訊

一、前言　　本文適合有一定Python基礎的同學學習Python爬蟲，無基礎請點選：慕課網——Python入門　　申明：例項的主體框架來自於慕課網——Python開發簡單爬蟲　　語言：Python2 　　IDE：VScode二、何為爬蟲　　傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的UR

簡易python爬蟲爬取boss直聘職位，並寫入excel

python爬蟲寫入excel1，默認城市是杭州，代碼如下#! -*-coding:utf-8 -*-from urllib import request, parsefrom bs4 import BeautifulSoupimport datetimeimport xlwt starttime = dat

python爬蟲爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:utf

利用python爬蟲爬取京東商城商品圖片

筆者曾經用python第三方庫requests來爬取京東商城的商品頁內容，經過解析之後發現只爬到了商品頁一半的圖片。（這篇文章我們以爬取智慧手機圖片為例）當滑鼠沒有向下滑時，此時檢視原始碼的話，就會看到上圖的內容，只有三十個 li 標籤（一個li標籤中有一個圖片地址）。但是滑

python 爬取京東商品評論

#!/usr/bin/python # -*- coding: UTF-8 -*- import requests impo

Java爬蟲爬取京東商品信息

1.2 image 商品 void code 更改 size pri name 以下內容轉載於《https://www.cnblogs.com/zhuangbiing/p/9194994.html》，在此僅供學習借鑒只用。 Maven地址 <dependency>

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = 'https://www.ncbi.nlm.nih.gov/gene/?term=FUT1'

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = ‘https://www.ncbi.nlm.nih.gov/gene

python爬蟲爬取淘寶網頁資料

O、requests 和 re 庫的介紹 requests庫是一個小型好用的網頁請求模組，可用於網頁請求，常用來編寫小型爬蟲安裝requests可以使用pip命令：在命令列輸入 pip install requests re庫是正則表示式庫，是p

用Python爬蟲爬取豆瓣電影、讀書Top250並排序

更新：已更新豆瓣電影Top250的指令碼及網站概述經常用豆瓣讀書的童鞋應該知道，豆瓣Top250用的是綜合排序，除使用者評分之外還考慮了很多比如是否暢銷、點選量等等，這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高，於是在這裡打算重新給To

利用Python批量爬取XKCD動漫圖片，並批量儲存

import requests, os, bs4 url = 'https://xkcd.com' os.makedirs('xkcd',exist_ok = True) while not url.endswith('#'): # download the page

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

Beautiful Soup爬蟲——爬取智聯招聘的資訊並存入資料庫

本人目前在校本科萌新…第一次寫有所不足還請見諒前期準備智聯招聘網頁讓我們來搜尋一下python 發現網頁跳轉到這讓我們看一下原始碼發現並沒有我們所需要的資料一開始我不信邪用requests嘗試了一下 import requests header

Python爬蟲實戰：批量採集股票資料，並儲存到Excel中

小編說：通過本文，讀者可以掌握分析網頁的技巧、Python編寫網路程式的方法、Excel的操作，以及正則表示式的使用。這些都是爬蟲專案中必備的知識和技能。本文選自《Python帶我起飛》。例項描述：通過編寫爬蟲，將指定日期時段內的全部上市公司股票資料爬取下來，並按照股

基於Python3.6寫的自助翻譯小軟體--使用google translate的介面，Python實現爬取google翻譯API結果，並打包成.exe的可執行檔案

看文獻看的頭疼，為了解決小麻煩沒事就寫了這個來玩一玩。其實也沒有什麼就是用一個簡單的爬蟲和介面，所以啥也不多說，直接貼程式碼，歡迎嘗試# -*- coding: utf-8 -*- # filename:GoogleTranslation1.2.py import urll

python 爬蟲爬取網易嚴選全網商品價格評論資料

1.獲取商品目錄在Chrome瀏覽器開發者工具中，可以找到目錄的JS地址： http://you.163.com/xhr/globalinfo//queryTop.json 得到商品資料 def get_categoryList():

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

Python 爬蟲 爬取京東 商品評論 資料，並存入CSV檔案

相關推薦

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案