通過爬取天貓商品評論例項分析Python爬取ajax動態生成的資料

阿新 • • 發佈：2019-02-02

本文主要通過爬取天貓商品kindle的評論為例來說明利用python爬取ajax動態生成的資料的方式，本文使用的工具如下：

工具

chrome瀏覽器【尋找評論的動態連結】

python3.5【執行程式碼】

mysql【儲存爬蟲獲得的資料】

尋找連結

首先，我們要尋找到kindle商品的評論列表，如下：

這裡寫圖片描述

和一般靜態網頁不同的是，動態網頁的連結並不在瀏覽器的頂部可以看到，也就是不可以輕易獲得，但是我們可以通過以下步驟找到連結：

右鍵點選-檢查-Network
將評論列表往下翻，選擇第2頁，看到左邊Name多出來一些動態生成的資料，可以找到紅線框住的內容就是我們要找的動態連結：

這裡寫圖片描述

不同商品的連結中，itemId不一樣，可以到相應商品的詳情頁去找這個ID。需要連續爬取不同頁碼的資料，只需要修改page=2即可。

爬取資料

本文首先通過連結下載json格式的資料，並解析資料，遍歷所有資料提取需要的資訊儲存到mysql中，所以前提是你在mysql中建立這樣一個表格：

這裡寫圖片描述

不熟悉SQL語句可以通過navicate建立資料表格，方便視覺化。

接下來開始爬取資料，以下是所有程式碼：

# -*- coding: utf-8 -*-
import urllib.request
import json
import time
import random
import 
 pymysql.cursors

# 從給定連結中下載json格式資料，並解析資料，提取出重要資訊儲存到SQL資料庫中
def crawlProductComment(url):

    # 讀取原始資料(注意選擇gbk編碼方式)
    html = urllib.request.urlopen(url).read().decode('gbk')

    # 從原始資料中提取出JSON格式資料(分別以'{'和'}'作為開始和結束標誌)
    jsondata = html[273:-29]

    # 把Json格式字串解碼轉換成Python物件
    print(jsondata)
    data = json.loads(jsondata)

    # 遍歷商品評論列表 

    for i in data:
        uid = i['id']
        aliMallSeller = i['aliMallSeller']
        anony = i['anony']
        auctionSku = i['auctionSku']
        buyCount = i['buyCount']
        cmsSource = i['cmsSource']
        displayUserNick = i['displayUserNick']
        fromMall = i['fromMall']
        fromMemory = i['fromMemory']
        gmtCreateTime = i['gmtCreateTime']
        goldUser = i['goldUser']
        rateContent = i['rateContent']
        rateDate = i['rateDate']
        sellerId = i['sellerId']

        # 輸出商品評論關鍵資訊
        print("使用者評論時間:{}".format(uid))
        print("-----------------------------")

        # 獲取資料庫連結
        connection  = pymysql.connect(host = 'localhost',
                                  user = 'root',
                                  password = 'password',
                                  db = 'jd',
                                  charset = 'utf8')
        try:
            with connection.cursor() as cursor:
                # 建立sql語句
                sql = "insert into `tb_kindle` (`uid`,`aliMallSeller`,`anony`,`auctionSku`,`buyCount`,`cmsSource`,`displayUserNick`,`fromMall`,`fromMemory`,`gmtCreateTime`," \
                      "`goldUser`,`rateContent`,`rateDate`,`sellerId`) values (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"

                # 執行sql語句
                cursor.execute(sql, (uid, aliMallSeller, anony, auctionSku, buyCount, cmsSource, displayUserNick, fromMall, fromMemory, gmtCreateTime, goldUser, rateContent,
                                     rateDate, sellerId))

                # 提交資料庫
                connection.commit()
        finally:
            connection.close()

# 迴圈爬取頁面
if __name__ == '__main__':
    for i in range(1,500):
        print("正在獲取第{}頁評論資料!".format(i))

        # kindle評論連結,通過更改page引數的值來迴圈讀取多頁評論資訊
        url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=522680881881&spuId=337259102&sellerId=2099020602&order=3&currentPage='+str(i)+'&append=0&content=1&tagId=&posi=&picture=&ua=098%23E1hv7pvovLWvUvCkvvvvvjiPPLMOQjnhPLSpgjEUPmPpQjrUR2cwtjEvn2FWtjrURphvCvvvphmCvpvWzPQ3w3cNznswO6a4dphvmpvCWomFvvv7E46Cvvyv9ET7tvvvk%2BhtvpvhvvCvpUwCvvpv9hCviQhvCvvvpZpPvpvhvv2MMqyCvm9vvhCvvvvvvvvvBBWvvvHbvvCHhQvv9pvvvhZLvvvCfvvvBBWvvvH%2BuphvmvvvpoViwCEXkphvC9hvpyPOsvyCvhACFKLyjX7re8TxEcqvaB4AdB9aUU31K39XVoE%2FlwvXeXyKnpcUA2WKK33ApO7UHd8re169kU97%2Bu04jo2v%2BboJ5E3Apf2XrqpAhjvnvphvC9mvphvvv2yCvvpvvhCv9phv2nsGM7VkqYswzPld7u6Cvvyvvog0XpvvjBUtvpvhvvCvpUhCvCLwPPC1ErMwznQyCxSSmPsSzha49p%3D%3D&isg=AqSkEzQqoiDsXtSOfIGIVQlMdaJWlclEcT_pvL7FSm88aUYz5k2YN9rbXfcK&needFold=0&_ksTS=1513608734625_1700&callback=jsonp1701'
        crawlProductComment(url)

        # 設定爬蟲過程中休眠時間
        time.sleep(random.randint(30,70))

由於淘寶設定有複雜的反爬蟲機制，因此該程式碼雖然可以執行，但是一段時間會出現錯誤，只要重新設定頁碼，並執行程式碼就可以繼續爬取資料了。當然，也可以通過一些巧妙的方法來優化程式碼應對反爬蟲機制，本人才疏學淺，下次繼續。

後記：爬取資料是為了更好的分析資料，因此後續會推出利用python對天貓商品評論進行文字挖掘，探索千萬條評論中的奧祕。

通過爬取天貓商品評論例項分析Python爬取ajax動態生成的資料

本文主要通過爬取天貓商品kindle的評論為例來說明利用python爬取ajax動態生成的資料的方式，本文使用的工具如下：工具 chrome瀏覽器【尋找評論的動態連結】 python3.5【執行程式碼】 mysql【儲存爬蟲獲得

scrapy 爬取天貓商品資訊

spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co

抓取天貓手機評論

meta pen 天貓 lang ret ntp cat last eat import re import json import time import requests from bs4 import BeautifulSoup tm_headers =

Python抓取天貓商品詳細資訊及交易記錄

一、搭建Python環境本帖使用的是Python 2.7 涉及到的模組：spynner, scrapy, bs4, pymmssql 二、要獲取的天貓資料三、資料抓取流程四、原始碼 #coding:utf-8 import spynner f

【原創】Python+Scrapy+Selenium簡單爬取淘寶天貓商品資訊及評論

（轉載請註明出處）哈嘍，大家好~前言：這次寫這個小指令碼的目的是為了給老師幫個小忙，爬取某一商品的資訊，寫完覺得這個程式似乎也可以用在更普遍的地方，所以就放出來給大家看看啦，然後因為是在很短時間寫的，所以自然有很多不足之處，想著總之實現了功能再說吧，程式碼太醜大不了之後再重構

如何爬取天貓評論資料

（本文原作於2016年3月5日，有刪改）一、原理首先在瀏覽器位址列中輸入https://www.tmall.com/開啟天貓商城，任意檢索某一商品，以奶粉為例，搜尋結果如下圖所示：任意點開其中的某個商品：這是我們常見的網頁，由文字、圖

爬取天貓國際、京東全球購、淘寶全球購的商品資料

公司內部mini專案–智慧選品 “智慧選品”專案主要是方便採購人員瞭解其他競品平臺的商品資料，將其他平臺上賣的特別好的商品資料展示給採購人員，方便他們去採購商品，擴大公司自己的商品，所以就需要爬取其他平臺的資料，本著需求出發，這裡主要爬取天貓國際、京東全球購、

通過Python抓取天貓評論資料

接著點進去後，發現有非常多的歷史累計評價，於是我一條條的檢視，一頁頁的翻，覺得口碑還是非常不錯的，於是選擇這款商品。我想大家可能也是這樣的購物模式，也許還可能更加複雜（貨比三家，口碑比較，聯絡賣家......）。如果有一天，我想研究這些個評論資料，然後玩玩高大上的自然語言處理，我是不

python：用scrapy爬去天貓評論

1，建立scrapy startproject tb 2 ， cd tb ,建立一個spider scrapy genspider 爬蟲名字網站域名 3, 在items中寫自己想爬的東西，這裡我爬的是評論，型號，使用者名稱 4，在pippeli

利用Jsoup爬取天貓列表頁資料

由於技術有限天貓詳細頁的銷售資料爬取不到,所以採用折中的方法改為爬列表頁. 本文針對的是店內搜尋頁以下是獲取網頁資料: /** * @param URL 根據URL獲取document

通過抓取淘寶評論為例講解Python爬取ajax動態生成的資料

'https://rate.taobao.com/feedRateList.htm?auctionNumId=538039793643&userNumId=2779992133&currentPageNum=6&pageSize=20&rateType=&orderTy

selenium跳過webdriver檢測並爬取天貓商品數據

-a src 速度 tor lee lac chrome瀏覽器自動 oca 目錄簡介編寫思路使用教程演示圖片源代碼

畢設二:python 爬取京東的商品評論

wait job 獲得榮耀 search finally content 系統 threading 1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/14 下午 3:48

淘寶天貓商品庫存抓取分析

stat 目前圖片中一輸入框 pla amp 庫存 ask 昨天收到公眾號粉絲的爬蟲需求：抓取平臺：天貓或者淘寶爬取對象：某個商品的各分類的價格和庫存數因此花費兩天時間抓取完成，基於python3 抓取， flask 可視化頁面查看，目前支持網頁可視化查看：

CSS3_天貓商品牆

天貓商品牆網格狀佈局： 1. ul li 佈局 2. float: left; 使得元素在一行。注意：父元素解決高度塌陷 3. ul 設定固定寬，使得元素擠下去 4. 給父元素加一個 padding-left 和 padding-top

Material之Behavior實現支付寶密碼彈窗仿淘寶/天貓商品屬性選擇

今天的效果在支付寶、淘寶、京東等電商App中很常見。比如支付寶輸入密碼彈窗、商城下單時選擇商品屬性時，從下面浮動上來一個PopupWindow，那麼今天就帶大家用Behavior來實現這兩個效果，結果你會發現簡直只需要一行程式碼。總結下現在用的APP：

pyhton爬蟲（10）——通過亞馬遜商品評論時間分析商品銷量分佈情況

本文以亞馬遜rope bag商品為例，共採集到1989條商品評論時間資料，並選取15年1月——17年7月的1809條資料來繪製分月銷量圖。採集資料的python程式碼如下所示： # -*- coding: utf-8 -*- """ Created o

python簡單實現天貓手機評論標籤提取--自然語言處理

作為國產機的腦殘粉，這次試試用自然語言處理的方法簡單的提取手機評論的標籤。大概步驟：爬取手機的10萬條評論文字結巴中文分詞，提取前20個頻率高的名詞+形容詞結巴分詞，去停用詞，製作語料庫 gensim自然語言處理庫的word2v

【爬蟲】獲取淘寶天貓商品的詳細引數

首先我是從淘寶進去，爬取了按銷量排序的所有（100頁）女裝的列表資訊按綜合、銷量分別爬取淘寶女裝列表資訊，然後匯出前100商品的 link，爬取其詳細資訊。這些商品有淘寶的，也有天貓的，這兩個平臺有些區別，處理的時候要注意。比如，有的說“面料”、有的說“材質成

Android自定義控制元件-仿淘寶ios客戶端天貓商品詳情介面動效

效果圖原始碼和例子效果描述一個自定義控制元件繼承自ScrollView,下拉時header會放大鬆開後會恢復原狀,上滑時header會被下面的內容吃掉蓋住而且會稍稍往上滑，在header高度範圍內滑動時導航欄背景和導航欄的按鈕會反向改變透明度形成一種對比

通過爬取天貓商品評論例項分析Python爬取ajax動態生成的資料

工具

尋找連結

爬取資料

相關推薦