python爬蟲--獲取天貓店鋪商品價格及銷量

阿新 • • 發佈：2019-01-09

（一）專案目標

1. 獲取天貓店鋪 “探路者官方旗艦店” 所有商品的名稱、價格以及銷量。

說明：本次專案目標是從一個熱門店鋪排行榜中隨機選擇的，沒有任何針對性的含義。

該排行榜的網址為： http://www.xlphb.cn/index.php?c=shop

2. 該店鋪的截圖如下：

3. 左上角有一個 “所有商品” 的連結，點選進入如下截圖：

4. 下方截圖可以看到資料仍然是分頁排列的，一共有14頁的資料。

（二）網頁分析

1. 首先還是開啟charles，重新整理頁面，通過charles的搜尋功能，找到目標資料的請求

2. 確認該請求是否全部包含目標資料

從下方截圖可以看到，返回的資料格式是html，經手動確認，該請求包含該頁的所有商品資訊。

3. 分析請求的具體情況

從下方截圖可以看到，該請求的具體資訊是：

url: https://toread.tmall.com/i/asynSearch.htm?_ksTS=1529821691770_124&callback=jsonp125&mid=w-18307703560-0&wid=18307703560&path=/search.htm&search=y&spm=a1z10.3-b-s.w4011-18307703560.430.4ee0605f0KyPWs&scene=taobao_shop&pageNo=3&tsearch=y

請求型別： GET

4. 可以看到，這個請求有非常多的query引數。

經手動測試，有一些引數即使沒有，也可以拿到資料，最終精簡到如下url：

https://toread.tmall.com/i/asynSearch.htm?mid=w-18307703560-0&pageNo=2

注意，最後一個pageNo是指的頁數，這樣我們就可以直接通過改變pageNo，就能獲得到不同頁面的資料了。

5. 然後就是對頁面資料進行解析時有一個坑。

一般來講，我比較擅長使用css和正則表示式語法來選擇資料，但是請看以下截圖：

目標資料就在這些div和dl裡面，但是淘寶設定的class 使用了這樣的形式 "\"item" \"，這樣我在用pyquery解析的時候總是要麼要錯，要麼拿到資料。

但是沒關係，下面的程式碼中，我使用了xpath語法來選擇，躲開這個坑。

6. 網頁基本分析完畢，請求只有一個，比較簡單。但是要注意一下兩點：

- 不知道淘寶的具體規則是什麼，傳送一個上面的請求並不一定能夠獲取到目標資料，但是隻要重複不斷髮送，就能獲取到。

- headers一定要寫全。

（三）核心程式碼實現

1. 一些需要使用的模組和常量

import requests
from requests.exceptions import RequestException
from scrapy.selector import Selector
import csv
import random
from requests.exceptions import ConnectionError

s = requests.session()

# csv結果檔案的儲存檔名
filename = '爬取結果.csv'

# 定義代理池url,可以從代理池專案檔案中找到介面
PROXY_POOL_URL = 'http://127.0.0.1:5555/random'

2. 隨機切換User-Agent：

我是在專案中加入了一個agent.txt檔案，裡面儲存了一些User-Agent可供使用。

# ag作為開關，僅第一次讀取，之後就從ag裡面拿
ag = None
def change_agent():
	global ag

	if not ag:
		with open('agent.txt') as f:
			ag = f.readlines()
	
	return ag[random.randint(1,866)].strip()

3. 使用代理池

代理池的程式碼就不貼出來了，我是從github找的其他大神寫的，從公開渠道獲取免費代理後儲存入redis的一個專案。

下面的程式碼使用前，我已經打開了redis和代理池的程式碼。

# 定義獲取代理的函式
def get_proxy():
	"""從代理池中取出一個代理"""
	try:
		response = requests.get(PROXY_POOL_URL)
		if response.status_code == 200:
			return response.text
		return None
	except ConnectionError:
		return None

def build_proxy():
	"""將代理池中取出的代理構造成完整形式"""
	proxy = get_proxy()
	if proxy:
		return {
			'http': 'http://' + proxy,
			#'https': 'https://' + proxy
			}
	else:
		return None

4. 上面網頁分析的部分有說到，傳送該請求並不一定會獲取到目標資料，如果沒有獲取到，需要重新發送。

這裡定義個一個輔助函式，用於判斷獲取到的網頁是否包含目標資料。

注意這裡用的scrapy庫裡面的Selector模組，方便使用xpath語法選取資料。

當然還有其他庫可以使用xpath語法，我對scrapy比較熟悉，所以使用這個。

def decide_if_loop(html):
	"""通過解析要拿到的頁面第一個資料，判斷是否拿到真正的頁面，如果假的頁面，就返回False"""
	selector = Selector(text=html)
	data = selector.xpath('/html/body/div/div[3]/div[1]/dl[1]/dd[2]/a/text()').extract_first()
	return False if not data else selector

5. 下面是獲取頁面的函式：

注意該函式內，呼叫了上面的切換User-Agent 和使用代理池的函式。

def get_page(url):
	"""
	1. user-agent 不斷切換
	2. 直接使用代理池中的代理來請求
	"""
	headers = {
            'User-Agent':change_agent(),
            'Referer':'https://toread.tmall.com',
            'accept':'text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01',
            'x-requested-with':'XMLHttpRequest',
            'accept-encoding':'gzip, deflate, br',
            'accept-language':'zh-CN,zh;q=0.9,en;q=0.8'
	}

	try:
		response = s.get(url, headers=headers, verify = False, proxies=build_proxy())
	except:
		response = s.get(url, headers=headers, verify = False)

	if response.status_code == 200:
		return response.text

	else:
		print("請求錯誤:{}".format(response.status_code))

6. 獲取到真實頁面之後，就需要進行頁面解析

注意傳入的引數是selector，就是前面的判斷是否需要迴圈的函式中的返回值。

因為該函式內已經對頁面進行解析後得到selector了，所以這裡就不再重複，直接傳入使用。

def parse_detail(selector):
	"""從拿到的真實頁面中，解析出商品名，銷量和價格"""

	data = []
	# 兩個for迴圈解析一個html頁面
	for i in range(1,13):
		for j in range(1, 6):
			title = selector.xpath('/html/body/div/div[3]/div['+str(i)+']/dl['+str(j)+']/dd[2]/a/text()').extract_first()
			price = selector.xpath('/html/body/div/div[3]/div['+str(i)+']/dl['+str(j)+']/dd[2]/div/div[1]/span[2]/text()').extract_first()
			num = selector.xpath('/html/body/div/div[3]/div['+str(i)+']/dl['+str(j)+']/dd[2]/div/div[3]/span/text()').extract_first()
			# 這個判斷用於防止最後一頁商品不全時，或者頁面出現任何錯誤，值可能為空的情況
			if title and price and num:
				data.append([title.strip(), price.strip(), num.strip()])
	return data

7. 下面定義了兩個函式，將解析到的資料儲存本地csv檔案。

def save_to_csv(rows, filename):
	if rows:
		with open(filename, "a") as f:
			f_csv = csv.writer(f)
			for row in rows:
				f_csv.writerow(row)	

def write_csv_headers(filename):
	csv_headers = ["商品名稱", "價格", "銷量"]
	with open(filename, "a") as f:
		f_csv = csv.writer(f)
		f_csv.writerow(csv_headers)

8. 下面的一些函式將整個程式碼串在一起

def loop(url):

	html = get_page(url)
	selector = decide_if_loop(html)

	if not selector:
		loop(url)
	else:
		data = parse_detail(selector)
		save_to_csv(data, filename)


def get_urls():
	urls = []
	base_url = 'https://toread.tmall.com/i/asynSearch.htm?mid=w-18307703560-0&pageNo='
	for i in range(1, 15):
		urls.append(base_url + str(i))

	return urls


def main():
	write_csv_headers(filename)
	for url in get_urls():
		loop(url)

if __name__=="__main__":
	main()

（四）專案結果以及經驗教訓

經過不斷的失敗後重試，專案終於成功的獲取了所有的14頁的資料，共700多條，也就是該天貓店鋪所有商品的名稱、價格以及銷量。展示截圖如下：

經驗教訓：

淘寶的坑還是比較多的，在嘗試的過程中：

1. 如果直接請求頁面的url，可以直接獲得到資料，但是全部是假資料；

2. 真實的請求也需要多次獲取才能拿到目標資料；

3. 如果不使用代理池，自己的ip很容易被封掉。

4. 專案程式碼重用率比較低，如果要爬其他店鋪的商品資訊，如要重新進行分析。

本文僅供學習交流使用，請勿將其用於違法目的。

python爬蟲--獲取天貓店鋪商品價格及銷量

（一）專案目標1. 獲取天貓店鋪 “探路者官方旗艦店” 所有商品的名稱、價格以及銷量。說明：本次專案目標是從一個熱門店鋪排行榜中隨機選擇的，沒有任何針對性的含義。該排行榜的網址為： http://www.xlphb.cn/index.php?c=shop2. 該店鋪的截圖如下

python爬蟲爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:utf

2018天貓雙十二商品價格、月銷量等採集教程

本文主要介紹“天貓商品資訊採集爬蟲”（以下簡稱“天貓爬蟲”）的使用教程及注意事項。今年的雙十二快到了，提起天貓商城，相信大夥都不陌生，商品品質比普通淘寶店鋪的好，做工用料檔次較高，入駐門檻也高，服務給力，產品特點鮮明，極具參考研究價值。接下來，給你詳細介紹使用“天貓爬蟲”採集和匯

一步步教您學會大資料採集之天貓店鋪商品銷售資料採集教程

步驟一：下載安裝后羿採集器，並註冊登入 1、點此開啟后羿採集器官網，下載並安裝爬蟲軟體工具—后羿採集器軟體 2、點選註冊登入，註冊新賬號，登入后羿採集器【溫馨提示】您可以直接使用此款爬蟲軟體，不需要進行註冊，但是匿名賬戶下的任務在切換到註冊使用者時會丟失，因此建議您註冊後使用。后羿採集器為神箭手雲旗下

Python爬蟲獲取最近七天天氣預報資訊

主要用到python的requests庫和BeatifulSoup庫，程式碼如下： #encoding:utf-8 import requests import psycopg2 import datetime import re from bs4 import Beaut

python爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:

Python抓取天貓商品詳細資訊及交易記錄

一、搭建Python環境本帖使用的是Python 2.7 涉及到的模組：spynner, scrapy, bs4, pymmssql 二、要獲取的天貓資料三、資料抓取流程四、原始碼 #coding:utf-8 import spynner f

利用python爬蟲獲取黃金價格

繼續練手，根據之前獲取汽油價格的方式獲取了金價，暫時沒錢投資，看看而已 #!/usr/bin/env python # -*- coding: utf-8 -*- """ 獲取每天黃金價格 @author: yufei @site: http://www.a

python 爬蟲獲取文件式網站資源（基於python 3.6）

codes 網頁大小 file sel dal 網頁代碼目錄多級目錄 import urllib.requestfrom bs4 import BeautifulSoupfrom urllib.parse import urljoinfrom Cat.findLink

python 爬蟲獲取文件式網站資源完整版（基於python 3.6）

sta 不支持 bytes ror 啟動 www des find parse <--------------------------------下載函數-----------------------------> import requestsimport t

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

gui采集天貓列表商品[後期有空更新采集各大電商平臺]

lazyload var response cursor accep pri window esp return import requestsfrom lxml import etreefrom pymysql import *from tkinter import *

python 爬蟲獲取世界杯比賽賽程

star odin csv文件 cal requests tex pre brush c-c #!/usr/bin/python # -*- coding:utf8 -*- import requests import re import os import tim

有哪些網站值得用python爬蟲獲取很有價值的資料

^___^一個程式設計師的淘寶店：點選開啟連結，助你快速學習python技術的一臂之力，不喜歡看廣告的請忽略這條！ 0、IT桔子和36Kr在專欄文章中（http://zhuanlan.zhihu.com/p/20714713），抓取IT橘子和36Kr的各公司的投融資資料

Python 爬蟲第一天改良版【學習筆記】

晚上改良了下午寫的那個，可以批量獲取新浪新聞網頁了。不過也是搬磚來的別人寫好我抄了一遍。from bs4 import BeautifulSoup as bs import requests import csv import json, re import pandas #csv_file = o

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

python爬蟲獲取強智科技教務系統學科成績（模擬登入+成績獲取）

直接貼出程式碼提供分享歡迎訪問例項（本作者自己寫的網站）：www.wjn1996.cn/estudy,進入首頁往下點選“常用工具》教務成績查詢”，網站採用jsp呼叫python指令碼，具體疑問可提出。 import urllib import urllib

教程-如何採集天貓店鋪資訊？

本文主要介紹“天貓店鋪資訊採集爬蟲”（以下簡稱“天貓店鋪爬蟲”）的使用教程及注意事項。不知從何時起，“淘寶雙十一”變成了“天貓雙十一”，側面說明天貓店鋪的數量在這兩年增幅很大，你如果想分析某一類天貓店鋪的效率和服務口碑情況，前提當然是有一款稱心的工具將資料採集下來嘍，怎麼操作嘞？別急，

python 爬蟲獲取西刺網免費高匿代理ip

import chardet import requests from scrapy.selector import Selector import random from telnetlib import Telnet ip_list = [] def g

Python爬蟲獲取貼吧中的郵箱

最近公司正在談的專案需要用到爬蟲，和經理交流後，經理建議我用Python實現。昨天看了會兒Python基本語法後，在電腦上安裝了Python 3.7以及編譯器PyCharm。今天參考了網上的程式碼後，根據網上的程式碼小做修改，實現了之前用Java寫的爬取貼吧帖子中的郵箱。以下

python爬蟲--獲取天貓店鋪商品價格及銷量

相關推薦