爬取淘寶商品資訊

阿新 • • 發佈：2019-01-04

我們先來解決一下前置知識，本爬蟲會用到以下庫

requests 是一個很實用Python的一個很實用的HTTP客戶端，可以滿足如今爬蟲的需要
json 用於資料的處理
csv 用於資料的儲存

分析說明

爬取淘寶商品的資訊，資料主要用於分析市場趨勢，從而制定一系列營銷方案。實現功能如下：

使用者提供關鍵字，利用淘寶搜尋功能獲取搜尋後的資料
獲取商品資訊：標題，價格，銷量，店鋪所在區域
資料以檔案格式儲存

功能實現依次體現了爬蟲的開發流程：爬蟲規則->資料清洗->資料儲存。

使用谷歌瀏覽器進入淘寶網站，利用搜索的功能輸入‘四件套’關鍵字，
使用瀏覽器的除錯功能捕捉資訊，如果在響應的HTML中找不到資料，
那麼可能資料是通過Ajax請求後臺的，再通過前端渲染到頁面上去的，
單擊XHR，傳送一個請求，檢視資料請求資訊如下圖所示

接下來，我們單擊Preview檢視該URL的響應資料格式，
發現數據是JSON格式的，商品的標題，價格，銷量，店鋪名稱和店鋪所在地點
分別對應的資料為raw_title,view_price,view_sales,nick,item_loc

我們把它的請求連結拿出來研究一下

https://s.taobao.com/api?_ksTS=1540176287763_226&callback=jsonp227&ajax=true&m=customized&sourceId=tb.index&_input_charset=utf-8&bcoffset=-1&commend=all&suggest=history_1&source=suggest&search_type=item&ssid=s5-e&suggest_query=&spm=a21bo.2017.201856-taobao-item.2&q=四件套&s=36&initiative_id=tbindexz_20170306&imgfile=&wq=&ie=utf8&rn=9e6055e3af9ce03b743aa131279aacfd

請求連結的資料

我們可以把這個長長的連結簡化一下

https://s.taobao.com/api?callback=jsonp227&m=customized&q=%E5%9B%9B%E4%BB%B6%E5%A5%97&s=36

從簡化後的URL看出，有兩個引數可以動態設定來獲取不同的商品

q = 四件套這個是搜尋的關鍵字
s = 36 這個是頁數設定，

功能實現

根據對網站的分析獲取單個關鍵字搜尋的單頁商品資訊，程式碼如下：

import requests
import json
url = "https://s.taobao.com/api?callback=jsonp227&m=customized&q=四件套&s=36"
r = requests.get(url)
response = r.text
# 擷取成標準的JSON格式
# 由於Ajax返回的資料是字串格式的餓，在返回的值jsonp227(XXX)中
# XXX部分是JSON格式資料，因此先用字串split()擷取XXX部分，
#然後將XXX部分由字串格式轉成JSON格式的資料讀取
response = response.split('(')[1].split(')')[0]
# 讀取JSON
response_dict = json.loads(response)
# 定位到商品資訊列表
response_auctions_info = response_dict['API.CustomizedApi']['itemlist']['auctions']

如果想要獲取多頁資料，可以在上述的程式碼中加入一個迴圈，實現程式碼如下：

for p in range(88):
	url = "https://s.taobao.com/api?callback=jsonp227&m=customized&q=四件套&s=%s" % (p)
	r = requests.get(url)
	# 獲取響應資訊字串
	response = r.text
	# 轉換成JSON格式
	response = response.split('(')[1].split(')')[0]
	# 載入資料
	response_dict = json.loads(response)
	# 商品資訊
	response_auctions_info = response_dict['API.CustomizedApi']['itemlist']['auctions']

上述程式碼只能獲取單個關鍵字搜尋的商品資訊，
如果要實現多個關鍵字的功能呢，就可以在上述程式碼中在多加一個迴圈，程式碼如下：

for k in ['四件套','手機殼']:
for p in range(88):
	url = "https://s.taobao.com/api?callback=jsonp227&m=customized&q=%s&s=%s" % (k,p)
	r = requests.get(url)
	response = r.text
	response = response.split('(')[1].split(')')[0]
	response_dict = json.loads(response)
	# 商品資訊
	response_auctions_info = response_dict['API.CustomizedApi']['itemlist']['auctions']

資料儲存

我們以CSV檔案的格式儲存資料，我們來定義一個函式:

def get_auctions_info(response_auctions_info,file_name):
	with open(file_name,'a',newline='') as csvfile:
		# 生成CSV物件，用於寫入CSV檔案
		writer = csv.writer(csvfile)
		for i in response_auctions_info:
			# 判斷是否資料已經記錄
			if str(i['raw_title']) not in auctions_distinct:
				# 寫入資料
				# 分別是商品資訊列表和CSV檔案路徑。
				# 但該檔案並沒有對CSV設定表頭，所以在開始獲取資料之前。
				# 應該生成對應CSV檔案，並設定其表頭
				writer.writerrow([i['raw_title'],i['view_price'],i['view_sales'],i['nick'],i['item_loc']])

				auctions_distinct.append(str(i['raw_title']))
		csvfile.close()

綜合上述條件，整體程式碼如下：

import requests
import json
import csv
# 定義全域性變數，用於判斷資料是否已經記錄
global auctions_distinct
auctions_distinct = []

def get_auctions_info(response_auctions_info, file_name):
    with open(file_name, 'a', newline='') as csvfile:
        # 生成csv物件，用於寫入CSV檔案
        writer = csv.writer(csvfile)
        for i in response_auctions_info:
            # 判斷是否資料已經記錄
            if str(i['raw_title']) not in auctions_distinct:
                # 寫入資料
                writer.writerow([i['raw_title'], i['view_price'],i['view_sales'], i['nick'], i['item_loc']])
                auctions_distinct.append(str(i['raw_title']))
        csvfile.close()

if __name__ == '__main__':
    for k in ['四件套', '手機殼']:
        # 新建csv檔案，每迴圈一個關鍵字會生成其對應的CSV檔案
        file_name = k + '.csv'
        with open(file_name, 'w', newline='') as csvfile:
            writer = csv.writer(csvfile)
            # 寫入表頭資訊
            writer.writerow(['標題', '價格', '銷量', '店鋪', '區域'])
			# 寫完關閉檔案
            csvfile.close()
        # 迴圈次數可以根據實際自行設定
        for p in range(88):
            url = 'https://s.taobao.com/api?callback=jsonp227&m=customized&q=%s&s=%s' % (k, p)
            r = requests.get(url)
            response = r.text
            response = response.split('(')[1].split(')')[0]
            response_dict = json.loads(response)
            response_auctions_info = response_dict['API.CustomizedApi']['itemlist']['auctions']
            # 呼叫函式get_auctions_info寫入商品資訊
            get_auctions_info(response_auctions_info, file_name)
    print('獲取資料量為：' + len(auctions_distinct))

總結

去除無用的連結的引數，簡化連結
分析URL的請求引數含義以及響應內容的資料規律
資料儲存的去重判斷

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

Python爬取淘寶商品資訊

頁面分析開啟淘寶搜尋衛衣男檢視原始碼我們這裡可以找到幾個關鍵詞通過分析我們可以找到價格，郵費，商家地址，付款人數，商家ID，店鋪名稱。分析URL 我們可以看到第一頁url：https://s.taobao.com/search?q=%E5%8D%AB%E

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(ur

爬取淘寶商品資訊

我們先來解決一下前置知識，本爬蟲會用到以下庫 requests 是一個很實用Python的一個很實用的HTTP客戶端，可以滿足如今爬蟲的需要 json 用於資料的處理 csv 用於資料的儲存分析說明爬取淘寶商品的資訊，資料主要用於分析市場趨勢，從

利用selenium爬取淘寶商品資訊

# coding: utf-8from selenium import webdriverimport time# 1.建立瀏覽器物件driver = webdriver.Firefox()# 2.開啟淘寶首頁driver.get('http://www.taobao.com

我要爬爬蟲(11)-用selenium爬取淘寶商品資訊

思路就是用selenium操作瀏覽器，訪問淘寶，輸入關鍵詞，查詢，用pyquery解析目標資訊，翻頁，儲存到mongodb. 函式定義三個： 1 開啟瀏覽器，查詢初始化，翻頁 from selenium import webdriver from se

python selenium控制瀏覽器爬取淘寶商品資訊

前言今天為大家介紹一個Python利用selenium開啟瀏覽器的方式來爬取淘寶商品的資訊,下面就來看看,關於selenium

Python 爬取淘寶商品信息和相應價格

獲得 com ppa pri 大小 light parent tps 爬取！只用於學習用途！ plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html) ：獲得商品價格和view_price字段，並保存在plt中 tlt =

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

利用Selenium爬取淘寶商品信息

支持 down oca ace element 掃描 coo name implicit 一. Selenium和PhantomJS介紹 Selenium是一個用於Web應用程序測試的工具，Selenium直接運行在瀏覽器中，就像真正的用戶在操作一樣。由於這個性質，Sel

python3爬取淘寶商品(更新版)

最近有人反映淘寶的搜尋功能要登入才能用，原先的直接爬取的方法掛了。稍微把之前的程式碼修改了一下，登入採用最簡單的複製cookie來解決。順便說一下，這只是根據搜尋的的索引介面獲取的資訊，並未深入的獲取每個具體商品的資訊。為了以後有拓展空間，便於爬取詳細的商品資訊，我順便把詳情頁的URL拿下來了。淘寶的

Selenium:爬取淘寶商品

from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By

使用Selenium爬取淘寶商品

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditi

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

PythonSpider---爬取淘寶店鋪資訊並匯入excel

挺久沒更新簡書了，之前一直在忙機器視覺的開題報告，現在又要期末複習，射頻通訊，訊號處理看的腦闊疼，所以決定寫個簡單點的爬蟲，放鬆下，換個環境，也順便鞏固下爬蟲。圖片來自網路 0.執行環境 Python3.6.5 Pycharm win10 1.爬蟲思維框架

網路爬蟲：Python+requests+re+xlwt 爬取淘寶商品並把價格和名字寫入Excel表格

由於學東西比較死，不夠靈活，學校的acm實驗室做演算法題，打比賽，我是真的跟不上那些大佬...就看到人以前實驗室退出的，加到其他實驗室學習專案，做專案，做專案相對學習演算法來說，沒有那麼燒腦，還能做出有趣的東西....我就想學習做專案，因為打比賽我是拿不到能看的成績....

Python爬取淘寶店鋪資訊

1.採用Chrome無頭瀏覽模式，後臺自動執行 2.函式結構化，易於擴充套件改變 3.異常重啟，防止崩潰已經封裝完畢 import re from selenium import webdriver from selenium.webdriver.common.by

使用selenium爬取淘寶店鋪資訊

使用selenium +PhantomJS()/Chrome爬取淘寶頁面，儲存到mongdb中使用config進行一些設定MONGO_URL = 'localhost'MONGO_DB = 'taobao'MONGO_TABLE = 'product'# 將圖片設定為不下載

Python爬取淘寶商品的銷量

執行程式，輸入想要爬取的商品關鍵詞，在程式碼中的‘###’可以進一步約束商品的屬性，比如某某作者的書籍，可以在###處輸入作者名字，以及時期等等。最後可以得到所要商品的總銷量 import requests import bs4 import re import jso

pyhton爬蟲筆記之實戰爬取淘寶商品價格和名稱

# -*- coding: utf-8 -*- """ Created on Wed Nov 8 18:55:18 2017 @author: xuanxuan """ # -*- codin

爬取淘寶商品資訊

分析說明

功能實現

資料儲存

總結

相關推薦