[Python爬蟲]通過分析胸罩銷售記錄發現了驚人的祕密

阿新 • • 發佈：2018-12-10

通過爬蟲去爬取京東的使用者評價，通過分析爬取的資料能得到很多結果，比如，哪一種顏色的胸罩最受女性歡迎，以及中國女性的平均size(僅供參考哦~)

開啟開發者工具-network，在使用者評價頁面我們發現瀏覽器有這樣一個請求

通過分析我們發現主要用的引數有三個productId，page，pageSize。後兩個為分頁引數，productId是每個商品的id，通過這個id去獲取商品的評價記錄，所以我們只需要知道每個商品的productId就輕而易舉的獲取評價了。再來分析搜尋頁面的網頁原始碼

通過分析我們發現每個商品都在li標籤中，而li標籤又有一個data-pid屬性，這個對應的值就是商品的productId了。

大概瞭解了整個流程，就可以開始我們的爬蟲工作了。

首先我們需要在搜尋頁面獲取商品的id，為下面爬取使用者評價提供productId。key_word為搜尋的關鍵字，這裡就是【胸罩】

import requests
import re

"""
查詢商品id
"""
def find_product_id(key_word):
    jd_url = 'https://search.jd.com/Search'
    product_ids = []
    # 爬前3頁的商品
    for i in range(1,3):
        param = {'keyword': key_word, 'enc': 'utf-8', 'page': i}
        response = requests.get(jd_url, params=param)
        # 商品id
        ids = re.findall('data-pid="(.*?)"', response.text, re.S)
        product_ids += ids
    return product_ids

將前三頁的商品id放入列表中，接下來我們就可以爬取評價了

我們通過分析preview發現獲取使用者評價這個請求響應的格式是一個字串後面拼接了一個json(如下圖)，所以我們只要將無用的字元刪除掉，就可以獲取到我們想要的json物件了。

而在json物件中的comments的內容就是我們最終想要的評價記錄

"""
獲取評論內容
"""
def get_comment_message(product_id):
    urls = ['https://sclub.jd.com/comment/productPageComments.action?' \
            'callback=fetchJSON_comment98vv53282&' \
            'productId={}' \
            '&score=0&sortType=5&' \
            'page={}' \
            '&pageSize=10&isShadowSku=0&rid=0&fold=1'.format(product_id, page) for page in range(1, 11)]
    for url in urls:
        response = requests.get(url)
        html = response.text
        # 刪除無用字元
        html = html.replace('fetchJSON_comment98vv53282(', '').replace(');', '')
        data = json.loads(html)
        comments = data['comments']
        t = threading.Thread(target=save_mongo, args=(comments,))
        t.start()

在這個方法中只獲取了前10頁的評價的url，放到urls這個列表中。通過迴圈獲取不同頁面的評價記錄，這時啟動了一個執行緒用來將留言資料存到到MongoDB中。

我們繼續分析評價記錄這個介面發現我們想要的兩條資料

productColor：產品顏色

productSize：產品尺寸

# mongo服務
client = pymongo.MongoClient('mongodb://127.0.0.1:27017/')
# jd資料庫
db = client.jd
# product表,沒有自動建立
product_db = db.product

#  儲存mongo
def save_mongo(comments):
    for comment in comments:
        product_data = {}
        # 顏色
        # flush_data清洗資料的方法
        product_data['product_color'] = flush_data(comment['productColor'])
        # size
        product_data['product_size'] = flush_data(comment['productSize'])
        # 評論內容
        product_data['comment_content'] = comment['content']
        # create_time
        product_data['create_time'] = comment['creationTime']
        # 插入mongo
        product_db.insert(product_data)

因為每種商品的顏色、尺寸描述上有差異，為了方面統計，我們進行了簡單的資料清洗。

def flush_data(data):
    if '膚' in data:
        return '膚色'
    if '黑' in data:
        return '黑色'
    if '紫' in data:
        return '紫色'
    if '粉' in data:
        return '粉色'
    if '藍' in data:
        return '藍色'
    if '白' in data:
        return '白色'
    if '灰' in data:
        return '灰色'
    if '檳' in data:
        return '香檳色'
    if '琥' in data:
        return '琥珀色'
    if '紅' in data:
        return '紅色'
    if '紫' in data:
        return '紫色'
    if 'A' in data:
        return 'A'
    if 'B' in data:
        return 'B'
    if 'C' in data:
        return 'C'
    if 'D' in data:
        return 'D'

這幾個模組的功能編寫完畢，下面只需要將他們聯絡起來

# 建立一個執行緒鎖
lock = threading.Lock()

# 獲取評論執行緒
def spider_jd(ids):
    while ids:
        # 加鎖
        lock.acquire()
        # 取出第一個元素
        id = ids[0]
        # 將取出的元素從列表中刪除，避免重複載入
        del ids[0]
        # 釋放鎖
        lock.release()
        # 獲取評論內容
        get_comment_message(id)


product_ids = find_product_id('胸罩')
for i in (1, 5):
    # 增加一個獲取評論的執行緒
    t = threading.Thread(target=spider_jd, args=(product_ids,))
    # 啟動執行緒
    t.start()

上面程式碼加鎖的原因是為了防止重複消費共享變數

執行之後的檢視MongoDB：

得到結果之後，為了能更直觀的表現資料，我們可以用matplotlib庫進行圖表化展示

import pymongo
from pylab import *


client = pymongo.MongoClient('mongodb://127.0.0.1:27017/')
# jd資料庫
db = client.jd
# product表,沒有自動建立
product_db = db.product
# 統計以下幾個顏色
color_arr = ['膚色', '黑色', '紫色', '粉色', '藍色', '白色', '灰色', '香檳色', '紅色']

color_num_arr = []
for i in color_arr:
    num = product_db.count({'product_color': i})
    color_num_arr.append(num)

# 顯示的顏色
color_arr = ['bisque', 'black', 'purple', 'pink', 'blue', 'white', 'gray', 'peru', 'red']

#labeldistance，文字的位置離遠點有多遠，1.1指1.1倍半徑的位置
#autopct，圓裡面的文字格式，%3.1f%%表示小數有三位，整數有一位的浮點數
#shadow，餅是否有陰影
#startangle，起始角度，0，表示從0開始逆時針轉，為第一塊。一般選擇從90度開始比較好看
#pctdistance，百分比的text離圓心的距離
#patches, l_texts, p_texts，為了得到餅圖的返回值，p_texts餅圖內部文字的，l_texts餅圖外label的文字
patches,l_text,p_text = plt.pie(sizes, labels=labels, colors=colors,
                                labeldistance=1.1, autopct='%3.1f%%', shadow=False,
                                startangle=90, pctdistance=0.6)
#改變文字的大小
#方法是把每一個text遍歷。呼叫set_size方法設定它的屬性
for t in l_text:
    t.set_size=(30)
for t in p_text:
    t.set_size=(20)
# 設定x，y軸刻度一致，這樣餅圖才能是圓的
plt.axis('equal')
plt.title("內衣顏色比例圖", fontproperties="SimHei") #
plt.legend()
plt.show()

執行程式碼，我們發現膚色的最受歡迎其次是黑色 (鋼鐵直男表示不知道是不是真的...)

接下來我們再來統計一下size 的分佈圖，這裡用柱狀圖進行顯示

index=["A","B","C","D"]

client = pymongo.MongoClient('mongodb://127.0.0.1:27017/')
db = client.jd
product_db = db.product

value = []
for i in index:
    num = product_db.count({'product_size': i})
    value.append(num)

plt.bar(left=index, height=value, color="green", width=0.5)

plt.show()

執行後我們發現 B size的女性更多一些

以上結果僅供學習參考哦~

[Python爬蟲]通過分析胸罩銷售記錄發現了驚人的祕密

通過爬蟲去爬取京東的使用者評價，通過分析爬取的資料能得到很多結果，比如，哪一種顏色的胸罩最受女性歡迎，以及中國女性的平均size(僅供參考哦~) 開啟開發者工具-network，在使用者評價頁面我們發現瀏覽器有這樣一個請求通過分析我們發現主要用的引數有三

Python網絡爬蟲實戰：根據天貓胸罩銷售數據分析中國女性胸部大小分布

直方圖回調 ams find tags ram 可視化分析 discus 綜合應用本文實現一個非常有趣的項目，這個項目是關於胸罩銷售數據分析的。是網絡爬蟲和數據分析的綜合應用項目。本項目會從天貓抓取胸罩銷售數據，並將這些數據保存到SQLite數據庫中，然後對數據進行清洗

Python網絡爬蟲實戰：天貓胸罩銷售數據分析

顯示來講數據顯示 display colors python網絡 java 讀者 rep 本文實現一個非常有趣的項目，這個項目是關於胸罩銷售數據分析的。是網絡爬蟲和數據分析的綜合應用項目。本項目會從天貓抓取胸罩銷售數據，並將這些數據保存到SQLite數據庫中，然後對數據

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

python爬蟲-通過bs4和xpath分析html程式碼

我感覺作者用xpath分析程式碼的時候不是很好，下面是我重新改善的一、用lxml模組分析程式碼 #!/usr/bin/env python #-*- coding:utf-8 -*- import requests import time,os from

Python爬蟲通過替換http request header來欺騙瀏覽器實現登錄

kit 5.0 目的 user ima blog 界面 chrom num 以豆瓣為例，訪問https://www.douban.com/contacts/list 來查看自己關註的人，要登錄才能查看。如果用requests.get()方法獲取這個http，沒登錄只能

python 爬蟲通過高德api介面抓取景區/小區邊界

高德api介面地址：https://lbs.amap.com/api/webservice/guide/api/search 如果不是高德開發者可以申請為開發者第一步，申請”Web服務API”金鑰（Key）；第二步，拼接HTTP請求URL，第一步申請的Key需作為必填引數一同傳送；

Python爬蟲Scrapy入門看這篇就夠了

一、初窺scrapy scrapy中文文件: http://scrapy-chs.readthedocs.io/zh_CN/latest/ Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資

python爬蟲如何獲取網頁資訊時，發現所需要的資訊是動態生成的，然後抓包獲取到資訊來源的URL？

如果在利用爬蟲爬取網頁資料的時候，發現是動態生成的時候，目前來看主要表現在以下幾種：以介面的形式生成資料，這種形式其實挺好處理的，比較典型的是知乎的使用者資訊，我們只要知道介面的URL，就可以不用再考慮頁面本身的內容以知乎為例，我們在爬取使用者資訊的時候，可能

小心Python爬取了你的微信隱私！用Python分析了數千個微信暱稱後，發現了這些祕密！

01 Let's get it 1. 基本資訊獲取訪問英文取名的使用者基本信介面，獲取英文取名使用者微信名（NickName）、訪問次數（Count）、總資料集（ResponseData），並將微信名存入檔案。 # 獲取所有使用

python優雅操作11行程式碼，竟然發現了室友U盤裡藏著這些……

那個猥瑣的傢伙整天把個U盤藏著當寶，到睡覺了就拿出來插到電腦上。我決定想個辦法看他U盤裡都藏了什麼，直接去搶U盤是不可能的，騙也是不可能的。那不是丟我Python程式設計師的臉？我必須在電腦上智取，而且不能被他發現。當一個usb插入時，在後臺自動把usb裡的

我用 Python 爬取微信好友，最後發現一個大祕密

前言你身處的環境是什麼樣，你就會成為什麼樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟體，微信更像是虛擬的現實世界。你所處的朋友圈是怎麼樣，慢慢你的思想也會變的怎麼樣。最近在學習 itchat,然後就寫了一個爬蟲，爬取了我所有的微信好友的資料。並對其中的一些資料進行分析，發現了一些很有

Python網絡爬蟲筆記（五）：下載、分析京東P20銷售數據

9.png amp F12 不存在 strong xls sco 列表 std (一) 分析網頁下載下面這個鏈接的銷售數據 https://item.jd.com/6733026.html#comment 1、翻頁的時候，谷歌F12的Network頁簽可以

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

QQ空間Python爬蟲v2.0--點贊數據分析

發現寫入 getc number range src requests color 但是記上一次v1.0的空間爬蟲之後，準備再寫一個爬蟲分析本人說說的點贊情況首先分析Json：可以發現點贊的節點為data-->vFeeds(list)-->li

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

Python爬蟲(二)——對開封市58同城出租房數據進行分析

boxplot bsp des das png fig 分析 set 技術出租房面積(area) 　　　　　　　　　出租房價格(price) 　　　　　　

Python爬蟲實踐 -- 記錄我的第一只爬蟲

width 進入 color spa alt ads python3 我們 round 一、環境配置 1. 下載安裝 python3 2. 安裝requests和lxml 進入到 pip 目錄，CMD --> C:\Python\Scripts，輸入命令： pip

Python爬蟲——Python 崗位分析報告

odin val arch 糗事百科選項 ive 頁面數據 html 方便前兩篇我們分別爬取了糗事百科和妹子圖網站，學習了 Requests, Beautiful Soup 的基本使用。不過前兩篇都是從靜態 HTML 頁面中來篩選出我們需要的信息。這一篇我們來學習下如何

記錄一次python爬蟲批量下載一個校花網站的妹子圖片

學python也快2個禮拜了，從開始看別人寫的爬蟲程式碼，然後試著抄著學習，感覺沒太大進步，最大收穫就是改了幾處bug（可能有些地方不適用我的pyyhon平臺報錯）。中午看到一個帖子校花妹子圖使用爬蟲進行批量下載，看了下，感覺不錯（我說的技術，哈哈哈）。然後決定自己寫一個爬蟲，已經看書兩個禮

[Python爬蟲]通過分析胸罩銷售記錄 發現了驚人的祕密

相關推薦

[Python爬蟲]通過分析胸罩銷售記錄發現了驚人的祕密