1. 程式人生 > >關於“淘寶爆款”的資料抓取與資料分析

關於“淘寶爆款”的資料抓取與資料分析

1、資料爬取

爬取物件:淘寶“連衣裙 夏”的搜尋結果。爬取物件的選擇分析我在文章中也有提及。

工具:Scrapy。

2、資料分析

工具:ipython & matplotlib。

3、分析內容

4、正文

一、案例選擇。

現在著手分析的物件是能讓你在三個月獲得大把鈔票的“爆款”。這 當然得拿最有代表性的商品當例子,最有代表性就是最火的。看看什麼最火。下面是淘寶指數(http://shu.taobao.com/top/16/search)資料。 


圖一 搜尋排行


圖二 成交排行

很明顯,那麼就取商品的搜尋量和成交量二者交集——“連衣裙 夏”做案例進行分析。

二、案例分析

在淘寶中搜索“連衣裙 夏”,首先提取有用資料,這裡我基於Scrapy框架實現了一個爬蟲,爬取按銷量排行的前五頁資料(聽說前五頁是所有商家的夢哦),銷量在三千到三萬,銷量低於三千的款也不夠‘爆’吧(我也不清楚,呵呵)。 這裡提取每個寶貝銷量寶貝價格店鋪性質以及店鋪名稱等分析。

三、資料分析

下面對提取的資料進行分析,分析分為兩種:首頁前五頁。(以下圖表使用ipython基於matplotlib生成) 如果說前五頁屬於‘爆’級別,那麼首頁就是‘爆爆’了吧。

(1)最關心的當然還是銷量

基於上面抓取的資料,分析。

圖三 前五頁銷量趨勢


圖四 首頁銷量趨勢

看過了什麼感受,這怎麼成指數

下降趨勢啊。即便是爆款,銷量差距還是很懸殊的啊。即使在‘爆爆’級別的首頁銷量老大和老二都不是一個級別的啊。競爭好激烈不是嗎。
我們繼續進行區域性放大,看看銷量在一萬以上的是什麼情況。

圖五 銷量大於一萬趨勢

小夥伴,是不是有種要做就做老大的感腳。

(2)看價格

下面是前五頁商品的價格曲線。

圖六 前五頁商品價格及平均價格圖

其中紅色的線是所有商品的平均價格,低於50塊。而且價格可分為三個區間:

  • 區間一:50以下。這部分商品最密集,大部分商品價格集中在這個區域。
  • 區間二:50到100。這屬於第二階梯。
  • 區間三:100以上,看上去這部分好刺眼啊,總有零星的幾個拔出來。相對比例很少。

有什麼感想,要是你做,把你的東西價位定義在哪個區間呢。繼續看下首頁的價格資料。


圖七 首頁商品價格走勢圖

要是感覺這個不夠明顯,我們還是來看銷量高於一萬的走勢圖。

圖八 銷量大於10000商品價格走勢圖

下面來研究下這些爆款都來自哪裡。

(3)賣家地點

來看看這些做爆款的賣家都在哪,地點是不是也為他們提供了一定的優勢?

圖九 賣家地點分佈

從高到低分別是——廣東、浙江、北京、上海、江蘇、山東、湖北、河南、遼寧、江西。

(4)店鋪是否是天貓賣家


圖十 是否是天貓(前五頁資料)


圖十一 是否是天貓(首頁資料)

這個比例看起來都差不多。看來也沒什麼必然的關係。

(5)商品名字

給你舉兩個: “夏季新款女式連衣裙莫代爾背心長裙波西米亞氣質長裙打底裙子” “14夏季新款韓版短袖V領波西米亞連衣裙大碼女裝沙灘裙子” “夏裝新款女連衣裙短袖韓國性感修身顯瘦包臀V領大碼” 呵呵,想沒想好你的叫什麼名字了? 如果買的是內褲,按照上面的規則應該就叫:“14夏季新款波西米亞修身顯瘦包臀韓國氣質新版安全防盜內褲”,呵呵。

(6)買家分析

第一是黑龍江,遼寧也入圍前十了。

本文為younghz原創,文章連結為:http://blog.csdn.net/u012150179/article/details/37306629
 

相關推薦

關於“”的資料資料分析

1、資料爬取 爬取物件:淘寶“連衣裙 夏”的搜尋結果。爬取物件的選擇分析我在文章中也有提及。 工具:Scrapy。 2、資料分析 工具:ipython & matplotlib。 3、分析內容 4、正文 一、案例選擇。 現在著手分析

抖音的資料資料背後的

分析的背景  截至今年7月,抖音日活已突破3.2億。抖音總裁張楠預測,到2020年,國內短視訊行業的總日活使用者數,將達到10億。抖音推出多元變現方式,要讓1000萬創作者賺到錢 ,抖音說要讓這1000萬創作者賺到錢,其中變現的方式有很多種,我今天主要是想分享抖音背後的淘寶產業鏈,我們刷抖音視訊的過

關於“”的數據數據分析

每一個 .net task 選擇 http 是否 店鋪 lib position 本文為younghz原創,文章鏈接為:http://blog.csdn.net/u012150179/article/details/37306629 這個問題最初是源於我在

詳情頁制作的幾個方法(理論)

運營 如果 article class clas es2017 文章 art -1 淘寶爆款詳情頁制作的幾個方法 如果你是運營淘寶的店主,抑或是準備從事這個行業的,這個文章將會對你有很大幫助。 淘寶爆款詳情頁制作的幾個方法(理論)

天貓評論數據

turn ren false exc pandas () return tao invalid import requests import re,json import pandas class base(): def __init__(self,url):

php/天貓評論,成功後自動儲存為"文字格式",儲存在當前目錄下

不說其他的,上段程式碼先index.html<!DOCTYPE html><html><meta charset="utf-8"><head><title>抓取淘寶評論</title></head&

Python爬蟲:十分鐘實現從資料資料API提供

  依舊先從爬蟲的基本概念說起,你去做爬蟲做資料抓取,第一件事想必是去檢視目標網站是否有api。有且可以使用的話,皆大歡喜。   假如目標網站自身不提供api,但今天你心情不好就想用api來抓資料,那

有哪些好用的網際網路資料資料採集,頁面解析工具?

1、 網際網路剛興起的時候,資料索引是個大問題,當時Yahoo的分類頁面著實火了一陣子。 2、隨著網際網路資料量越來越大,Google,百度等搜尋引擎火了起來。這個階段,幾乎沒有比搜尋引擎更火的技術了,連帶分詞技術都火得一塌糊塗。緊接著, Nutch等開源搜

吳裕雄--天生自然python學習筆記:python通過“任務計劃程式”實現定時自動下載或更新執行 PM2.5 資料程式資料

在 Windows 任務計劃程式中,設定每隔 30 分鐘自動抓取 PM2.5 資料,井儲存 在 SQLite 資料庫中 。     import sqlite3,ast,requests,os from bs4 import BeautifulSoup #cur_path=os

之路如何選擇一產品,超常規營銷戰略,店鋪流量破萬!

小白 要去 定位 發展 用戶 操作 管理 標題 演練 社會發展迅速且多變,隨著電商行業的崛起很多新的事物也相應出現,這就意味著我們不能用舊的眼光去看待舊的事物,要跟上社會進化的腳步,新的一年淘寶店鋪的限制越來越多,淘寶也越來越難運營,相信很多人不知道該往哪個方向發展,下面小

scrapy安裝資料

scrapy安裝 pip install Scrapy 如果需要vs c++的話可能是因為要用到twisted,可以到 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載,然後在本地下載的目錄下在位址列輸入cmd,然後pip

爬蟲原理資料-----HTTP和HTTPS的請求響應

HTTP和HTTPS HTTP協議(HyperText Transfer Protocol,超文字傳輸協議):是一種釋出和接收 HTML頁面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)簡單講是HTTP的安全版,在HTTP下加入

爬蟲原理資料----- urllib2:GET請求和POST請求

urllib2預設只支援HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib 和 urllib2 都是接受URL請求的相關模組,但是提供了不同的功能。兩個最顯著的不同如下: urllib 僅可以接受URL,不能建立 設定了headers 的Request 類例項

爬蟲—01-爬蟲原理資料

爬蟲的更多用途 12306搶票 網站上的頭票 簡訊轟炸 關於Python網路爬蟲,我們需要學習的有: Python基礎語法學習(基礎知識) 對HTML頁面的內容抓取(資料抓取) 對HTML頁面的資料提取(資料提取) Scrapy框架以及scrapy-redis分散式策略(第三方框架) 爬蟲(Spider

爬蟲(一):爬蟲原理資料

1.通用爬蟲和聚焦爬蟲 根據使用場景,網路爬蟲可分為 通用爬蟲 和 聚焦爬蟲 兩種. 通用爬蟲 通用網路爬蟲 是 捜索引擎抓取系統(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將網際網路上的網頁下載到本地,形成一個網際網路內容的映象備份 聚焦爬蟲

python&amp;php數據、爬蟲分析中介,有網址案例

網絡 數據抓取 不定 pytho span article 抓取 取數據 data- 近期在做一個網絡爬蟲程序。後臺使用python不定時去抓取數據。前臺使用php進行展示 站點是:http://se.dianfenxiang.com python&a

夜神模擬器配置burpsuiteAPP資料報文

設定夜神模擬器的代理 進入wifi連線選項 之後長按熱點,出現修改網路的彈窗 點選修改網路,勾選高階選項,將代理設為手動,代理伺服器主機名填寫電腦的ip,埠號填寫8888 點選儲存 設定Burpsuite代理 在夜神模擬器當中使用瀏覽器瀏覽該代理地

QueryList免費線上網頁採集資料工具-toolfk.com

     本文要推薦的[ToolFk]是一款程式設計師經常使用的線上免費測試工具箱,ToolFk 特色是專注於程式設計師日常的開發工具,不用安裝任何軟體,只要把內容貼上按一個執行按鈕,就能獲取到想要的內容結果。ToolFk還支援  BarCode條形碼線上

Python爬蟲教程:簡書文章的儲存

本文內容將與大家一起從簡書的文章頁面抓取文章標題、作者、釋出時間以及正文內容,並且將抓取到的這些資訊存入Excel表格中。本文對簡書文章的抓取僅為Python的學習交流,尊重作者著作權,不對抓取到的文章做其他用途。本文使用Chrome瀏覽器對頁面中需要抓取的內容進行分析。 首先我們從簡書

Charles小常識及手機資料

一.Charles小常識 注意: (1)瀏覽網頁時花瓶儘量不要開啟,可能會出現網頁重置現象 (2)安裝Python包時,切記要將花瓶關閉,否則會報錯 1.花瓶的埠是8888 2. 可以改為0.0.0.0/0可以抓取所有IP下的所有埠   3.可以按照以下做