關於“淘寶爆款”的數據抓取與數據分析
本文為younghz原創,文章鏈接為:http://blog.csdn.net/u012150179/article/details/37306629
這個問題最初是源於我在知乎上一個回答(http://www.zhihu.com/question/24368542/answer/27579662),涉及了兩個方面:數據抓取和數據分析。
1、數據爬取
爬取對象:淘寶“連衣裙 夏”的搜索結果。爬取對象的選擇分析我在文章中也有提及。
工具:Scrapy。
代碼:我把當時實現的代碼放在了GitHub上。地址:https://github.com/younghz/TBBKAnalysis,感興趣的能夠看一下。關於Scrapy的知識與爬蟲的編寫能夠見專欄:http://blog.csdn.net/column/details/younghz-scrapy.html
2、數據分析
分析內容可見上述Repository的Wiki(https://github.com/younghz/TBBKAnalysis/wiki)。我也會將其寫在以下。
或者直接看上面知乎問題中我寫的答案。
工具:ipython & matplotlib。
3、分析內容
分析內容放在了Wiki中。鏈接:https://github.com/younghz/TBBKAnalysis/wiki。或者直接見以下正文。(註意:假設Wiki中圖片無法打開,請使用較高版本號的Chrome瀏覽器。
)
4、正文
本文為younghz原創,文章鏈接為:http://blog.csdn.net/u012150179/article/details/37306629一、案例選擇。
如今著手分析的對象是能讓你在三個月獲得大把鈔票的“爆款”。這 當然得拿最有代表性的商品當樣例,最有代表性就是最火的。
看看什麽最火。以下是淘寶指數(http://shu.taobao.com/top/16/search)數據。
圖一 搜索排行
圖二 成交排行非常明顯。那麽就取商品的搜索量和成交量二者交集——“連衣裙 夏”做案例進行分析。
二、案例分析
在淘寶中搜索“連衣裙 夏”,首先提取實用數據,這裏我基於Scrapy框架實現了一個爬蟲,爬取按銷量排行的前五頁數據(聽說前五頁是全部商家的夢哦),銷量在三千到三萬,銷量低於三千的款也不夠‘爆’吧(我也不清楚,呵呵)。
這裏提取每一個寶貝銷量、寶貝價格、店鋪性質以及店鋪名稱等分析。
三、數據分析
以下對提取的數據進行分析,分析分為兩種:首頁
和前五頁。(以下圖表使用ipython基於matplotlib生成) 假設說前五頁屬於‘爆’級別。那麽首頁就是‘爆爆’了吧。(1)最關心的當然還是銷量
基於上面抓取的數據。分析。
圖三 前五頁銷量趨勢
圖四 首頁銷量趨勢看過了什麽感受,這怎麽成指數下降趨勢啊。即便是爆款,銷量差距還是非常懸殊的啊。即使在‘爆爆’級別的首頁銷量老大和老二都不是一個級別的啊。競爭好激烈不是嗎。
我們繼續進行局部放大,看看銷量在一萬以上的是什麽情況。
圖五 銷量大於一萬趨勢小夥伴。是不是有種要做就做老大的感腳。
(2)看價格
以下是前五頁商品的價格曲線。
圖六 前五頁商品價格及平均價格圖當中紅色的線是全部商品的平均價格。低於50塊。並且價格可分為三個區間:
- 區間一:50下面。
這部分商品最密集。大部分商品價格集中在這個區域。
- 區間二:50到100。
這屬於第二階梯。
- 區間三:100以上,看上去這部分好刺眼啊,總有零星的幾個拔出來。
相對照例非常少。
有什麽感想,要是你做,把你的東西價位定義在哪個區間呢。繼續看下首頁的價格數據。
圖七 首頁商品價格走勢圖要是感覺這個不夠明顯,我們還是來看銷量高於一萬的走勢圖。
圖八 銷量大於10000商品價格走勢圖以下來研究下這些爆款都來自哪裏。
(3)賣家地點
來看看這些做爆款的賣家都在哪。地點是不是也為他們提供了一定的優勢?
圖九 賣家地點分布從高到低各自是——廣東、浙江、北京、上海、江蘇、山東、湖北、河南、遼寧、江西。
(4)店鋪是否是天貓賣家
圖十 是否是天貓(前五頁數據)
圖十一 是否是天貓(首頁數據)這個比例看起來都差點兒相同。看來也沒什麽必定的關系。
(5)商品名字
給你舉兩個: “夏季新款女式連衣裙莫代爾背心長裙波西米亞氣質長裙打底裙子” “14夏季新款韓版短袖V領波西米亞連衣裙大碼女裝沙灘裙子” “夏裝新款女連衣裙短袖韓國性感修身顯瘦包臀V領大碼” 呵呵,想沒想好你的叫什麽名字了? 假設買的是內褲,依照上面的規則應該就叫:“14夏季新款波西米亞修身顯瘦包臀韓國氣質新版安全防盜內褲”。呵呵。
(6)買家分析
剛才說的都是賣家的,如今看看消費者。
看看關鍵詞喜好度(http://shu.taobao.com/searchindex?spm=0.0.0.0.3Mt2Y2&query=%E8%BF%9E%E8%A1%A3%E8%A3%99%20%E5%A4%8F)對你有沒有幫助。
圖十二 搜索喜好度第一是黑龍江。遼寧也入圍前十了。
關於“淘寶爆款”的數據抓取與數據分析