1. 程式人生 > >關於“淘寶爆款”的數據抓取與數據分析

關於“淘寶爆款”的數據抓取與數據分析

每一個 .net task 選擇 http 是否 店鋪 lib position

本文為younghz原創,文章鏈接為:http://blog.csdn.net/u012150179/article/details/37306629


這個問題最初是源於我在知乎上一個回答(http://www.zhihu.com/question/24368542/answer/27579662),涉及了兩個方面:數據抓取和數據分析。


1、數據爬取

爬取對象:淘寶“連衣裙 夏”的搜索結果。

爬取對象的選擇分析我在文章中也有提及。

工具:Scrapy。

代碼:我把當時實現的代碼放在了GitHub上。地址:https://github.com/younghz/TBBKAnalysis,感興趣的能夠看一下。關於Scrapy的知識與爬蟲的編寫能夠見專欄:http://blog.csdn.net/column/details/younghz-scrapy.html


2、數據分析

分析內容可見上述Repository的Wiki(https://github.com/younghz/TBBKAnalysis/wiki)。

我也會將其寫在以下。

或者直接看上面知乎問題中我寫的答案。

工具:ipython & matplotlib。


3、分析內容

分析內容放在了Wiki中。鏈接:https://github.com/younghz/TBBKAnalysis/wiki。或者直接見以下正文。(註意:假設Wiki中圖片無法打開,請使用較高版本號的Chrome瀏覽器。


4、正文

一、案例選擇。

如今著手分析的對象是能讓你在三個月獲得大把鈔票的“爆款”。這 當然得拿最有代表性的商品當樣例,最有代表性就是最火的。

看看什麽最火。以下是淘寶指數(http://shu.taobao.com/top/16/search)數據。

技術分享
圖一 搜索排行

技術分享
圖二 成交排行

非常明顯。那麽就取商品的搜索量和成交量二者交集——“連衣裙 夏”做案例進行分析。

二、案例分析

在淘寶中搜索“連衣裙 夏”,首先提取實用數據,這裏我基於Scrapy框架實現了一個爬蟲,爬取按銷量排行的前五頁數據(聽說前五頁是全部商家的夢哦),銷量在三千到三萬,銷量低於三千的款也不夠‘爆’吧(我也不清楚,呵呵)。

這裏提取每一個寶貝銷量寶貝價格店鋪性質以及店鋪名稱等分析。

三、數據分析

以下對提取的數據進行分析,分析分為兩種:首頁

前五頁。(以下圖表使用ipython基於matplotlib生成) 假設說前五頁屬於‘爆’級別。那麽首頁就是‘爆爆’了吧。

(1)最關心的當然還是銷量

基於上面抓取的數據。分析。
技術分享
圖三 前五頁銷量趨勢

技術分享
圖四 首頁銷量趨勢

看過了什麽感受,這怎麽成指數下降趨勢啊。即便是爆款,銷量差距還是非常懸殊的啊。即使在‘爆爆’級別的首頁銷量老大和老二都不是一個級別的啊。競爭好激烈不是嗎。


我們繼續進行局部放大,看看銷量在一萬以上的是什麽情況。


技術分享
圖五 銷量大於一萬趨勢

小夥伴。是不是有種要做就做老大的感腳。

(2)看價格

以下是前五頁商品的價格曲線。
技術分享
圖六 前五頁商品價格及平均價格圖

當中紅色的線是全部商品的平均價格。低於50塊。並且價格可分為三個區間:

  • 區間一:50下面。

    這部分商品最密集。大部分商品價格集中在這個區域。

  • 區間二:50到100。

    這屬於第二階梯。

  • 區間三:100以上,看上去這部分好刺眼啊,總有零星的幾個拔出來。

    相對照例非常少。

有什麽感想,要是你做,把你的東西價位定義在哪個區間呢。繼續看下首頁的價格數據。


技術分享
圖七 首頁商品價格走勢圖

要是感覺這個不夠明顯,我們還是來看銷量高於一萬的走勢圖。
技術分享
圖八 銷量大於10000商品價格走勢圖

以下來研究下這些爆款都來自哪裏。

(3)賣家地點

來看看這些做爆款的賣家都在哪。地點是不是也為他們提供了一定的優勢?
技術分享
圖九 賣家地點分布

從高到低各自是——廣東、浙江、北京、上海、江蘇、山東、湖北、河南、遼寧、江西。

(4)店鋪是否是天貓賣家

技術分享
圖十 是否是天貓(前五頁數據)

技術分享
圖十一 是否是天貓(首頁數據)

這個比例看起來都差點兒相同。看來也沒什麽必定的關系。

(5)商品名字

給你舉兩個: “夏季新款女式連衣裙莫代爾背心長裙波西米亞氣質長裙打底裙子” “14夏季新款韓版短袖V領波西米亞連衣裙大碼女裝沙灘裙子” “夏裝新款女連衣裙短袖韓國性感修身顯瘦包臀V領大碼” 呵呵,想沒想好你的叫什麽名字了? 假設買的是內褲,依照上面的規則應該就叫:“14夏季新款波西米亞修身顯瘦包臀韓國氣質新版安全防盜內褲”。呵呵。

(6)買家分析

剛才說的都是賣家的,如今看看消費者。

看看關鍵詞喜好度(http://shu.taobao.com/searchindex?spm=0.0.0.0.3Mt2Y2&query=%E8%BF%9E%E8%A1%A3%E8%A3%99%20%E5%A4%8F)對你有沒有幫助。
技術分享
圖十二 搜索喜好度

第一是黑龍江。遼寧也入圍前十了。


本文為younghz原創,文章鏈接為:http://blog.csdn.net/u012150179/article/details/37306629

 

關於“淘寶爆款”的數據抓取與數據分析