數據不八卦，跟我從零做一次「數據收集與分析」

不得不說呢，我是一個非常八卦的產品經理～今天，就借目前比較火的《李雨桐與薛之謙事件》來做一個基礎的數據分析吧。因為我也是一個新手，很高級的方法就暫時沒掌握了。此篇答案作拋磚引玉。

前言

大家在平時如果需要進行一個需求說明或者是一些用戶相關的展示，如果用到了一些可視化的數據圖表，是會讓自己的展示增色不少的。雖然目前可視化圖表的制作手段已經很充分了，比如說： BDP個人版、百度圖說、阿裏巴巴DATAV 。

這一類的可視化圖表工具很多，具體功能大同小異。但是有了一個好的工具，一定是需要一些強有力的數據支撐，才可以保證論據的有效性。所以本篇文章準備借一個例子來講一下平時進行數據分析會用到的工具和思路。希望對你們有用。

做數據分析之前應該要做的事情

那在做每一次的數據分析之前呢，有一個很重要的事情就是，你需要確定：預期從本次數據分析中收獲哪些方面的內容。同時，也要思考清楚，是需要通過這次的數據分析去得到哪些結果？這些結果的關鍵影響因素是哪些？

那我們這次展示的是，通過數據分析，了解本次事件中的受關註程度、輿論走向、人群畫像。

1.如何了解受關註程度（初級收集）

我們該怎麽去判斷一個事件的受關註程度呢？我們可以去看看有多少人關註了這件事情，在討論這個事情，以及相關指數報告。

1）通過微博

李雨桐從9月12日第一次發博至今，粉絲從50W上漲到了166萬，凈增長116萬，用時半月，能與這種速度媲美的，近期我能想到的就是《中國有嘻哈》裏的嘻哈歌手了，大概是數以億記的曝光。

微博除了能這樣搜索以外，還有什麽用法呢？你還可以這樣進行搜索哦。

因為參考薛之謙是明星，所以之前的內容也很多，所以這裏放他的搜索結果沒什麽說服力。而有關李雨桐的微博，截止至9.26有2.8E條之多了。

2） 通過各類指數網站

比如百度指數、新浪-微指數、阿裏指數-電商向、艾瑞指數。百度指數中，李雨桐的指數是這樣的。

不得不說這個上升的變化率，真的是很長。長到我數不清了，因為發博之前（9.12日之前）李雨桐的搜索指數幾乎為0。

熱度的頂峰是因為9.22重磅微博：超級石錘！薛之謙原版錄音！典藏版！ 13分鐘的音頻竟然可以有6200W次的播放！！如果放到各大音樂App上，肯定瞬間成為音樂風雲榜的榜首了。

2.如何收集人物畫像

其實對於人物畫像的收集，我們需要先確定，是在哪些場景之下的用戶。那這次是事件比較簡單，就是爆發在微博上的，所以就選擇關註了這些事件的用戶進行分析了。

1） 簡單方法：微博微指數

如果我們不去尋找過去精確的結果，那就可以直接通過微指數中看到一些我們需要的數據了。比如我們由此可以知道，八卦這件事情呢，女生肯定是大比重的，所有關註李雨桐事件裏的用戶，有70.92%是女性。

同時還可以查看年齡的比重：越年輕，越八卦是沒錯的。

但是我們在收集數據的時候需要切記，有些數據可能參考價值不是那麽高。比如星座標簽，發現是魔蠍座的用戶占比最高，而且還高不少，難道是因為魔蠍座更八卦嗎？沒那麽玄乎吧。

然後我就去查了一下魔蠍座是生日在12月22日~1月19日，是不是因為註冊微博的用戶如果沒有填寫生日信息就默認是1.1日出生了，所以魔蠍座的比較多呢？（這些只是個人猜測）

3.通過簡單的爬蟲來研究輿論走向

說到這裏肯定有很多同學難受，因為爬蟲一般來說需要代碼基礎的嘛。

的確如果學過python語言，去寫爬蟲的效率會高上不少，而且能夠爬到的資料也會豐富的很多。但是我當然不是來產品論壇裏講代碼的啦，所以我會分享一款簡單易用的爬蟲工具，保證每個同學只要使用了基本就沒什麽問題可以爬，不過能爬到的東西會少一些、也無法調用多線程。

先展示一下我用爬蟲收集到的數據：

不好意思上錯圖了，如果沒有技巧的去爬蟲，會遭遇新浪的反爬措施的，比如把你的IP給暫時封了。當然，網上也有很多反反爬的手段，這裏不細說哦。這裏是大概一份未處理的原始數據。

我只收集了評論者的評論內容與性別，因為我是對輿論走向比較感興趣。但是如果有想要深度探究的同學，完全是可以繼續去收集每個評論者的地區、院校、昵稱、關註數、粉絲數、微博數、簡介（我們可以通過這些來鑒別他可能的一些興趣愛好，以及他是不是一個僵屍號！）

我要介紹的是一款chrome瀏覽器的插件，他叫做Web Scraper，他的界面大概是這樣的。

爬蟲在Python裏面的代碼是通過import scrapy來開始的，是同一回事哦哈哈。該怎麽操作呢，首先是需要下載谷歌瀏覽器，這個web scraper是上面的一個插件。

你可以爬取許多顯性不需觸發一直顯示的資料（比如文字、圖片），比如下圖紅框中的所有信息，都可以爬下來，不過需要根據內容的多少定實際時間的長短了。

有興趣的同學，可以在下載後，進行如下操作：

1）打開插件

2）選擇Import sitemap，進入這個界面

3）在Sitemap JSON框內，輸入如下代碼

{"selectors":[{"parentSelectors":["_root"],"type":"SelectorText","multiple":true,"id":"word","selector":"span.ctt","regex":"","delay":"500"}],"startUrl":"https://weibo.cn/comment/FmXu3pDCs?uid=1810037440&rl=0&page=[200]","_id":"li123"}

4）輸入一個名字，這個隨便你們。

5）點擊這個Scrape，它在Sitemap菜單裏。就會實現自動爬取李雨桐200頁的微博了。

這個工具的好用之處在於，不需要設置什麽復雜的東西（包括上面那一段代碼，也不是我自己輸入的，在完成點選以後會自動生成的），所以很方便產品小白使用的。

以下展示第三部分：輿情走向的展示（主要內容為八卦分詞）

如果我們通過分析後，得到了幾十上百萬條微博評論，雖然已經有了原始數據，但是必須要做進一步的分析，不然這東西完全沒辦法看你說是不是！先看看分析結果：

這是9.12李雨桐發出第一條微博時，底下罵聲一片的評論，我通過分詞（後面會講到方法）的方法，這是幾個高頻的詞匯：

找李雨桐要證據的人有24.8%，說她蹭熱度和惡心的人也在18%左右。當然，這個數據是9.12日剛發微博不久的10W條評論的統計。

然後時間到了9.15日，這是薛之謙第一次發微博回應的時候，內容大概是。

能夠進前排的高頻詞匯都是下面這些，表達了正面性詞匯（相信、支持、愛你、挺你一類的）占了幾乎60%，而剩下的也有許多是在攻擊李雨桐。

然後，9.19，李雨桐再次發微博。

因為李雨桐之前放出的石錘，以及薛之謙的不做解釋，大家可以發現，在本次對於李雨桐的評論中，表示相信、站你、支持的正面詞匯變多了。

本次回復中，統計相信、支持、加油、求更新、實錘等詞匯約占總評論的24.4%。而在9月21號，薛之謙再次放出新的截圖（據說是P的，知乎上有大神發現了）。

然後，大家可以從新的分詞雲中看出，薛之謙評論中的高頻詞匯，除了“永遠支持你”“支持老薛”這些以外，多了“吸精”“辣雞”“渣”等詞。這說明輿論走向正在變啊。

最大最重磅的改變，是在9.22日，李雨桐發出錄音的微博，上面有過截圖的。

點擊量非常的高，然後我再次進行爬取評論並進行高頻分詞，發現了如下的情況。

是還有不少人說李雨桐惡心的（因為居然偷偷留了一手錄音）料誰也沒想到吧。但最主要的評論走向還是在支持李雨桐上的，而看到評論列表中，幾乎所有的熱門評論一致都是在站李雨桐的。根據統計，約有七成以上的評論是對李雨桐表達肯定意見了。這場娛樂圈大戰的輿論走向最終以此告終。

最後，我們談談技術

以上的分詞展示，我相信應該是有不少產品的同學想學一下的吧？其實對於很復雜的文本數據（最近統計了幾百萬條微博評論，大約有幾百M的文字數據），通過分詞的手段可以很好的處理這些數據。

分詞我使用的方法是jiaba分詞，以下兩個鏈接是關於jieba的一些內容，可以瀏覽到一些官方的信息。

jieba分詞-GitHub

Python手冊-jieba分詞

如果同學們學會了使用jieba分詞，就可以很輕松的把Excel中繁雜的文本數據一次搞定了。但是，這些前提是，你要學過Python啊。

那麽如果沒學過Python怎麽辦呢？也很簡單，我已經把這個代碼寫好了，你只需要按照我說的方法進行操作，就可以成功進行分詞了！

首先，第一步

打開 Python官網，進行下載Python2.7.14。

記住！這裏需要下載的是2.7.14，下載了3.6.2會無法使用我的代碼。

安裝完成後，進行如下操作！

1.安裝jieba

安裝步驟，首先打開運行，就是這個玩意

輸入cmd以後進入終端

輸入

pip install jieba

輸入後直接按回車，你會看到各種行動條，後面提示successfully就可以了。

2.下載我給的代碼文件（關註我的微信公眾號pmdiray123，回復“分詞代碼”）

對，就是他

3.在當前目錄下，創建2個TXT（UTF-8編碼）文件，聽好了這裏是重點

一個txt文件命名為word.txt，這個文件裏是你的原始數據，可能是幾十萬字的評論，沒關系的，代碼處理的很快。

另一個txt文件命名為newdict.txt，這個文件是詞典，在這裏你添加一些可能你判定會有的高頻詞匯。

這樣就ok了。後面你的文件夾內有的文件是需要這樣的。

然後單擊jieba.py就會開始自動分析了。

分析時長會在幾分鐘內。你就會發現該文件夾多了2個文件了，然後你打開文件會發現如下的內容。

腳本已經幫你分詞而且按詞頻排列好啦~然後當你成功分詞並獲得詞頻以後，就可以很輕松的制作詞雲啦。詞雲做法請參考以下網址。

除了 Tagxedo外，還有什麽好的軟件制作可以詞雲?

文/一只產品汪，微信公眾號：產品汪的修煉日記（pmdiray123）。

Tags: 數據分析一個可視化數據李雨事情

文章來源：