1. 程式人生 > >微博爬蟲/資料分析/視覺化

微博爬蟲/資料分析/視覺化

微博的資料分析以及視覺化

最近在學習資料分析,資料探勘以及資料視覺化的內容,之前斷斷續續地採集了接近1億條微博資料,還有幾十萬的使用者的資訊。所以篩選了一部分資料來分析分析。下面的內容大多以《廣州釋出》為例。

  • 微博數量分析
  • 微博時間分析
  • 地域分析
  • 資料視覺化

《中國廣州釋出》是廣州市網際網路資訊辦公室的官方微博賬號。截止到6月27號凌晨,一共採集了廣州釋出50138條微博。這裡面只有很小部分是轉發的,其他都是原創。
這裡寫圖片描述

現在看看這5萬多條微博的一個數據總覽。
這裡寫圖片描述
發現幾個比較奇怪的地方,2013年下半年有一個節點怎麼微博的轉發數和評論數突然爆炸增長,然後2017年也有一個節點獲得的贊數特別多。我們詳細看看這兩個點。
這裡寫圖片描述

通過程式碼對資料篩選,可以看到2013年8月是有一個高峰,其他的月份數量還是挺接近的。再來看看8月每天的資料量。
這裡寫圖片描述

可以看到2013年8月只是30那天出現了異常大的轉發評論,其他的時候還是比較均衡。再看看8月30號那天發生了什麼事,我倒是沒什麼印象。

這裡寫圖片描述

原來是某一條微博造成了這個的情況。我們再來看看這條微博的內容:
這裡寫圖片描述
這條微博獲得的關注也遠超其他微博,原來是投稿類的帖子,內容大概是環保徵文。這裡也可以獲取到一個資訊,市民的環保意識還是挺好的,可能徵文的獎品對大家還是頗為誘惑。接下來我們看看2017年獲得點贊異常的部分。
這裡寫圖片描述
也是8月的某一條微博獲得了非常高的贊數,直接把這條貼微博出來。
這裡寫圖片描述


原來是關於暴雨的帖子,基本上每年都會帶來很多話題,今年6月份剛過去的艾雲尼颱風也對廣州乃至整個廣東地區造成很大影響。這條微博還有配有圖片,我們到爬蟲的資料庫查詢出來。
這裡寫圖片描述
這類傳播正能量的微博獲得大量點贊,也是正常的。未來我會採集這些微博的評論做一些情感分析,大家可以留意後續的更新內容。
不知道大家是否發現了一個現象。從某個時間段開始,微博越來越不像社交軟體,變得像自媒體平臺了。我們看看下面的資料。是對《廣州釋出》的轉發/評論/點贊做每個月的平均值視覺化。
這裡寫圖片描述
可以看出,《廣州釋出》被轉發和獲得評論相對前幾年是越來越少的,而點贊數越來越多。這點也印證了點贊功能是到後面才被更多的人使用。(點贊功能是後來才更新的功能,就像2015/16年左右新浪才推出的長微博[可以發超過140個字的微博帖子]),我們結合《廣州釋出》每天的資料看看。
這裡寫圖片描述

圖中有幾條異常流量的微博(上面提到其中的兩條),是不利於我們分析整體情況的,所以我們清洗掉這些資料。再看:
這裡寫圖片描述
經歷了13年的高峰之後,《廣州釋出》的轉發和評論獲得的互動是越來越少的。可能很多人看到這類新聞微博,覺得有想法的話,更多的會直接點贊。我想其他微博平臺資訊類的博主也應該是這個趨勢。
我們再來挖掘《廣州釋出》的其他資訊。
這裡寫圖片描述
我們從圖中可以得到一些資訊:

  • 每年的年初都會有個發博量下降,估計小編春節假期在好好玩耍。
  • 經過了2013年的頂峰,小編每年發得微博也是逐漸趨少了,有一部分原因應該是微信公眾號平臺對微博造成了衝擊。

我們再來看看《廣州釋出》的每天活躍時間:
這裡寫圖片描述
看來小編的發微博的工作週末都要進行啊,不知道是否有加班獎勵呢?6年多以來每週的平均值,可以看到小編週一是最積極的。週五有個小反彈,準備要週末休息?想想都激動!但是我覺得《廣州釋出》的小編應該不止一個人。繼續看看小編每天的活躍情況吧。
這裡寫圖片描述
小編早上7點就開始更新微博了,挺勤奮的嘛。中午休息過後一直奮鬥到晚上。工作態度值得我們學習。再看看粉絲們的表現。
這裡寫圖片描述
上圖是一週七天所有資料的平均值,看來廣大市民最活躍是小週末星期五。我們再看看小編用什麼途徑更新微博的:
這裡寫圖片描述
多達二十多個發博的來源,從蘋果到OPPO,從網頁到活動分享。即使是網頁端也有來自不同瀏覽器的微博標識。這也印證了我的想法,小編不是一個人。是多個人同時使用《廣州釋出》這個賬號。上圖不太直觀,我們剔除數量很少的一部分,再來看看:
這裡寫圖片描述
《微博 weibo.com》就是官網首頁釋出的標識,其他也主要是用電腦網頁釋出的。我們再看看其他的一些媒體平臺。這裡我挑選了2000多個帶認證的博主,再來挖掘一些資訊。
這裡寫圖片描述

這些部落格主要以政府機構(共青團、法院、公安局等),大型入口網站(網易、新浪等),國內知名媒體(人民日報,澎拜新聞等)以及少部分著名微博大V組成。(注意:資料量不多,資料只作參考。)
這裡寫圖片描述
可以看到,來自政治中心北京獲得的關注也是最多的。我大廣東全國經濟的領頭羊在文化傳媒上現在還是略遜一些。推薦@君臨的一遍文章:廣州和深圳是怎麼躋身「北上廣深」之列的?
再來看看這些部落格的發博情況:
這裡寫圖片描述
最後來一個上圖的平均值作熱力圖結束:
這裡寫圖片描述
這次的內容先到這裡,下次我將會嘗試做一些情感分析和文字聚類,目標依然是新浪微博。