1. 程式人生 > >抓取虎撲王者榮耀板塊最近十頁帖子,2.5W回帖資料 ,來看看JR們都有哪些有趣的資訊

抓取虎撲王者榮耀板塊最近十頁帖子,2.5W回帖資料 ,來看看JR們都有哪些有趣的資訊

資料說明:王者榮耀區最近十頁的發帖,每個帖子內的第一頁使用者的個人資訊

主題帖:王者榮耀區十頁大概是有800個帖子。我抓取了這些帖子的主題,並且對關鍵詞進行了抽取。根據jieba分詞包(一個軟體包)對這800個主題進行分析後,去除掉一些常用的無實意的詞後。得出19個關鍵字為:王者,英雄,戰隊,榮耀,單排,KPL,賽季,打野,射手,面板,勝率,上分,攻略,春季,裴擒虎,出裝,劉邦,大家,主播,大家最近討論的內容基本圍繞這些詞張開。而後我進行了一下詞頻的統計在這800個貼裡關於王者的主題有84個相當於1/10。大家討論的比較多的職業是射手。劉邦的討論熱度比打野這個位置還要高的,劉邦應該是近期大家談論的熱點。

我製作了一個詞雲:


使用者分析:

男女比例:

我對各位的個人主頁進行了爬取。

咱們區的男女比例大概是1:10左右

在我爬取的2.5W個回帖中 有1W5的老哥並沒有填他們的性別,區裡的整體情況還是僧多肉少,但應該也有一些小改改!

地區:



和步行街主幹道的人數基本一致,來自廣東的JR是最多的,其次是北京湖北地區。

JR的註冊時間:


回帖的JR2017年註冊的佔了1/4, 2014年往前的老JR和最近三年加入虎撲的新JR五五開

關於註冊時間我還抓取到一個有意思的資料。和註冊時間相關聯的應該是等級。

在我抓取的資料當中等級和回帖數量基本是上成反比,1~7級的小號回帖是最多的,而且一級小號回帖最多,還有部分0級號回了一共52貼。大家在看帖時可能要稍微注意下water army帶節奏。

聲望和線上時長:

步行街最近出了社群聲望這個資料,用來衡量一個JR的發帖、回帖水平和質量,我對我抓取的2.5W回帖進行了簡單的聲望統計描述



我來簡單解析一下這個資料,王者榮耀區的聲望均值為2255最大的為9996(膜拜這位大神),如果你的聲望高於619,恭喜你戰勝了區內25%的JR,以此類推。聲望低於10的回帖大概有2000多貼。

除了聲望還有一個數據是線上時長,它的統計描述如下圖:


我也稍稍看了一下統計數量,線上時長低於50小時的回帖大約有5000佔了總回帖的1/5。

使用工具:

Python2.7 excel R ,mongodb 資料缺陷: 我只抓取了前十頁的800貼,並且這800貼是最新的,樣本缺乏一定的廣泛性。使用者資訊方面我只抓取了回帖使用者,這些回帖都是主題帖的第一頁的回帖,並沒有涉及第二第三頁。我在進行統計的時候沒有去重,有部分資料是重複的,打個比方,A在某貼回了3次,那麼我也記錄了他的三次個人記錄,所以有一定的偏差。各位參考一下就好。如果有老哥想要一起改進的可以私信我咱們交流交流

資料說明:

王者榮耀區最近十頁的發帖,每個帖子內的第一頁使用者的個人資訊

主題帖:王者榮耀區十頁大概是有800個帖子。我抓取了這些帖子的主題,並且對關鍵詞進行了抽取。根據jieba分詞包(一個軟體包)對這800個主題進行分析後,去除掉一些常用的無實意的詞後。得出19個關鍵字為:王者,英雄,戰隊,榮耀,單排,KPL,賽季,打野,射手,面板,勝率,上分,攻略,春季,裴擒虎,出裝,劉邦,大家,主播,大家最近討論的內容基本圍繞這些詞張開。而後我進行了一下詞頻的統計在這800個貼裡關於王者的主題有84個相當於1/10。大家討論的比較多的職業是射手。劉邦的討論熱度比打野這個位置還要高的,劉邦應該是近期大家談論的熱點。

我製作了一個詞雲:


使用者分析:

男女比例:

我對各位的個人主頁進行了爬取。

咱們區的男女比例大概是1:10左右

在我爬取的2.5W個回帖中 有1W5的老哥並沒有填他們的性別,區裡的整體情況還是僧多肉少,但應該也有一些小改改!

地區:



和步行街主幹道的人數基本一致,來自廣東的JR是最多的,其次是北京湖北地區。

JR的註冊時間:


回帖的JR2017年註冊的佔了1/4, 2014年往前的老JR和最近三年加入虎撲的新JR五五開

關於註冊時間我還抓取到一個有意思的資料。和註冊時間相關聯的應該是等級。

在我抓取的資料當中等級和回帖數量基本是上成反比,1~7級的小號回帖是最多的,而且一級小號回帖最多,還有部分0級號回了一共52貼。大家在看帖時可能要稍微注意下water army帶節奏。

聲望和線上時長:

步行街最近出了社群聲望這個資料,用來衡量一個JR的發帖、回帖水平和質量,我對我抓取的2.5W回帖進行了簡單的聲望統計描述



我來簡單解析一下這個資料,王者榮耀區的聲望均值為2255最大的為9996(膜拜這位大神),如果你的聲望高於619,恭喜你戰勝了區內25%的JR,以此類推。聲望低於10的回帖大概有2000多貼。

除了聲望還有一個數據是線上時長,它的統計描述如下圖:


我也稍稍看了一下統計數量,線上時長低於50小時的回帖大約有5000佔了總回帖的1/5。

使用工具:

Python2.7 excel R ,mongodb 資料缺陷: 我只抓取了前十頁的800貼,並且這800貼是最新的,樣本缺乏一定的廣泛性。使用者資訊方面我只抓取了回帖使用者,這些回帖都是主題帖的第一頁的回帖,並沒有涉及第二第三頁。我在進行統計的時候沒有去重,有部分資料是重複的,打個比方,A在某貼回了3次,那麼我也記錄了他的三次個人記錄,所以有一定的偏差。各位參考一下就好。如果有老哥想要一起改進的可以私信我咱們交流交流