1. 程式人生 > >大資料分析:王者榮耀英雄背景下的分詞報告

大資料分析:王者榮耀英雄背景下的分詞報告

大資料

中文分詞在中文資訊處理中是最最基礎的,無論機器翻譯亦或資訊檢索還是其他相關應用,如果涉及中文,都離不開中文分詞,因此中文分詞具有極高的地位。

NLP剛入門,想找個東西練練手,於是便看到了手邊的農藥。。。

思路

  • 使用Python爬取王者榮耀官網所有英雄的背景資料文字資訊
  • 使用RMM最大逆向匹配分詞演算法對文字進行分詞處理,計算詞頻
  • 使用Excel出具簡單的視覺化報告

結果

爬取了王者榮耀官方網站-騰訊遊戲

71位英雄的英雄故事文字

共計59793個字元

排名前20的高頻詞彙:

大資料

【自己】一詞出現了194次,詞頻為0.48%,高居榜首。

王者榮耀團隊在介紹英雄時,多以第一人稱視角進行故事敘述和情感宣洩。

有利於使用者更好地理解英雄背景,觸發共情效果,有利於提高使用者的整體遊戲體驗。

如蘇烈的英雄故事中,【自己】就出現了4次,圖片所截區域不全,僅作展示說明。

大資料

男女詞彙比例

大資料

男性詞彙: 他 他們 男 男子 男人 少年 爹爹;出現次數704次,詞頻為1.74%。

女性詞彙: 她 她們 少女 女 妻子 太后 女媧 小女孩 女郎 女孩 女嬰 女戰士;出現次數263次,詞頻為0.65%。

男女詞彙比例為73:27,男女英雄數量比例為72:28,幾乎一致王者榮耀的英雄更迭與故事發展主要與男性英雄相關

如鎧的英雄背景中,【他】出現了31次,【她】出現了1次

大資料

在同為長城小隊隊員的花木蘭英雄背景中,【他】出現了12次

,而【她】出現了1次

大資料

主要情節均由男性角色推動。

排名前20的地點詞彙:

大資料

【長安】、【長城】和【大唐】穩居榜首前三,佔據了前20地名中46.67%的詞頻

繁華盛世和戰亂邊疆都是孕育無數英雄豪傑的好地方,相容幷蓄的社會環境和攘外安內的國家政策迸發出一批又一批的青年才俊。

王者榮耀的遊戲策劃也是深諳此道。

目前所有的英雄均來自於王者大陸的魔幻土地之上,如城鎮、廢墟、地下、森林、深淵、寺院和戈壁等。

官方人員在設計新的英雄時,不妨把視角轉向浩渺的天空。

如Dota中的雙頭龍、精靈龍、寒冰飛龍、死靈飛龍和鳳凰等角色,來為遊戲注入新的活力,進一步加強遊戲本身的趣味性和可玩性。

大資料

正負面情感詞彙比例

大資料

正負面詞彙比例為65:35,英雄們多因外族入侵、魔道猖獗、國破家亡和希望破滅等因素,為了國家安定和夢想實現,不得不拿起手中刀劍,奔向戰場

天降大任於斯人也,必先苦其心志,勞其筋骨,餓其體膚,空乏其身,行指亂其所為,所以動心忍性,曾益其所不能。

正面詞彙: 愛 仁 和平 信任 勝利 希望 微笑 榮耀 偉大 輝煌 美麗 自信 等;出現次數425次,詞頻為1.04%。

負面詞彙: 魔 魔道 黑暗 憤怒 背叛 可怕 恐懼 失去 死亡 危險 吞噬 邪惡 殘忍 嘲笑 折磨 戰亂 等;出現次數780次,詞頻為1.91%。