我們用數據神器,做了一頂《哈利·波特》魔法學院的

分類:營銷 時間:2016-09-24

我們探討了使用文本挖掘、自然語言處理等方式展示《哈利middot;波特》系列,并顯示7本書的主角網絡。此外,我們還利用隨機森林算法(Random Forests)來模仿小說里的“分院帽”的工作。

過去我們用我們的眼睛看小說,現在有了機器學習的發展、自然語言處理(NLP)方法和其他先進的科學數據的技術,使我們能比一個普通的讀者更加深入地解讀《哈利middot;波特》。

我們希望這一數據科學項目可以為愛好者們提供新視角下的《哈利middot;波特》系列,并鼓勵越來越多的Fans加入我們的深度挖掘。

我們從 網上 下載了全系列的小說。首先,每本小說都被python逐行讀取,把它們轉化為新的文檔,方便文本挖掘的處理。在這個過程中,每本書都生成了一個ep_nick的庫,里面包含了每一個角色的全名和外號。我們使用了Python中的NLTK包(自然語言處理包,包含了計算機對自然語言進行的操作)檢測出角色的全名,同時也從互聯網上獲取了每個角色的外號,把角色的稱號相對應,于是生成了一張列表。

我們把每個角色在每本書中提及的次數進行了統計,并生成了相應的圖表, 可視化交互請點這里

一大波詞云來襲

接著,我們用PageRank算法(Google排名運算法則的一個非常重要的組成部分)進行匯總。

把所用停止詞(對語言表述不構成困難的詞語)剔除后,我們計算了每一對句子的余弦相似度(資訊檢索中常用的相似度計算方式),并建立了一個矩陣用來儲存之前所有被檢索句子的余弦值相似度。隨后我們用python中的NetworkX庫(包含復雜網絡的建模方法)進行PageRank算法,這個矩陣便用算法的輸入。

然后,我們為每一部小說生成了一個文字云。

PS.為了讓這個文字云更有意義,除了剔除了所有停止詞以外,我們也刪除了頻繁出現的三個主人公:哈利,羅恩和赫敏。

各對cp之間的隱秘關系

這一節我們將使用adaboost算法(自適應增強,一種機器學習方法)構建網絡。

我們提取了極端和主觀(polarity and subjectivity)這兩種特質,對文檔進行情感分析(又稱為傾向性分析,主要對象為帶有情感色彩的主觀性文本)。我們為每一本小說都創造了一個共生矩陣,用于記錄每一對角色同時出現的次數。這兩個特類在使用共生矩陣中的元素時被正常化了,隨后他們用于adaboost算法,來甄別角色間的積極關系和消極關系。

(更多的內容請點擊 原網站

多類分類器——分院帽

(DT君:重點來了。大家注意本段下方超鏈接……)

我們建立了一個多類分類器,它基本上就是小說中的 “分院帽”

我們對每個霍格沃茲的新生,剖析了以下的個人信息特征:姓名、性別、眼珠顏色、頭發顏色還有其所在學院。同時,測試者輸入以上特征后,我們使用隨機森林作為分類器,找出測試者對應的學院。

P.S. 我們建立了一個網站展示我們目前為止的成果。

分院帽測試

(DT君注:好了,做了這么多事情,現在到了實際應用的時候了。你們想要看一看自己到底適合在《哈利middot;波特》里的那個學院念書嗎?那么仔細看下文。)

下面的題目選A的 1,選B的 2,選C的 3,選D的 4,一定要根據自己的狀況來回答!不然再正宗的分院帽也會不準確。 注意:一定要根據自己的狀況來回答!

1、你接到了霍格沃茨入學通知書。那么,你覺得自己應該是什么樣的家庭出身?

A、麻瓜家庭 B、混血家庭 C、純正家庭

2、到了對角巷,你先想買什么?

A、買一個自己的飛天掃帚 B、魔法書籍 C、魔杖 D、寵物

3、你想買什么樣的飛天掃帚?

A、火弩箭 B、矢車菊 C、橫掃七星 D、不買,一年級新生買不買都無所謂

4、你先買什么書籍?

A、黑魔法防御書 B、魔法史書 C、魔藥書 D、標準咒語

5、到了霍格沃茨,你發現魔法石有危險,你怎么辦?

A、爭分奪秒,先去拯救它 B、探清情況,再去救它 C、練幾個厲害咒語再去 6、密室打開了,學生被攻擊,蛇怪出來掃蕩,你該怎么辦?

A、用寶劍將蛇怪殺死 B、摸清蛇怪底細,再殺它 C、用咒語殺它

7、你想參加三強爭霸賽,原因是什么?

A、為在比賽中戰勝自我 B、和外國巫師交朋友 C、得到1000加隆 D、名垂青史

8、你愿意參加鳳凰社嗎?

A、愿意 C、先探清鳳凰社的底細 D、很為難,不知道應該不應該參加。

9、畢業后,你想干什么?

A、傲羅 B、魔法部官員 C、古靈閣職員

10、你到魔法部參觀,你先想去哪里?

A、神秘事務司 B、魔法交通司 C、魔法法律司 B、魔法噴泉

11、放假了,你想干什么?

A、探險 B、旅游 C、去魔法商店 D、在家呆著

12、如果你要經受傲羅培訓,你想先學哪一個?

A、阿尼馬格斯 B、高級咒語 D、易容馬格斯

13、你覺得什么交通工具最好?

A、飛天掃帚 B、門鑰匙 C、飛毯

14、你認為什么寵物最好?

A、龍 B、鳳凰 D、蟾蜍

15、你認為哪個巫師最厲害?

A、鄧不利多 B、梅林(很厲害的巫師,在哈利middot;波特的魔法世界中有詳細描述)C、伏地魔

16、你認為最不可饒恕的咒語是什么?

A、索命咒 B、奪魂咒 C、鉆心咒 D、這些都不可饒恕

17、哪位黑魔法防御術老師最討厭?

A、烏姆里奇 B、洛哈特 C、盧平 D、都還可以

18、怪物中最可怕的是什么

A、沒有最可怕的 B、蛇怪 C、攝魂怪 D、巨人

19、你覺得最好的魔法學校是哪個?

A、霍格沃茨 B、布斯巴頓 C、德姆斯特朗

20、你覺得三強塞中哪一個項目最難

A、一 B、二 C、三

結果分析:

2O-31 格蘭芬多學院:你勇敢、率真、有好奇心。喜歡做有挑戰性的事情。

32-43 拉文克勞學院:你聰明、有遠見。好奇心也很強,喜歡鉆研事物哦。

44-55斯萊特林學院:你高貴、有些驕傲,而且足智多謀。

55之上 赫奇帕奇學院:你更像一個普通人(DT君:我覺得做個普通人這個非常好!)

參考資料

原文參考:

https://www.mapr.com/blog/inside-look-at-components-of--engine

http://bigdata.ices.utexas.edu/project/large-scale-recommender-systems/

翻譯參考:

http://blog.jobbole.com/71431/

http://www.cnblogs.com/woodcutter/archive/2010/10/10/1847495.html

http://blog.csdn.net/erli11/article/details/23918751

http://www.mathwarehouse.com/algebra/matrix/

http://baike.baidu.com/link?url=dDW38yly5xOisfy0FE5hJIPnQz8UY8qk3gXjDfaMFobeP0uml_1-7Kk_rlTGYf-3Jim-59HI37TqajuJDGvqL_

數據俠門派

本文 數據俠 :Ao liu, Chenlu Ji, Hexiu Ye, Yueying Teng, Yusen Wang 來自哥倫比亞大學的五位哈利波特忠實粉,旨在致敬美好的童年

翻譯:數據俠翻譯計劃小分隊成員 何奕霖 (中國人民大學社會學)

如何加入數據俠

“數據俠”欄目網羅全球最IN的大數據俠客,利用人工智能、機器學習以及各種前瞻算法,打造理性而酷炫的數據可視化盛宴。過去,我們用文字,視頻,圖片傳達信息。現在,我們用大數據闡述事實及其背后邏輯趨勢。

DT時代超級英雄正在組隊!你也想要成為成為數據俠嗎?請將你腦洞大開的數據作品,發到數據俠聯盟萌主沈念祖的郵箱:[email protected]。哦對了,請不要叫 沈先生,切記。

(了解更多有趣又有料的商業數據分析,歡迎關注DT財經微信公眾號“DTcaijing”,下載“DTmiddot;一財”APP)


Tags: 數據挖掘

文章來源:http://dtcaijing.baijia.baidu.com/article/620024


ads
ads

相關文章
ads

相關文章

ad