論文閱讀 | CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data
CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data
論文地址
1 Abstract
這是一個可以預測未來一段時間內所發生事情的可視化系統,使用的是twitter數據進行分析。
2 Introduction
識別一個未來的事件並不可以依靠消息量的突增來判斷(一般一個很大的事件的到來會引發交際圈的熱烈討論),一個未來時間的發生並不一定可以激發消息量的增加。識別未來事件的挑戰在於篩選大量社交媒體數據,並識別埋在關於過去和正在進行的事件,個人狀態更新等的壓倒性信息中的小信號。
作者看來,未來事件的定義是"與將來的位置和日期/時間(跨度)相關聯的事件。 這種情況的特點是地點和時間,通常與特定主題和社交網絡相關聯。" 位置和時間是定義未來事件的主要屬性
通過這個系統。我們既可以發現各種未來事件,也可以對特定的時間地點進行重點調查。
3 Related Work
未來事件提取和可視化交互是兩個主要的方面
4 System overview and pipeline
CrystalBall集成了多個組件,包括來自Twitter Streaming API ,實體提取,未來事件標識 和排名以及交互式可視化界面。 所有的數據收集和分析都是在線進行的。接口每天刷新以顯示未來幾天或幾周內可能發生的事件的結果。
5 CrystalBall: future event identifiction and characterization
(如何處理數據)
因為未來數據在所有的數據占比小,怎麽提取是個問題
NPMI得到了位置和時間之間的相關性,相比PMI,將其正則化到1和-1之間。
除了上面所說到的NPMI,還有一些其他特征,這些其他屬性包括
鏈接和比例,我們衡量包含鏈接的推文與所有與可能的未來事件相關的推文的比例
主題標簽比例。同樣,我們測量與一個可能的未來事件相關的推文的標簽比率
用戶可信度,我們選擇一個簡單的度量,即Twitter追隨者朋友(TFF)比率來表示用戶的可信度。TFF是追隨者與朋友的比率。 1.0到2.0之間的比率表示用戶具有平衡的跟隨/跟隨者關系
用戶多樣性,如果關於一個潛在的未來事件的所有推文都來自一個賬戶,那麽這些推文很可能來自被編程為定期發送某些推文的機器人。
除此之外有些信息並不包括完整的信息,比方說紐約在4.3會有一場音樂會,但是推文裏只會提到“我將在4月3日訪問我在紐約的朋友”,其實可能是和朋友一起看音樂會。所以我們可以設計一些關於相似推文的內容。
中心性。高度連接的推特網絡將具有接近1的程度中心性,而分散的推特網絡產生接近於0的中心性。
推特相似性。但是並不是所有推文都有@和轉發相關聯。所以我們還計算了每篇推文的相似性
我們已經提出了確定可能的未來事件(NPMI)的措施,以及六個額外措施來描述事件的特征。下一步是結合這些措施來評估已確定的未來事件的質量。我們希望對事件進行排名,以便CrystalBall首先直觀地表示高質量的事件。
我們使用RankSVM進行排序。為了訓練RankSVM,我們開發了一個標簽數據集,其中包含三天內提取的未來事件(約1000個事件)。我們為表2列出的事件定義了5個類別。標註決定表明我們重視地緣政治和基層性質的事件。
五位編碼者獨立完成了1000次提取的未來事件,並使用上述分類對事件進行了排名。然後,我們使用標記的數據集來訓練RankSVM,並開發了一個可應用於無標簽事件排序的模型。在CrystalBall可視化界面中,事件列表視圖中每天顯示的事件順序(如圖3所示)反映了RankSVM的結果。
5 CrystalBall: Visual Interface(可視化分析)
按時間檢索
日期縱覽
我們從整個時間軸進行查看
上圖是未來事件的總攬,首先每行該日期所發生的事件,實線連接的是有相同的地點的事件。虛線連接的是具有同樣的關鍵詞的事件。
每個事件都有自己的顏色,顏色代表整個事件的感情屬性,而顏色的深淺表達了置信度。
單個日期查看
我們也可以查看一天的信息
A圖,花瓣的紅色占比代表了這個指標的大小,中間的數字是該日共有幾個未來事件。
B圖中,1表是每個時刻的時間數,2表是近30天內將會發生的相似事件,3表是按照感情屬性分類的結果。
C圖中,未來事件中的關鍵詞。
D按鈕可以用來收藏
按地點檢索
A圖中可以放縮不同尺寸的地點,中間的數字表示的是事件數,不同深淺表達了在不同時間點內的事件。
B圖中當我們點擊華盛頓圖表,就會跳出所有事件的映像。
上圖詞雲顯示的是當前區域當中過的關鍵詞
上圖這種模式下,每個節點代表一個事件,節點之間的鏈接表示兩個事件共享相同的位置和時間。節點中的數字表示事件的推文數量。
上圖每個點是一個用戶,顏色代表了TTF比例,越深代表跟隨者越多。聚集在一起表示同樣的時間地點。點擊這個區域,所有這塊有的詞語都會被標紅
可視化系統的互動方式有 按照 時間,地點,關鍵詞,類型
7 Case Study
上面介紹了一件北卡羅來納州夏洛特市2016年9月抗議活動有關的一周活動。圖1中的實現代表了三個有同樣的地點的事物,分析這個時間線,可以發現這個時間線中有很多關於抗議的關鍵詞。關註9.24一天,可以發現很多人的情緒都轉變為恐慌,憤怒。與此同時一個有趣的現象就是大家的視線都轉向了trump的一篇推文(最右邊的一張圖)。
該系統還可以搜索潛在的用戶。用戶通過關鍵詞(愛國的歐洲人反對西方的伊斯蘭化)搜索,可以非常詳細的認識一個活動的開始,組織,和最後收到大家的報道。
8 Validation studies
我們希望通過我們的系統預測於2011年9月17日在紐約市開始的占領運動。CrystalBall分析了大約123,000條推文,其中根據我們的初步數據分析,只有120條推文包含標簽“占據”。但是CrystalBall可以找到這些蛛絲馬跡。下圖顯示了這個尋找的過程。
隨著事件的組織,CrystalBall可以識別早期信號。用戶從事件日歷視圖開始,發現了一系列的選舉後事件。在確定了多個大型全球地點(例如印度,英國,加拿大,倫敦,以色列)後,她發現跨越多個日期的“華盛頓”。選擇那個地點後,她在就職典禮日(1月20日)之前發現了多個未成年人事件。描述未來事件的關鍵詞包括“million womenmarch”,“washton”,“1月”等。查看與這些事件有關的推文顯示3月份的婦女組織活動在選舉後不久發生。
9 Limitation
- 使用 時間-地點 組合進行編碼,比較局限。
- 識別未來事件錯誤,關於過去事件的新聞頭條的推文可能會被錯誤地視為未來事件,而且很多轉發是在很多天之後才收到轉發。
- 時間位置的提取算法還是不準確
10 Future Work
處理多個數據源的流量(fb, ins, wiki, google),新的nlp算法
論文閱讀 | CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data