1. 程式人生 > >A Study on Retrospective and On-Line Event Detection

A Study on Retrospective and On-Line Event Detection

本文研究了事件檢測的文字檢索和聚類技術的使用和擴充套件。任務是從時間順序的新聞故事流中自動檢測新事件,要麼追溯或要麼隨著故事的到來。我們應用15836層語料庫的分層和非分層文件聚類演算法,聚焦於內容和時間資訊的發掘。我們發現所得到的聚類層次對於以前未被識別的事件的追溯檢測具有高度的資訊性,分別支援無查詢和查詢驅動的檢索。我們還發現,文件聚類的時間分佈模式提供了有用的資訊用於回顧性檢測和線上檢測新事件的資訊。在一個使用人工標記事件評價系統檢測到的事件,我們得到了82%的結果F1測量的回顧性檢測和F1用於線上檢測的值為42%。
前言
可用電子資訊迅速增長威脅著人類的注意力,這對資訊檢索技術提出了新的挑戰。雖然傳統的查詢驅動的檢索對於面向內容的查詢是有用的,但它是通用的。諸如“發生了什麼事”之類的疑問?或者什麼是新的?”.無指導瀏覽或搜尋空間的概念結構只在微小的資訊空間中是有用的。
考慮一個從延長假期回來的人,需要迅速瞭解在她不在的時候世界發生了什麼。閱讀整個新聞集是一項艱鉅的任務,而產生對未知事實的特殊質疑是相當不現實的。因此,來自計算機的智慧援助顯然是可取的。這樣的援助可以採取語料庫的內容摘要的形式,用於快速回顧、過去的感興趣事件的時間演變,或者自動檢測新事件的列表,該事件顯示出顯著的內容轉變從任何先前已知的事件。對於通過文件叢集導航的結構化指南也很有用。表1顯示了一個樣本

通過將我們的分層內容聚類演算法應用到幾千個新聞故事(美國有線電視新聞網新聞和路透社文章從一月到二月在1995)獲得的語料庫的摘要,並使用幾個(統計意義上)關鍵術語來呈現每個叢集。如表所示,國內政治照常最高,OJ審判仍受到媒體關注等。然而,該表還顯示,災難發生在神戶日本和馬里布加利福尼亞,車臣共和國再次崛起,這些事件不是前一個月出現的。主要的術語提供的內容資訊,故事計數意味著意義,如媒體關注的測量。如果需要進一步的細節,則可以通過查詢驅動的檢索、瀏覽單個文件或跨文件的綜合摘要來檢查子簇[2 ]。這種計算機輔助的效用是顯而易見的,即使一些叢集可能不完善,而當前的使用者介面是不完善的。
本文報道了我們在事件檢測方面的工作,這是由話題檢測和跟蹤(TDT)專案發起的一個新的研究課題。目標是在連續新聞流中識別與新的或先前未被識別的事件有關的故事。更準確地說,檢測由兩個任務組成:回顧性檢測和線上檢測。前者需要在積累的集合中發現先前未被識別的事件,而後者努力從實時新聞饋送中實時識別新事件的發生。這兩種檢測形式缺乏對新事件的預先了解,但可以使用(未標記的)歷史新聞故事作為對比集。
事件檢測本質上是一個發現問題,即在文件內容中挖掘新模式的資料流。自下而上的文件聚類似乎是自然叢集發現的自然解決方案,而不引入關於域或下游應用的任何假設。此外,自底向上聚類可以導致叢集層次結構,從而允許在資訊空間中的任何抽象層次上進行觀察。更高級別的叢集對文件組的內容進行漸進的粗粒度概述,而較低級別提供對應於特定事件、事件的時間階段或子事件的更緊密的簇。我們已經應用了分層和增量非層次聚類演算法探索問題的性質和解決空間,重點是上下文資訊和事件分佈的時間模式的結合使用。
與我們的工作直接相關的是其他TDT成員組正在進行的研究:UMAS資訊檢索組和龍系統語音識別組。這些組也使用文件聚類作為他們的基本方法。UMAS通過監測新聞流中的術語頻率的突然變化,並使用包含災難相關術語的故事來構建聚類重心,來檢測災難事件。龍適應UNIGRAM(和後來的BigRAM)語言模型到文件/叢集表示,並使用k-均值聚類演算法進行文件分組[10 ]。我們將這兩組方法的結果與我們在評價部分中的方法的結果進行比較。
在資訊檢索方面其他相關工作包括:
基於分散/聚集聚類的語料庫導航方法;
聚類演算法及其在查詢驅動檢索中的應用研究;
我們的檢測方法受到散射和聚集紙(3)的啟發,包括基本組聚類演算法(GAC)的選擇。然而,聚類演算法本身不是本研究的重點,也不是查詢驅動的檢索正規化中的應用或評價。相反,本文的主要貢獻是聚類技術在事件檢測中的應用。特別地,我們研究:
事件的語義和時間特性;
基於內容和時間鄰接的文件聚類(而不僅僅是內容);
基於相似性和新穎性的事件檢測;
回顧性和線上檢測的評價方法;
2.事件分析
為了研究事件的本質並評估檢測演算法的特性,TDT專案準備了15836個新聞故事的集合,其中25類事件被TDT研究者識別。明確地給出事件否認的唯一準則是事件應該識別在某個時間在某個地方發生的一些(非平凡的)事件。此屬性使得事件與主題無關。例如,TWA800飛機墜毀是一個事件,但不是一個話題,飛機事故是一個話題,但不是一個事件。這種區分產生了事件的報告模式及其隨時間的演化。由於選擇來自TDT語料庫的事件需要對該語料庫進行初始隨機抽樣,所以對更大事件(更經常報道的那些)的偏倚是顯而易見的。所選的25個事件包含了無數的故事,從巴拿馬古巴暴亂的2個故事到OK城市轟炸的273個故事。故事的整個語料庫被手工標註;每個故事被賦予一個關於25個事件中的每一個事件的“是”、“否”或“簡短”的標籤。語料庫包含的事件多於25個標記的事件;未標記的事件未用於評價中。
新聞故事的一個有趣特徵是,事件經常與新聞突發有關。圖1和圖2示出了一些事件的時間直方圖,其中每個圖的X軸是時間(從第1天到第365天編號),Y軸是每天的故事計數。我們從時間事件分佈的觀察中出現了幾種模式:
討論相同事件的新聞故事往往是在時間上接近的,建議使用詞彙相似性和時間接近性的組合度量作為文件聚類的標準。
區域性相似故事的爆發之間的時間間隔常常是不同事件的指示(例如,不同的地震、飛機事故,政治事件),表明需要監測叢集演進隨著時間的推移,和BeNET使用時間視窗的事件範圍。
詞頻分佈的顯著變化和詞頻分佈的快速變化是報告新事件的典型事件,表明動態更新語料庫詞彙和統計術語權重的重要性。及時發現新的模式,包括以前看不見的專有名稱和鄰近短語,在故事流中可能有助於發現新事件的發生。
這些要點將在下一節中進一步討論,我們的文件聚類演算法用於事件檢測的設計被描述。
3.檢測方法
回顧性事件檢測是將故事分組在一個語料庫中的任務,其中每個組唯一地等同於一個事件。線上事件檢測是將每個文件以新的或舊的順序標記的問題,指示當前文件是否是當時討論新事件的第一個故事。我們研究了兩種聚類方法:基於組平均聚類(GAC)凝聚(分層)演算法,和一個單遍演算法(增量聚類或IPCR),產生一個非分層分割槽的輸入集合。GAC設計用於批處理,用於回溯檢測。InCR被設計用於順序處理,並用於追溯檢測和線上檢測。
3.1 聚類表示
在我們的檢測和跟蹤演算法中,我們共享文件和簇的共同表示。我們採用傳統的向量空間模型[5 ],它使用袋子的術語表示。文件(故事)用加權項向量(單詞或短語)來表示。聚類中的文件的歸一化向量和被用來表示聚類,並稱為聚類的原型或質心。使用術語頻率(TF)和逆文件頻率(IDF)對文件向量或聚類原型中的術語進行統計加權,並適當地歸一化。我們只保留每個向量的K級(最多),而忽略剩餘的項。經驗地選擇K值以優化檢測或跟蹤效能。我們使用標準餘弦相似性,即文件和聚類原型向量之間的餘弦值來度量它們的相似性。
我們採用Smart 11系統(康奈爾開發)(5)進行文件預處理,包括去除停止詞、詞幹和術語權重。SMART還提供了幾個術語加權方案,其中我們發現LTC選項在我們的實驗中得到最好的檢測結果。給定文件D中的術語T,LTC權重被定義為:

3.2 基於GAC層次聚類演算法
基礎GAC演算法
群組平均聚類(GAC)是一種凝聚演算法,最大化了所得到的聚類中的文件對之間的平均相似度(7, 9)。直截了當的GAC演算法通常在時間和空間上與輸入文件的數量(3)的平方具有複雜性,這比簡單的方法(如單鏈路聚類切割等)對於大型應用來說是不經濟的或易於處理的。提出了一種迭代的自底向上演算法,其目的是在聚類質量和計算效能之間進行折衷(3)。在每次迭代中,它將當前的活動叢集/文件集劃分為桶,並在每個桶內進行區域性聚類。該過程重複並在越來越高的水平上生成叢集,直到獲得預先確定數量的頂級叢集。該演算法具有O(Mn)的時間複雜度,其中n是輸入語料中的文件數,m是桶大小,m是n。
制袋與再聚類
當將上述演算法應用於事件檢測時,我們基於文件的有序順序對文件/簇進行了繫結。我們的動機不僅僅是計算的效率,而是利用新聞故事的時間接近性來討論給定的事件。TDT語料庫中大多數手動標記的事件持續不超過2個月。事實上,事件往往出現在新聞突發事件,使其合理的桶故事根據他們的時間順序。換言之,我們的策略給予更高的優先權來分組連續的故事,而不是時間上不同的故事。GAC演算法的輸入是一個文件集合,輸出是一個具有使用者指定樹數的簇樹森林。叢集是以自下而上的方式生長二叉樹:樹的葉節點是單文件簇;中間節點是兩個最相似的較低級別的簇的合併簇。預設情況下,自底向上的叢集一直持續到根節點被建立,它代表包含所有叢集和所有故事的通用叢集。如果預先設定了期望的簇數,那麼當達到該簇數目時,該演算法停止,而不是繼續到根。該演算法包括以下步驟:
1。按時間順序排序故事,並將其作為語料庫的初始分割槽,每個叢集由單個文件組成。
2。將當前分區劃分為不重疊的和連續大小的桶。
3.通過自下而上的方式將較低級別的叢集組合到較高級別的叢集中,將GAC應用於每個儲存桶,直到儲存桶大小(其中的叢集數量)減少因子α,稱為縮減因子。
4.刪除儲存區邊界(組裝所有GAC叢集),同時保留叢集的時間順序。 使用生成的群集系列作為語料庫的更新分割槽
5.重複步驟2-4,直到在nal分割槽中獲得預定數量的頂級叢集。
6.通過注意元件叢集並從葉節點內部重新生成GAC叢集,定期(在步驟5中每k次迭代一次)重新叢集每個頂級叢集中的故事。
重新聚類步驟是我們對Cutting演算法的補充。 當事件跨越初始時間桶邊界時,此步驟很有用; 在不同的桶中討論事件的故事子集通常在較低級別與有些相似的故事聚集在一起,並且稍後才在叢集樹的更高級別節點中組裝。 隨後的重新聚類減少了初始分組的系統偏差,因此導致比沒有重新聚類的情況下更緊密的聚類。
可調引數
1.桶大小(簇數),限制每次迭代中GAC聚類的範圍;
2.減少因子? 在每次迭代中;
3.要組合的兩個叢集的最小相似度閾值;
4.每個叢集原型中要保留的術語數量;
5.加權計劃一詞;
6.重新聚類之間的迭代次數
引數調整是一個經驗問題。 表2顯示了我們的回顧性檢測實驗中使用的典型引數值。

3.3 單通道聚類
增量聚類演算法非常簡單。 它一次一個地順序處理輸入文件,並逐步增長叢集。 如果該文件與該叢集的原型之間的相似性高於預先選擇的閾值,則新文件被先前生成的最相似的叢集吸收; 否則,該文件被視為新叢集的種子。 通過調整閾值,可以獲得不同粒度級別的聚類。 我們進行了額外的工作以利用輸入資料的動態特性和事件的時間屬性; 以下各節將介紹這些方法。
增量IDF
線上檢測中的任務特定約束是禁止使用有關未來故事的任何資訊,即當前處理點之後的文件。這引發了關於如何處理來自傳入文件的不斷增長的詞彙的問題。 動態更新諸如IDF之類的語料庫級統計資料,這會影響術語加權和向量歸一化,從而影響文件聚類。
解決上述問題的兩種可能方法是:
1.使用類似應用領域中的回顧性語料庫(例如,在TDT故事期間之前的CNN或WSJ新聞報道)獲取xed詞彙表和靜態IDF統計資料,並使用此詞彙表和IDF值進行新近來的術語加權檔案/叢集。 為詞彙表外(OOV)術語分配恆定權重,或使用其他型別的術語權重平滑。
2.每次處理新文件時,逐步更新文件詞彙表並重新計算IDF。 實證分析表明,在處理了足夠數量的\過去“檔案”之後,增量IDF方法在文件檢索中是有效的[1]。
我們選擇將兩種方法結合起來,從回顧性語料庫的IDF統計資料開始,並使用每個傳入文件更新IDF。 增量反向文件頻率(IDF)定義為:

其中p是當前時間,t是一個項,N(p)是直到當前點的累積文件數(包括回顧性語料庫,如果使用的話),n(t; p)是包含的文件數 術語t到當前點。
時間視窗和衰減功能
對於線上檢測,我們使用時間視窗將先前的上下文限制為之前的故事。 對於順序處理中的每個當前文件,計算時間視窗中每個文件的相似性得分。 如果視窗中的所有相似性得分低於預定閾值,則將新的ag分配給文件。 該決定的得分值定義為:

其中x是當前文件,di是視窗中的第i個文件,i = 1;2; m。我們還測試了一個衰減權函式,其中進一步刪除的文件對當前決策的影響逐漸減小。 我們使用修改後的公式來計算文件x的得分:
與均勻加權視窗相比,該方法提供了使用時間接近的更平滑方式。 請注意,為簡單起見,我們定義了文件的時間視窗,而不是叢集或時間段; 但是,很容易將這些定義從文件推廣到如此大的分組。
這些視窗策略在我們的線上檢測實驗中產生了可測量的改進,在召回時僅提供了一個小的犧牲,提高了精度。 i = m線性衰減時間視窗產生的結果始終比均勻加權視窗更好。 同樣,我們研究了INCR聚類中的時間視窗以進行回顧性檢測。 在使用其他引數xed的實驗中,使用2000個文件的視窗(覆蓋約1.5個月的時間)將F1測量中的效能得分從0.64提高到0.70 [7](在評估部分中定義)
檢測閾值
我們使用兩個使用者指定的閾值來控制增量演算法的檢測決策:聚類閾值(tc)和新奇閾值(tn)。 前者決定了所得聚類的粒度,這對於回顧性事件檢測至關重要,後者決定了對新穎性的敏感性,這對於線上檢測至關重要。
讓tc tn和simmax(x)= 1得分(x),我們的線上檢測規則定義為:
如果simmax(x)> tc,則將ag設定為OLD,並將文件x新增到視窗中最相似的簇中;
如果tc simmax(x)> tn,則將ag設定為Old,並將文件x視為新的單例叢集;
如果tn simmax(x),然後將ag設定為New,並將文件x視為新的單例叢集。
使用這兩個閾值可以為不同的任務提供更好的經驗優化。 例如,tc = tn適合於回顧性聚類(即,不需要tn),但是對於線上檢測,我們發現不使用聚類(tc = 1)更好。 表3和表4顯示了我們在INCR的回顧性檢測和線上檢測實驗中通常使用的引數值。

4.評測
使用TDT語料庫中的25個人類標記事件(約佔總故事的7%)來評估檢測效率,儘管檢測系統在整個語料庫上執行,並且(可能)在這25個沒有評估事件之外檢測到更多事件。
4.1 回顧檢測結果
TDT專案中的官方評估要求每個回顧性檢測系統生成語料庫的分割槽,即非重疊的簇,它們一起跨越整個TDT語料庫。 系統可以生成任意數量的叢集,但僅在25個參考事件上進行評估。 生成分割槽後,通過25個列聯表,使用與25個標記事件中的每個事件最匹配的叢集進行評估。
表5說明了一個叢集事件對的2乘2列聯表,其中a;b; c和d是相應案例中的檔案計數。 使用列聯表來確定五種評估措施,包括未命中,誤報(f),召回(r),精度(p)和F1測量(F1):
為了測量全域性效能,使用了兩種平均方法。 通過合併25個事件的列聯表(通過對相應的單元求和),然後使用合併表來產生全域性效能度量來獲得微觀均值。 通過首先產生每事件效能測量值,然後平均相應測量值來獲得巨集觀平均值。
表6顯示了在官方TDT回顧性檢測評估中增量聚類演算法的最佳結果,其中每個檢測系統都需要產生整個語料庫的分割槽。 表7顯示了在允許使用可能重疊的叢集時獲得的改進結果。 CMU結果對應於前面描述的修改的GAC方法。 根據他們在TDT研討會上的報告[10],UMass和Dragon的(可用)結果也包括在內進行比較:
這些結果表明,允許叢集層次結構(CMU:GAC)和叢集重疊(UMass:dupl)比需要語料庫分割槽產生更好的結果。 我們認為,GAC效能更好的主要原因是多級叢集,可以在任何粒度下檢測事件。 GAC的這種代表性功能帶來的成本比INCR分割槽中的叢集數量(5,907)產生更多的叢集(在此特定執行中約為12,000個)。 但是,如果叢集層次結構將用於分散 - 收集型別的導航或查詢驅動的檢索,則此差異可能對終端使用者沒有顯著影響,其中所需的搜尋步驟很多 小於叢集總數。
在分割槽生成演算法的結果中,我們感到驚訝的是最簡單的方法{INCR(CMU)的單通道聚類{以及Dragon的多通道k均值聚類方法。這可能部分是因為 時間接近的事件簡化了聚類問題。
4.2線上檢測結果
線上檢測系統的所需輸出是新的或舊的對於具有該決定的信心分數的傳入文件的決定。 由於在TDT語料庫中只有25個事件(包含1131個故事),並且每個事件只有一個故事作為該事件的第一個報告,因此只有25個故事應該具有整個語料庫的新的ag。 對於統計上可靠的效能估計,這個數字太小。 為了提高可靠性,進行了11遍檢測評估。 每次通過後,每個事件的第一個故事被刪除,檢測和評估再次應用於語料庫。 11次傳球由Nskip = 0標記;1; ::: ;; 10.對於每次通過,構建一個列聯表用於評估,如表8所示。
我們將不使用聚類的更好結果解釋如下:為了通過新穎性測試,故事必須與過去的故事完全不同; 這比一般情況下的新穎性更強
請注意,表9中的分數僅衡量每個系統在特定交易中的表現如何? 召回程度和精確度。 為了衡量持續的貿易 - 在召回和精確度之間,我們提出召回精確曲線(圖3)和決策誤差貿易o?(DET)曲線。 通過在檢測決策的參考分數上移動閾值來獲得這些曲線。 我們使用TDT專案中提供的DET軟體生成DET曲線,並將這些DET曲線中的每個資料點(一對錯誤/誤報警值)轉換為相應的召回和精確值(非插值)以獲得 召回精度曲線。 CMU結果用實線表示,在高精度區域表現出更好的效能。 正如圖3中特別明顯的那樣,CMU,UMass和Dragon方法表現出非常不同的行為,需要進一步詳細調查。
4.3行為分析
為了比較我們的演算法與人類判斷的行為,我們將用於回顧性檢測的系統生成的簇的時間直方圖與人類判斷的相應直方圖進行對比。 圖5-8分別顯示了GAC和INCR兩個事件的成對直方圖。 圖9顯示了所有25個事件的GAC效能。 每個圖的上半部分是事件的人類標記文件的直方圖; 下半部分是同一事件的系統生成的叢集的直方圖。 Y軸上的絕對值是特定日期中事件或群集的故事計數。 如果事件和叢集是完美匹配,那麼它們的直方圖將是完全對稱的,彼此映象。
如圖所示,GAC和INCR具有互補的優勢和劣勢。 除了具有顯著時間範圍的事件之外,GAC顯示了大多數事件的令人驚訝的對稱圖,並且GAC特別適合於識別大型新聞突發。 另一方面,與GAC相比,INCR具有較低的對稱效能,但更好地跟蹤長期事件(O.J. trail中的DNA和Kim Jong Il的死亡)。 觀察到的行為可能部分來自這些演算法中的不同偏差,部分來自特定實驗中的引數設定。

5.結束語
事件檢測,無論是回顧還是線上,都代表了IR的一系列新任務。 我們對這些任務的試點研究結果(由UMass和Dragon的結果加強)表明,如果問題得到很好的定義,並且內容資訊和時間資訊是聯合的,那麼文件聚類等基本技術可以非常有效並正確使用。
對於回顧性檢測,當需要嚴格劃分文件空間時,GAC,INCR和Dragon的kmean聚類演算法表現出相當的效能; 當放寬分割槽要求時,分層GAC方法是最好的。
線上新事件檢測比回顧性檢測更為困難。 儘管需要進一步研究以便更好地理解,但非聚類技術已經證明比聚類方法具有更好的檢測準確性。
儘管CMU,Dragon和UMass獲得了合理的結果,但仍有許多工作要做。 進一步調查的研究問題包括:
(1)我們如何利用多個輸入流(例如,CNN,AP,UPI,……)相互加強,交叉驗證主題叢集?
(2)我們怎樣才能更好地利用專有名稱或鄰近短語的時間模式,這些模式似乎是高度資訊(至少對人類而言)作為事件指標?
我們如何提供回顧性聚類事件和新發現的新事件的資訊空間的全域性檢視?
我們如何讓使用者積極參與基於群集的導航,例如 通過允許zoonin和縮小選項,以及提供不同粒度的摘要,即在語料庫級別,叢集級別,文件級別和子文件級別?
我們如何評估和比較叢集層次結構(或叢集集)在幫助使用者進行無查詢或查詢驅動檢索時的有用性? 例如,我們應該測量使用者檢視相關群集的速度,並將時間用作時間評估標準?
致謝
我們感謝DoD的Charles Wayne和George Doddington在TDT任務定義和評估方面的指導,感謝UMass的James Allan和Dragon的Jon Yamron分享研究中的想法/成果。 TDT研究由國防部贊助。 但是,本文中的任何觀點或結論都是作者的,並不一定反映贊助商的觀點或結論。