1. 程式人生 > >Single-Pass聚類演算法 及其在新事件探測中的應用

Single-Pass聚類演算法 及其在新事件探測中的應用

Single-pass演算法的思想是

按一定順序依次讀取資料,每次讀取的新資料都和已經讀取並聚類的資料進行比較,如果按照一定規則找到相應的近似組別,則將這個新資料歸入這個類中,如果沒有,則將這個新資料視為一個新類。就這樣反覆執行,直到所有的資料都讀完。整個過程只對資料進行一次讀取(single)。

Single-Pass演算法又稱單通道法或單遍法,是流式資料聚類的經典方法。對於依次到達的資料流,該方法按輸入順序每次處理一個數據,依據當前資料與已有類的匹配度大小,將該資料判為已有類或者建立一個新的資料類,實現流式資料的增量和動態聚類。

Single-Pass演算法是一種增量演算法,適合對流資料進行挖掘,而且演算法的時間效率高;不足之處主要表現在該方法具有輸入次序依賴特性,即對於同一聚類物件按不同的次序輸入,會出現不同的聚類結果。


Single-Pass聚類演算法在新事件探測中的應用

將要檢測的文件,可以視為按時間排序的文件流,該演算法將按照這個流順序順次地處理每一個新的文件。

利用特徵選取技術,對文件內容生成相對應的查詢表示。

對新文件進行計算初始閾值。

將這篇新文件與記憶體中已存在的查詢表示做比較。

如果這篇新文件較以前的查詢表示並未超過其閾值,則將這個文件標記為其包含新事件。

如果這篇新文件觸發了某個已有的查詢,則將這個文件標記為不包含新事件。

讀取下一篇文件,並繼續以上過程。

這裡將每篇文件的內容表示為一個查詢(query)。如果一篇文件觸發(trigger)了已存在的查詢A,則認為這篇文件討論了

A查詢中的事件,否則,將這篇文件視為包含新的事件。

 --------------------------------------------------------------------------------------------------------------------


參考文獻:

Ron Papka,James Allan.On-Line New Event Detection using Single-Pass Clustering.