1. 程式人生 > >突發事件檢測: kleinberg 狀態機模型

突發事件檢測: kleinberg 狀態機模型

       2節詳細討論了基於文件時間序列構建的狀態機模型,裡面只考慮文件的到達時間。現實中,考慮到實際計算成本,還是會限定最小的時間粒度,比如分鐘,小時等。這樣,每個最小時間粒度下,可能會有多篇文件資訊,也就是說單位時間文件發生頻次。同樣,針對點選日誌資料,經常會有單位時間點選數等。那如何在kleinberg狀態機模型的基礎上進行擴充套件,來模擬這種資料行為?

總體來說,kleinberg狀態機模型框架可以很容易被修正,來支援這種資料行為。重要改動的的部分是cost-function。Cost Function部分分為兩個分佈:狀態轉移代價和當前狀態概率密度。狀態轉移代價這塊可以和2節完全一樣。需要改動概率密度這塊。所以,重點是如何採用什麼樣的分佈來擬合頻次,點選數這樣的資料分佈?本次實驗中主要採用正態分佈(x2分佈應該也可以)來模擬訊息單位時間頻次分佈。

       正態分佈: