1. 程式人生 > >關聯規則研究現狀

關聯規則研究現狀

     自從R.Agrawal等人於1993年提出關聯規則的挖掘問題後,眾多的研究者對該問題進行了大量的研究,到目前為止主要的研究方向包括:多迴圈方式挖掘演算法(層次挖掘演算法)、增量式更新演算法、分佈、並行式挖掘演算法、多層關聯規則的挖掘演算法、多值關聯規則的挖掘演算法、基於概念格的關聯規則挖掘演算法等。

    多迴圈方式挖掘演算法的核心思想是“層次演算法(level-wise algorithms)”,顧名思義是演算法將整個挖掘過程分成若干層次,待各層次挖掘完成,再組合成最後的結果。這類演算法包括Agrawal等人提出的Apriori、AIS、AprioriTid和AprioriHybrid;Park等人提出的DHP;Savadere等人提出的Partition;Toivonen提出的抽樣演算法Sampling;FP-growth;DIC等。其中最有效和最有影響的演算法包括Apriori和FP-growth演算法。

    增量式更新挖掘演算法包含兩種情況:1)資料庫中記錄發生變化(增加或刪除)時的更新; D.W.Cheng等給出層次演算法所對應的更新演算法FUP,在此基礎上,提出了FUP2演算法,從而不僅可以處理交易的增加,而且還可以處理交易的刪除或修改。2) 在關聯規則的度量(支援度、置信度、興趣度等)發生改變時的更新。馮玉才等對此種情況進行了研究,提出了相應的演算法IUA,PIUA。Feldman提出了一種稱為Border演算法的關聯規則更新技術。在使用者指定的最低支援度為絕對數且不變的條件下,該演算法只需考察所有真子集均為頻繁專案集,而本身卻不是頻繁的專案集(這些專案集稱為Border)。但是該演算法仍然需要儲存相關的頻繁專案集結果,以減少關聯規則的更新代價。

    並行/分散式關聯規則挖掘演算法是在資料探勘要處理的資料通常非常巨大,且資料跨地域分佈這個背景下產生的。目前,大多數的文獻所提出的挖掘關聯規則的分散式演算法都是基於分散式處理器(每個處理器自己獨佔記憶體和磁碟空間,處理器之間通過網路等內部連線機制進行通訊)的並行模式。主要代表演算法有CD、PDM、FPM、DD、IDD和HPA等。這些演算法可看作Apriori演算法的並行版。

    多層關聯規則挖掘演算法是根據概念層的每個抽象層上定義最小支援度閾值的特性,使用多種策略,挖掘多層關聯規則,不同於前面基於支援度-可信度框架的方法。目前,已經提出很多挖掘多層關聯規則的演算法,Han等提出的ML_T2L1及其變種ML_T1LA, ML_TML1, ML_T2LA和R. Srikant等提出的Cumulate、stratify及其變種Etimate、EstMerge等。

    多值關聯規則挖掘演算法是區別於布林型關聯規則的。現在提出的多值屬性關聯規則挖掘演算法大多是將多值屬性關聯規則挖掘問題轉化為布林型關聯規則挖掘問題,即將多值屬性的值劃分為多個區間,每個區間作為一個屬性,將類別屬性的每一個類別當作一屬性。G. Michael等人提出多值屬性關聯規則的形式為:x=qxÞy=qy, 其前項和後項都對應單一數值,而不是一個區間;但當需要挖掘所有屬性之間的關聯規則時,會面臨規則的組合爆炸問題。

    基於概念格的關聯規則的挖掘演算法是概念格在資料探勘中應用最廣、取得成果最豐碩的領域,國內外的學者在基於概念格的關聯規則挖掘方面都進行深入的研究。Godin等提出概念格模型提取蘊涵規則的方法,但是蘊涵規則是確定性規則,該方法不具備描述近似規則的能力;R.Missaoui等提出了在概念格中提取近似規則的演算法;胡可雲等在Godin遞增構造概念格演算法的基礎上,提出一種更有效的購物籃分析的關聯規則演算法,實現了對關聯規則挖掘的視覺化;Petko Valtchev等提出利用概念格挖掘頻繁閉專案集的演算法;王德興等提出利用剪枝概念格快速發現頻繁閉專案集的演算法。