挖掘頻繁模、關聯和相關性(2)
頻繁項集挖掘方法
Apriori演算法
- 先驗性質:頻繁項集的所有非空子集也一定是頻繁的。
如果項集
I 不滿足最小支援度閾值min_sup ,則I 不是頻繁的,即P(I)<min_sup 。如果把項A新增到項集I 中,則結果項集(I⋃A) 不可能比I 更頻繁出現。因此,I⋃A 也不是頻繁的,既P(I⋃A)<min_sup
該性質屬於一類特殊的性質,成為反單調性(antimonotone) 意指如果一個集合不能通過測試,則他的所有超集也不能通過相同的測試。
Apriori演算法例項:使用Apriori演算法發現下圖中的頻繁項集。
求解過程如下圖所示:
Apriori演算法虛擬碼:
Method:
(1) 找出頻繁1 項集的集合L1 。
(2)在第2~10步,對於k≥2 ,Lk−1 用於產生候選Ck ,以便找出Lk 。
(3)apriori_gen 過程產生候選,然後使用先驗性質刪除那些具有非頻繁自己的候選。
(4)掃描資料庫。
(5)用於每個事務,使用subset 函式找出該事務中是候選的所有子集。
(6)(7)對每個這樣的候選累加計數。
(9)所有滿足最小支援度的候選形成頻繁項集的集合L 。
apriori_gen 做兩個動作:連線和剪枝。
has_infrequent_s 使用先驗性質刪除具有非頻繁自己的候選。ubset
Frequent-Pattern Growth,FP-growth
FPTree演算法:在不生成候選項的情況下,完成Apriori演算法的功能。
FPTree演算法的基本資料結構,包含一個一棵FP樹和一個項頭表,每個項通過一個結點鏈指向它在樹中出現的位置。基本結構如下所示。需要注意的是項頭表需要按照支援度遞減排序,在FPTree中高支援度的節點只能是低支援度節點的祖先節點。
另外還要交代一下FPTree演算法中幾個基本的概念:
FP-Tree:就是上面的那棵樹,是把事務資料表中的各個事務資料項按照支援度排序後,把每個事務中的資料項按降序依次插入到一棵以NULL為根結點的樹中,同時在每個結點處記錄該結點出現的支援度。
條件模式基:包含FP-Tree中與字尾模式一起出現的字首路徑的集合。也就是同一個頻繁項在PF樹中的所有節點的祖先路徑的集合。比如I3在FP樹中一共出現了3次,其祖先路徑分別是{I2,I1:2(頻度為2)},{I2:2}和{I1:2}。這3個祖先路徑的集合就是頻繁項I3的條件模式基。
條件樹:將條件模式基按照FP-Tree的構造原則形成的一個新的FP-Tree。比如上圖中I3的條件樹就是:
1、 構造項頭表:掃描資料庫一遍,得到頻繁項的集合F和每個頻繁項的支援度。把F按支援度遞降排序,記為L。
2、 構造原始FPTree:把資料庫中每個事物的頻繁項按照L中的順序進行重排。並按照重排之後的順序把每個事物的每個頻繁項插入以null為根的FPTree中。如果插入時頻繁項節點已經存在了,則把該頻繁項節點支援度加1;如果該節點不存在,則建立支援度為1的節點,並把該節點連結到項頭表中。
3、 呼叫FP-growth(Tree,null)開始進行挖掘。虛擬碼如下:
FP-growth是整個演算法的核心,再多囉嗦幾句。
FP-growth函式的輸入:tree是指原始的FPTree或者是某個模式的條件FPTree,a是指模式的字尾(在第一次呼叫時a=NULL,在之後的遞迴呼叫中a是模式字尾)
FP-growth函式的輸出:在遞迴呼叫過程中輸出所有的模式及其支援度(比如{I1,I2,I3}的支援度為2)。每一次呼叫FP_growth輸出結果的模式中一定包含FP_growth函式輸入的模式字尾。
我們來模擬一下FP-growth的執行過程。
1、 在FP-growth遞迴呼叫的第一層,模式前後a=NULL,得到的其實就是頻繁1-項集。
2、 對每一個頻繁1-項,進行遞迴呼叫FP-growth()獲得多元頻繁項集。
下面舉兩個例子說明FP-growth的執行過程。
1、I5的條件模式基是(I2 I1:1), (I2 I1 I3:1),I5構造得到的條件FP-樹如下。然後遞迴呼叫FP-growth,模式字尾為I5。這個條件FP-樹是單路徑的,在FP_growth中直接列舉{I2:2,I1:2,I3:1}的所有組合,之後和模式字尾I5取並集得到支援度>2的所有模式:{ I2 I5:2, I1 I5:2, I2 I1 I5:2}。
2、I5的情況是比較簡單的,因為I5對應的條件FP-樹是單路徑的,我們再來看一下稍微複雜一點的情況I3。I3的條件模式基是(I2 I1:2), (I2:2), (I1:2),生成的條件FP-樹如左下圖,然後遞迴呼叫FP-growth,模式字首為I3。I3的條件FP-樹仍然是一個多路徑樹,首先把模式字尾I3和條件FP-樹中的項頭表中的每一項取並集,得到一組模式{I2 I3:4, I1 I3:4},但是這一組模式不是字尾為I3的所有模式。還需要遞迴呼叫FP-growth,模式字尾為{I1,I3},{I1,I3}的條件模式基為{I2:2},其生成的條件FP-樹如右下圖所示。這是一個單路徑的條件FP-樹,在FP_growth中把I2和模式字尾{I1,I3}取並得到模式{I1 I2 I3:2}。理論上還應該計算一下模式字尾為{I2,I3}的模式集,但是{I2,I3}的條件模式基為空,遞迴呼叫結束。最終模式字尾I3的支援度>2的所有模式為:{ I2 I3:4, I1 I3:4, I1 I2 I3:2}
根據FP-growth演算法,最終得到的支援度>2頻繁模式如下:
FP-growth演算法比Apriori演算法快一個數量級,在空間複雜度方面也比Apriori也有數量級級別的優化。但是對於海量資料,FP-growth的時空複雜度仍然很高,可以採用的改進方法包括資料庫劃分,資料取樣等等。
等價類變換(Equivalence CLAss Transformation,Eclat)演算法
- 水平資料格式(horizontal data format):
{TID:itemset} - 垂直資料格式(vertical data format):
{item:TID_set}
Apriori演算法的例子,使用垂直資料格式掃描結果如下。
設定最小支援度為2那麼所有項集都是頻繁一項集。
5項集要進行10次交運算(
根據先驗性質,一個給定的3項集是候選3項集,僅當它的每一個2項集子集都是頻繁的。
通過探查垂直資料格式挖掘頻繁項集的過程,首先,通過掃描一次資料集,把水平格式的資料轉換成垂直格式。相機的支援度技術簡單地等於項集TID集的長度。從
演算法優點:除了在產生候選