挖掘頻繁模、關聯和相關性（2）

阿新 • • 發佈：2019-01-11

頻繁項集挖掘方法

Apriori演算法

先驗性質：頻繁項集的所有非空子集也一定是頻繁的。

如果項集I不滿足最小支援度閾值min_sup，則I不是頻繁的，即P(I)<min_sup。如果把項A新增到項集 I 中，則結果項集(I⋃A) 不可能比 I 更頻繁出現。因此，I⋃A 也不是頻繁的，既P(I⋃A)<min_sup
該性質屬於一類特殊的性質，成為反單調性(antimonotone) 意指如果一個集合不能通過測試，則他的所有超集也不能通過相同的測試。

Apriori演算法例項：使用Apriori演算法發現下圖中的頻繁項集。

求解過程如下圖所示：
這裡寫圖片描述

Apriori演算法虛擬碼：
這裡寫圖片描述

Method：
（1）找出頻繁1 項集的集合 L1。
（2）在第2~10步，對於k≥2，Lk−1 用於產生候選Ck，以便找出Lk。
（3）apriori_gen 過程產生候選，然後使用先驗性質刪除那些具有非頻繁自己的候選。
（4）掃描資料庫。
（5）用於每個事務，使用subset 函式找出該事務中是候選的所有子集。
（6）（7）對每個這樣的候選累加計數。
（9）所有滿足最小支援度的候選形成頻繁項集的集合L。

apriori_gen 做兩個動作：連線和剪枝。
has_infrequent_s

ubset 使用先驗性質刪除具有非頻繁自己的候選。

Frequent-Pattern Growth,FP-growth

FPTree演算法：在不生成候選項的情況下，完成Apriori演算法的功能。

FPTree演算法的基本資料結構，包含一個一棵FP樹和一個項頭表，每個項通過一個結點鏈指向它在樹中出現的位置。基本結構如下所示。需要注意的是項頭表需要按照支援度遞減排序，在FPTree中高支援度的節點只能是低支援度節點的祖先節點。

FPTree

另外還要交代一下FPTree演算法中幾個基本的概念：

FP-Tree：就是上面的那棵樹，是把事務資料表中的各個事務資料項按照支援度排序後，把每個事務中的資料項按降序依次插入到一棵以NULL為根結點的樹中，同時在每個結點處記錄該結點出現的支援度。

條件模式基：包含FP-Tree中與字尾模式一起出現的字首路徑的集合。也就是同一個頻繁項在PF樹中的所有節點的祖先路徑的集合。比如I3在FP樹中一共出現了3次，其祖先路徑分別是{I2，I1：2(頻度為2)}，{I2：2}和{I1：2}。這3個祖先路徑的集合就是頻繁項I3的條件模式基。

條件樹：將條件模式基按照FP-Tree的構造原則形成的一個新的FP-Tree。比如上圖中I3的條件樹就是：

sub FP-tree

1、構造項頭表：掃描資料庫一遍，得到頻繁項的集合F和每個頻繁項的支援度。把F按支援度遞降排序，記為L。

2、構造原始FPTree：把資料庫中每個事物的頻繁項按照L中的順序進行重排。並按照重排之後的順序把每個事物的每個頻繁項插入以null為根的FPTree中。如果插入時頻繁項節點已經存在了，則把該頻繁項節點支援度加1；如果該節點不存在，則建立支援度為1的節點，並把該節點連結到項頭表中。

3、呼叫FP-growth(Tree，null)開始進行挖掘。虛擬碼如下：

虛擬碼

FP-growth是整個演算法的核心，再多囉嗦幾句。

FP-growth函式的輸入：tree是指原始的FPTree或者是某個模式的條件FPTree，a是指模式的字尾（在第一次呼叫時a=NULL，在之後的遞迴呼叫中a是模式字尾）

FP-growth函式的輸出：在遞迴呼叫過程中輸出所有的模式及其支援度（比如{I1,I2,I3}的支援度為2）。每一次呼叫FP_growth輸出結果的模式中一定包含FP_growth函式輸入的模式字尾。

我們來模擬一下FP-growth的執行過程。

1、在FP-growth遞迴呼叫的第一層，模式前後a=NULL，得到的其實就是頻繁1-項集。

2、對每一個頻繁1-項，進行遞迴呼叫FP-growth()獲得多元頻繁項集。

下面舉兩個例子說明FP-growth的執行過程。

1、I5的條件模式基是(I2 I1:1), (I2 I1 I3:1)，I5構造得到的條件FP-樹如下。然後遞迴呼叫FP-growth，模式字尾為I5。這個條件FP-樹是單路徑的，在FP_growth中直接列舉{I2:2，I1:2，I3:1}的所有組合，之後和模式字尾I5取並集得到支援度>2的所有模式：{ I2 I5:2, I1 I5:2, I2 I1 I5:2}。

這裡寫圖片描述

2、I5的情況是比較簡單的，因為I5對應的條件FP-樹是單路徑的，我們再來看一下稍微複雜一點的情況I3。I3的條件模式基是(I2 I1:2), (I2:2), (I1:2)，生成的條件FP-樹如左下圖，然後遞迴呼叫FP-growth，模式字首為I3。I3的條件FP-樹仍然是一個多路徑樹，首先把模式字尾I3和條件FP-樹中的項頭表中的每一項取並集，得到一組模式{I2 I3:4, I1 I3:4}，但是這一組模式不是字尾為I3的所有模式。還需要遞迴呼叫FP-growth，模式字尾為{I1，I3}，{I1，I3}的條件模式基為{I2：2}，其生成的條件FP-樹如右下圖所示。這是一個單路徑的條件FP-樹，在FP_growth中把I2和模式字尾{I1，I3}取並得到模式{I1 I2 I3：2}。理論上還應該計算一下模式字尾為{I2，I3}的模式集，但是{I2，I3}的條件模式基為空，遞迴呼叫結束。最終模式字尾I3的支援度>2的所有模式為：{ I2 I3:4, I1 I3:4, I1 I2 I3:2}

這裡寫圖片描述

根據FP-growth演算法，最終得到的支援度>2頻繁模式如下：

這裡寫圖片描述

FP-growth演算法比Apriori演算法快一個數量級，在空間複雜度方面也比Apriori也有數量級級別的優化。但是對於海量資料，FP-growth的時空複雜度仍然很高，可以採用的改進方法包括資料庫劃分，資料取樣等等。

等價類變換（Equivalence CLAss Transformation，Eclat）演算法

水平資料格式（horizontal data format）：{TID:itemset}
垂直資料格式（vertical data format）:{item:TID_set}

Apriori演算法的例子，使用垂直資料格式掃描結果如下。

設定最小支援度為2那麼所有項集都是頻繁一項集。

5項集要進行10次交運算(C25) ，其中，{I1,I4} 和 {I3,I5} 都只包含一個事務，因此他們都不屬於頻繁2項集。
二項集

根據先驗性質，一個給定的3項集是候選3項集，僅當它的每一個2項集子集都是頻繁的。
三項集

通過探查垂直資料格式挖掘頻繁項集的過程，首先，通過掃描一次資料集，把水平格式的資料轉換成垂直格式。相機的支援度技術簡單地等於項集TID集的長度。從 k=1 開始可以根據先驗性質，使用頻繁 k 項集來構造候選 (k+1) 項集。通過取頻繁 k 項集的TID集的交，計算對應的 (k+1) 相機的TID集。重複該過程，每次 k 增加1，知道不能在找到頻繁項集或候選項集。

演算法優點：除了在產生候選 (k+1) 項集時利用先驗性質外，這種方法的另一有點是不虛言掃描資料庫來確定 (k+1) 項集的支援度 (k≥1) 。這是因為每個 k 項集的TID集懈怠了計算支援度的完整資訊。然後，TID集可能很長，需要大量記憶體空間，長集合和的交運算還需要大量的計算時間。

挖掘頻繁模、關聯和相關性（2）

頻繁項集挖掘方法

Apriori演算法

Frequent-Pattern Growth,FP-growth

等價類變換（Equivalence CLAss Transformation，Eclat）演算法

挖掘頻繁模、關聯和相關性（2）

挖掘頻繁模、關聯和相關性（3）

【資料探勘概念與技術】學習筆記6-挖掘頻繁模式、關聯和相關性：基本概念和方法（編緝中）

挖掘頻繁模式、關聯和相關性：基本概念和方法

【資料探勘筆記六】挖掘頻繁模式、關聯和相關性：基本概念和方法

2018-03-24 第六章：挖掘頻繁模式、關聯和相關性：基本概念

挖掘頻繁模式、關聯和相關性:基本概念和方法

資料探勘--挖掘頻繁模式、關聯和相關(1)

挖掘頻繁模式、相關和關聯（1）

Oracle學習筆記—Db_name、Db_domain、Global_name、Service_name、Instance_name和Oracle_SID（轉載）

（轉載）【項目管理和構建】——Maven下載、安裝和配置（一）

Java並發編程：CountDownLatch、CyclicBarrier和Semaphore （總結）

關於VO、DTO、DO、PO的概念、區別和用處（轉）

運算子、表示式和語句（練習）

筆記 -《計算機網路：自頂向下方法》第5章鏈路層：鏈路、接入網和區域網（0）

整合學習之boosting，Adaboost、GBDT 和 xgboost（二）

整合學習之boosting，Adaboost、GBDT 和 xgboost（一）

整合學習之boosting，Adaboost、GBDT 和 xgboost（三）

Unity 模型在移動端進行移動、旋轉和放大（縮小）

C++ XML的建立、讀取和修改（一）

挖掘頻繁模、關聯和相關性（2）

頻繁項集挖掘方法

Apriori演算法

Frequent-Pattern Growth,FP-growth

等價類變換（Equivalence CLAss Transformation，Eclat）演算法

相關推薦