1. 程式人生 > >資料探勘之關聯規則Apriori演算法

資料探勘之關聯規則Apriori演算法

一、Aoriori原始演算法:

頻繁挖掘模式與關聯規則

關聯規則兩個基本的指標(假設有事務A和事務B)

  1、支援度(suport):計算公式如下

    

  2、置信度(confidence):

  

關聯規則的挖掘過程:

  1、設定最小支援度閾值,找出所有的頻繁項集且每個出現的次數要大於等於最小支援度閾值。

  2、由頻繁項集產生強關聯規則:這些規則必須滿足最小支援度和最小置信度。

先驗性質:頻繁項集的所有非空子集也一定是頻繁的

Apriori演算法的兩大步驟:連線步,剪枝步。

  

  舉個例子:資料集具有9條事務資料

  

  先設定最小支援度閾值為2;然後我們逐層找出有效的頻繁項集

  首先掃描整個資料集共有5個獨立的項集分別為[I1, I2, I3, I4, I5],然後對齊進行計數,檢視是否滿足閾值。

  

  在集合L1 中過濾掉無效項集後,由 L1進行組合產生L2,在對L2 中的每個項集進行計數,過濾掉無效項集

  

  有L2進行組合產生L3,再進行計數(此步驟以及後面的步驟(如果有的話))要考慮先驗性質,降低運算消耗

     

  備註:頻繁項集L2 的組合按理說應該是 [[I1,I2,I3], [I1,I2,I5], [I1, I3,I5], [I2, I3, I4], [I2,I3,I5], [I2,I4,I5]],但是根據先驗性質,後面四個項集存在子集不是頻繁項集,也就是說子集計數小於2,具體如下

  

  迭代到L(n-1) 就停止了。

二、提高 Aprioir演算法的效率

    未完待續......