資料探勘之關聯規則Apriori演算法
阿新 • • 發佈:2018-11-26
一、Aoriori原始演算法:
頻繁挖掘模式與關聯規則
關聯規則兩個基本的指標(假設有事務A和事務B)
1、支援度(suport):計算公式如下
2、置信度(confidence):
關聯規則的挖掘過程:
1、設定最小支援度閾值,找出所有的頻繁項集且每個出現的次數要大於等於最小支援度閾值。
2、由頻繁項集產生強關聯規則:這些規則必須滿足最小支援度和最小置信度。
先驗性質:頻繁項集的所有非空子集也一定是頻繁的
Apriori演算法的兩大步驟:連線步,剪枝步。
舉個例子:資料集具有9條事務資料
先設定最小支援度閾值為2;然後我們逐層找出有效的頻繁項集
首先掃描整個資料集共有5個獨立的項集分別為[I1, I2, I3, I4, I5],然後對齊進行計數,檢視是否滿足閾值。
在集合L1 中過濾掉無效項集後,由 L1進行組合產生L2,在對L2 中的每個項集進行計數,過濾掉無效項集
有L2進行組合產生L3,再進行計數(此步驟以及後面的步驟(如果有的話))要考慮先驗性質,降低運算消耗
備註:頻繁項集L2 的組合按理說應該是 [[I1,I2,I3], [I1,I2,I5], [I1, I3,I5], [I2, I3, I4], [I2,I3,I5], [I2,I4,I5]],但是根據先驗性質,後面四個項集存在子集不是頻繁項集,也就是說子集計數小於2,具體如下
迭代到L(n-1) 就停止了。
二、提高 Aprioir演算法的效率
未完待續......