挖掘頻繁模式、關聯和相關性:基本概念和方法
阿新 • • 發佈:2018-12-30
基本概念
頻繁模式:
頻繁模式是頻繁地出現在資料集中的模式(如項集、子序列或子結構)。
例如:頻繁地同時出現在交易資料集中的商品(如香皂和洗衣液)的集合是頻繁項集。
序號 | 交易號 | 香皂(a) | 洗髮露(b) | 洗衣液(c) | 牙膏(d) | 簡化表示 |
---|---|---|---|---|---|---|
1 | 081201 | 香皂 | 洗髮露 | 洗衣夜 | a, b, c | |
2 | 081202 | 香皂 | 洗衣夜 | 牙膏 | a, c, d | |
3 | 081203 | 香皂 | 洗髮露 | a, b, | ||
4 | 081204 | 洗髮露 | 洗衣夜 | 牙膏 | b, c, d | |
5 | 081205 | 香皂 | 洗髮露 | 洗衣夜 | 牙膏 | a, b, c, d |
6 | 081206 | 香皂 | 洗髮露 | 洗衣夜 | 牙膏 | a, b, c, d |
7 | 081207 | 洗髮露 | 牙膏 | b, d | ||
8 | 081208 | 香皂 | 牙膏 | a, b, c, d | ||
9 | 081209 | 香皂 | 洗髮露 | a, d | ||
10 | 081210 | 香皂 | 洗髮露 | 牙膏 | a, b, d |
關聯規則:
關聯規則就是描述資料事務屬性專案之間的關聯。
- 表示成X=>Y(s%, c%)。
- 其中s%為支援度,即X和Y同時出現的概率,c%為置信度,即在X出現的情況下,Y也出現的概率。
- 舉例:上表中可以知道:有6個事務中買香皂就一定買了洗髮露;如第1,3,5,6,9和10條。這個概率為6/10=60%。
在買香皂的前提下(即有8個,1,2,3,5,6,8,9,10),又買洗髮露的個數為6個,這個概率為6/7=85%。
那麼寫“買香皂就一定買了洗髮露”的關聯規則表示成:a=>b。此時的支援度為60%,置信度為85%。
支援度:
支援度就是指定的專案組合集,在資料庫中包含這個專案集的事務數佔總數的比例。
- 專案集就是專案屬性的任意組合,如表所示,這裡有4個專案屬性a,b,c,d,則可能有4^2即16種情況,全部沒有除外就只有15種情況。
- 假設專案集為{a},也就是買香皂的交易有:1,2,3,5,6,8,9,10,也就是有8個交易中有香皂,所以專案集為{a}的支援數為8,支援度為80%。
假設專案集為{a,b},也就是同時買香皂和洗髮露的交易有:1,3,5,6,9,10也就是有6個交易中同時有香皂和洗髮露,所以專案集為{a,b}的支援數為6,支援度為60%。
置信度:
置信度是在X出現的情況下,Y也出現的概率。計算公式為:X和Y的支援數/X的支援數。
- 規則:{a,b}=>{c}(30%, 50%), {a,b,c}的支援數為3個,{a,b}的支援數為6個,規則置信度為50%。
頻繁專案集:
頻繁專案集就是指專案集的支援度大於人們指定的支援度。
- 舉例:專案集為{a,b}的支援數為6,支援度為60%,如果人們指定的支援度為60%,則它為頻繁專案集。如果指定的支援度為61%,它為非頻繁專案集.
本人初學,敬請指教。