1. 程式人生 > >挖掘頻繁模式、關聯和相關性:基本概念和方法

挖掘頻繁模式、關聯和相關性:基本概念和方法

基本概念

頻繁模式:

頻繁模式是頻繁地出現在資料集中的模式(如項集、子序列或子結構)。
例如:頻繁地同時出現在交易資料集中的商品(如香皂和洗衣液)的集合是頻繁項集。

序號 交易號 香皂(a) 洗髮露(b) 洗衣液(c) 牙膏(d) 簡化表示
1 081201 香皂 洗髮露 洗衣夜 a, b, c
2 081202 香皂 洗衣夜 牙膏 a, c, d
3 081203 香皂 洗髮露 a, b,
4 081204 洗髮露 洗衣夜 牙膏 b, c, d
5 081205 香皂 洗髮露 洗衣夜 牙膏 a, b, c, d
6 081206 香皂 洗髮露 洗衣夜 牙膏 a, b, c, d
7 081207 洗髮露 牙膏 b, d
8 081208 香皂 牙膏 a, b, c, d
9 081209 香皂 洗髮露 a, d
10 081210 香皂 洗髮露 牙膏 a, b, d

關聯規則:

關聯規則就是描述資料事務屬性專案之間的關聯。

  • 表示成X=>Y(s%, c%)。
  • 其中s%為支援度,即X和Y同時出現的概率,c%為置信度,即在X出現的情況下,Y也出現的概率。
  • 舉例:上表中可以知道:有6個事務中買香皂就一定買了洗髮露;如第1,3,5,6,9和10條。這個概率為6/10=60%。
    在買香皂的前提下(即有8個,1,2,3,5,6,8,9,10),又買洗髮露的個數為6個,這個概率為6/7=85%。
    那麼寫“買香皂就一定買了洗髮露”的關聯規則表示成:a=>b。此時的支援度為60%,置信度為85%。

支援度:

支援度就是指定的專案組合集,在資料庫中包含這個專案集的事務數佔總數的比例。

  • 專案集就是專案屬性的任意組合,如表所示,這裡有4個專案屬性a,b,c,d,則可能有4^2即16種情況,全部沒有除外就只有15種情況。
  • 假設專案集為{a},也就是買香皂的交易有:1,2,3,5,6,8,9,10,也就是有8個交易中有香皂,所以專案集為{a}的支援數為8,支援度為80%。
    假設專案集為{a,b},也就是同時買香皂和洗髮露的交易有:1,3,5,6,9,10也就是有6個交易中同時有香皂和洗髮露,所以專案集為{a,b}的支援數為6,支援度為60%。

置信度:

置信度是在X出現的情況下,Y也出現的概率。計算公式為:X和Y的支援數/X的支援數。

  • 規則:{a,b}=>{c}(30%, 50%), {a,b,c}的支援數為3個,{a,b}的支援數為6個,規則置信度為50%。

頻繁專案集:

頻繁專案集就是指專案集的支援度大於人們指定的支援度。

  • 舉例:專案集為{a,b}的支援數為6,支援度為60%,如果人們指定的支援度為60%,則它為頻繁專案集。如果指定的支援度為61%,它為非頻繁專案集.

本人初學,敬請指教。