1. 程式人生 > >【資料探勘學習筆記】11.頻繁模式挖掘進階與關聯規則

【資料探勘學習筆記】11.頻繁模式挖掘進階與關聯規則

一、關聯規則

關聯規則步驟:

– 1、找個這個“同一項集”,相同的項集對應的規則有相同的支援度,找到支援度≥minsup的項集
– 2、計算項集中所有規則的置信度,找到置信度≥minconf的規則
由頻繁項集生成關聯規則


生成關聯規則
– 給定頻繁項集L,找出L的所有非空子集f,滿足f →L–f 的置信度不小於最小置信度閾值
– 如果{A,B,C,D}是頻繁項集,則候選的規則有:
    ABC →D, ABD →C, ACD →B, BCD →A, 
    A →BCD,B →ACD,C →ABD, D →ABC
    AB →CD,AC →BD, AD →BC, BC →AD, 
    BD →AC, CD →AB, 
– 令|L| = k,則有2k–2 個候選的關聯規則(不考慮L →∅and ∅→L)

基於Apriori演算法的關聯規則生成


基於Apriori演算法的關聯規則生成
– 通過合併具有共同字首結論的關聯規則生成候選規則
– 合併(CD=>AB,BD=>AC)將生成D => ABC
– 裁減D=>ABC如果其子集AD=>BC置信度小於最小閾值


二、FP-TREE

FP-TREE方法

– 分治策略
– 不產生候選集
– 頻繁過濾機制
– 計數機制
– 生長機制

FP-TREE演算法步驟

– 掃描一次資料庫,計算各項的頻繁度
– 將各項按照頻繁度進行降序排列,生成頻繁項頭表
– 掃描資料庫,建立FP-TREE

FP-TREE建立方法

1. 建立樹的根節點,用null標記;
2. 將每個事務中的項按遞減支援度計數排列,並對每個事務建立一個分枝;
    • 比如為第一個事務{f, c, a, m, p}構建一個分枝
3. 當為一個事務考慮增加分枝時,沿共同字首上的每個節點的計數加1,為跟隨字首後的項建立節點並連線
    • 比如將第二個事務{f, c, a, b, m}加到樹上時,將為f,c,a各增計數1,然後為{b, m}建立分枝
4. 建立一個項頭表,以方便遍歷,每個項通過一個節點鏈指向它在樹中的出現。

例子


FP-TREE優點

– 完整性
    • 不會打破任何事務資料中的長模式
    • 為頻繁模式的挖掘保留了完整的資訊
– 緊湊性
    • 減少了不相關的資訊——非頻繁的項被刪除
    • 按頻率遞減排列——使得更頻繁的項更容易在樹結構中被共享
    • 資料量比原資料庫要小
FP樹挖掘——從FP樹到條件模式基
– 從項頭表開始挖掘,由頻率低的節點開始
– 沿循每個(頻繁)項的連結來遍歷FP樹
– 通過積累該項的字首路徑來形成一個條件模式基
FP樹挖掘——構建條件FP樹
– 對每個條件模式基
    • 為基中的每一項累積計數
    • 為模式基中的頻繁項構建FP樹

三、多層關聯規則

概念層次


多層關聯規則

– 在適當的等級挖掘出來的資料項間的關聯規則可能是非常有用的
– 通常,事務資料庫中的資料也是根據維和概念分層來進行儲存的
    • 這為從事務資料庫中挖掘不同層次的關聯規則提供了可能。
– 在多個抽象層挖掘關聯規則,並在不同的抽象層進行轉化,是資料探勘系統應該提供的能力

• 單維關聯規則:
    – buys(X, “milk”) = buys(X, “bread”)
• 多維關聯規則:涉及兩個或多個維或謂詞的關聯規則
    – 維間關聯規則:不包含重複的謂詞
        • age(X,”19-25”) ∧occupation(X,“student”) => buys(X,“coke”)
    – 混合維關聯規則:包含某些謂詞的多次出現
        • age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)
• 在多維關聯規則挖掘中,我們搜尋的不是頻繁項集,而是頻繁謂詞集。k-謂詞集是包含k個合取謂詞的集 合。
    – 例如:{age, occupation, buys}是一個3-謂詞集

挖掘多維關聯規則

– 資料屬性可以分為分類屬性和量化屬性
    • 分類屬性
        – 具有有限個不同值,值之間無序
    • 量化屬性
        – 數值型別的值,並且值之間有一個隱含的序
– 挖掘多維關聯規則的技術可以根據量化屬性的處理分為兩種種基本方法:
    • 1. 量化屬性的靜態離散化
        – 使用預定義的概念分層對量化屬性進行靜態地離散化
    • 2. 量化關聯規則
        – 根據資料的分佈,將量化屬性離散化到“箱”

四、模式評估

關聯規則演算法能產生大量的規則
– 其中很多是無意義或是冗餘的
– 冗餘

– 例如:{A,B,C} →{D} 和{A,B} →{D}有同樣的支援度和置信度

• 客觀度量
– 兩個流行的度量指標
    • 支援度

    • 置信度

• 主觀度量
– 最終,只有使用者才能確定一個規則是否有趣的,而且這種判斷是主觀的,因不同的使用者而異;通常認為一個規則(模式)是有趣的,如果:
    • 它是出人意料的
    • 可行動的(使用者可以使用該規則做某些事情)

興趣度(Interestingness)

– 反映模式重要程度,用於裁減模式或對模式排序
– 支援度和置信度是用到的兩個度量
計算興趣度
– 給定規則X →Y,計算規則興趣度的資訊可完全由列聯表給出(contingency table)


誤導性規則


由關聯分析到相關分析


興趣度(Interest)

– Interest(A,B)=P(AB)/(P(A)*P(B))

辛普森悖論