1. 程式人生 > >【資料探勘概念與技術】學習筆記6-挖掘頻繁模式、關聯和相關性:基本概念和方法(編緝中)

【資料探勘概念與技術】學習筆記6-挖掘頻繁模式、關聯和相關性:基本概念和方法(編緝中)

  1. 頻繁模式是頻繁地出現在資料集中的模式(如項集、子序列或子結構)。頻繁模式挖掘給定資料集中反覆出現的聯絡。
  2. “購物籃”例子,想象全域是商店中商品的集合,每種商品有一個布林變數,表示該商品是否出現。則每個購物籃可以用一個布林向量表示。分析布林向量,得到反映商品頻繁關聯或同時購買的購買模式。這些模式可用關聯規則來表示。如computer-->antivirus_software[support=2%;confidence=60%]。規則的支援度和置信度是規則興趣度的兩種度量,分別反映所發現規則的有用性和確定性。如果關聯規則滿足最小支援度閾值和最小置信度閾值,則它是有趣的。
  3. 設A、B是兩個項集(如商品的集合),關聯規則A-->B,支援度
    s是事務中包含A U B(即集合A和B的並或A和B二者)的百分比,概率P(A U B)。置信度c是事務中包含A的事務同時也包含B事務的百分比,P(B | A)。
  4. 同時滿足最小支援度閾值和最小置信度閾值的規則稱為強規則
  5. 項集的出現頻度(簡稱項集的頻度、支援度計數、計數)是包含項集(如2項集{computer,antivirus_software})的事務數。關聯規則中的項集支援度support有時稱為相對支援度,項集的出現頻度稱為絕對支援度
  6. 如果項集I的相對支援度滿足最小支援度閾值(即I的絕對支援度滿足對應的最小支援度計數閾值),則I是頻繁項集
  7. A-->B的置信度容易從A和A U B的支援度計數推出,confidence(A-->B)=P(B | A)=support(A U B)/support(A)=support_count(A U B)/support_count(A)。
  8. 如果知道A、B、A U B的支援度計數,則匯出對應的關聯規則A-->B和B-->A,並檢查它們是否是強規則是直截了當的。因此,挖掘關聯規則的問題可以歸結為挖掘頻繁項集。
  9. 關聯規則的挖掘包含兩頻:1)找出所有的頻繁項集(項集出現的次數至少與預定的最小支援計數min_sup一樣);2)由頻繁項集產生強關聯規則(這些規則必須滿足最小支援度和最小置信度)。第二步的開銷遠低於第一步,因此挖掘關聯規則的總體效能由第一步決定。
  10. 從大型資料集中挖掘頻繁項集,常常產生大量滿足最小支援度閾值的項集,項集的個數太大,無法計算和儲存。為克服這一困難,引入閉頻繁項集和極大頻繁項集的概念。
    • 閉頻繁項集:項集X是資料集D中的閉頻繁項集,如果X是頻繁項集,且X再加任何一項,其支援度計數都會變化(即X是閉的)。
    • 極大頻繁項集:項集X是資料集D中的極大頻繁項集(或極大項集),如果X是頻繁項集,且X再加任何一項,它都不再是頻繁的。
    • 閉頻繁項集的集合包含了頻繁項集的完整資訊。