1. 程式人生 > >資料探勘之關聯分析一(基本概念)

資料探勘之關聯分析一(基本概念)

許多商業企業運營中的大量資料,通常稱為購物籃事務(market basket transaction)。表中每一行對應一個事務,包含一個唯一標識TID。
購物籃資料
利用關聯分析的方法可以發現聯絡如關聯規則或頻繁項集。
關聯分析需要處理的關鍵問題:
1. 從大型事務資料集中發現模式可能在計算上要付出很高的代價。
2. 所發現的某些模式可能是假的,因為它們可能是偶然發生的。

二元表示
沒按過對應一個事務,每列對應一個項,項用二元變量表示

項在事務中出現比不出現更重要,因此項是非對稱的的二元變數。
項集(Itemset):包含0個或多個項的集合,如果包含k個項,則稱為k-項集。
事務的寬度

:事務中出現的項的個數
支援度數(Support count):包含特定項集的事務個數,項集X的支援度數為σ(X)=|ti|Xti,tiT|,其中T為事務集合
關聯規則(association rule):如XY的蘊含表示式,其中X和Y是不相交的項集,XY=。關聯規則的強度可以用支援度(support)置信度(confidence)度量。支援度確定規則可以用於給定資料集的頻繁程度,而置信度確定Y在包含X的事務中出現的頻繁程度。支援度s和置信度c:

s(XY)=σ(XY)N
c(XY)=σ(XY)σ(X)
使用支援度和置信度原因
1. 支援度很低的規則只能偶然出現,支援度通常用來刪除那些無意義的規則。還具有一種期望的性質,可以用於關聯規則的發現。
2. 置信度度量通過規則進行推理具有可靠性。對於給定的規則,置信度越高,Y在包含X的事務中出現的可能性越大。置信度也可以估計Y在給定X的條件下概率。

在解析關聯分析的結果時,應當小心,規則做出去的推論並不必然蘊含因果關係。它只表示規則前件和後件中的項明顯地同時出現。另一方面,因果關係需要關於資料中原因和結果屬性的知識,並且通常涉及長期出現的聯絡。

關聯規則發現:給定事務集合T,關聯規則發現是指找到支援度大於等於閾值minsup並且置信度大於等於minconf的所有規則。
挖掘關聯規則的一種原始方法是計算每個可能規則的支援度和置信度,但是代價很高。因此提高效能的方法是拆分支援度和置信度。因為規則的支援度主要依賴於XY的支援度,因此大多數關聯規則挖掘演算法通常採用的策略是分解為兩步:
1. 頻繁項集產生,其目標是發現滿足具有最小支援度閾值的所有項集,稱為頻繁項集(frequent itemset)。
2. 規則產生,其目標是從上一步得到的頻繁項集中提取高置信度的規則,稱為強規則(strong rule)。
通常頻繁項集的產生所需的計算遠大於規則產生的計算花銷。