1. 程式人生 > >2018-03-24 第六章:挖掘頻繁模式、關聯和相關性:基本概念

2018-03-24 第六章:挖掘頻繁模式、關聯和相關性:基本概念

6.3 模式評估方法

  大部分關聯規則挖掘演算法都使用支援度-置信度框架。儘管最小支援度和置信度閥值有助於排除大量無趣規則的探查,但仍然會產生一些使用者不感興趣的規則。強規則不一定是有趣的,甚至會誤導。

    如:假設有10000個事務中,資料顯示6000個顧客事務包含計算機遊戲,7500個事務包含錄影,而4000個事務同時包含計算機遊戲和錄影,預定義最小支援度30%,最小置信度60%。考慮如下關聯規則:computer games->videos,該關聯規則是強關聯規則,因為支援度為4000/10000=40%,置信度為4000/6000=66%,滿足閥值。因此會得到:買計算機遊戲的顧客還有66%的可能性會購買錄影。然而,實際情況是,在所有的事務中,購買錄影的概率是75%,比66%還高,說明購買計算機遊戲和錄影是負相關的。

   因此,規則A->B有一定的欺騙性。它並不度量A和B之間相關和蘊含的實際強度,因此需要一些相關性度量標準。

6.3.1 從關聯分析到相關分析:

  • 提升度(lift):lift(A,B)=P(AB)/P(A)P(B)  
                                lift=1,表示A與B獨立,沒有相關性;lift<1,表示A與B負相關;lift>1,表示A與B正相關
  • 卡方度量:
  • 還有其他的一些度量方法,自行查閱。