關聯規則挖掘

基本概念（續）

定義一：設I={i1,i2,…,im}，是m個不同的專案的集合，每個ik稱為一個專案。專案的集合I稱為項集。其元素的個數稱為項集的長度，長度為k的項集稱為k-項集。引例中每個商品就是一個專案，項集為I={bread,beer,cake,cream,milk,tea}，I的長度為6。

定義二：每筆交易T是項集I的一個子集。對應每一個交易有一個唯一標識交易號，記作TID。交易全體構成了交易資料庫D，|D|等於D中交易的個數。引例中包含10筆交易，因此|D|=10。

定義三：對於項集X，設定count(X⊆T)為交易集D中包含X的交易的數量，則項集X的支援度為：

support(X)=count(X⊆T)|D|

引例中X={bread,milk}出現在T1，T2，T5，T9和T10中，所以支援度為0.5。

定義四：最小支援度是項集的最小支援閥值，記為SUPmin，代表了使用者關心的關聯規則的最低重要性。支援度不小於SUPmin的項集稱為頻繁集，長度為k的頻繁集稱為k-頻繁集。如果設定SUPmin為0.3，引例中{bread,milk}的支援度是0.5，所以是2-頻繁集。

定義五：關聯規則是一個蘊含式：

R：X⇒Y

其中X⊂I，Y⊂I，並且X∩Y=∅。表示項集X在某一交易中出現，則導致Y以某一概率也會出現。使用者關心的關聯規則，可以用兩個標準來衡量：支援度和可信度。

定義六：關聯規則R的支援度是交易集同時包含X和Y的交易數與|D|之比。即：

support(X⇒Y)=count(X∩Y)|D|

支援度反映了X、Y同時出現的概率。關聯規則的支援度等於頻繁集的支援度。

定義七：對於關聯規則R，可信度是指包含X和Y的交易數與包含X的交易數之比。即：

confidence(X⇒Y)=support(X⇒Y)support(X)

可信度反映瞭如果交易中包含X，則交易包含Y的概率。一般來說，只有支援度和可信度較高的關聯規則才是使用者感興趣的。

定義八：設定關聯規則的最小支援度和最小可信度為SUPmin和CONFmin。規則R的支援度和可信度均不小於S

UPmin和CONFmin，則稱為強關聯規則。關聯規則挖掘的目的就是找出強關聯規則，從而指導商家的決策。

這八個定義包含了關聯規則相關的幾個重要基本概念，關聯規則挖掘主要有兩個問題：

1.找出交易資料庫中所有大於或等於使用者指定的最小支援度的頻繁項集。

2.利用頻繁項集生成所需要的關聯規則，根據使用者設定的最小可信度篩選出強關聯規則。

其中，步驟1是關聯規則挖掘演算法的難點，下文介紹的Apriori演算法和FP-growth演算法，都是解決步驟1問題的演算法。

參考：

Apriori演算法

Apriori演算法的思路如下：

1.第一次掃描交易資料庫D時，產生1-頻繁集。在此基礎上經過連線、修剪產生2-頻繁集。以此類推，直到無法產生更高階的頻繁集為止。

2.在第k次迴圈中，也就是產生k-頻繁集的時候，首先產生k-候選集，k-候選集中每一個項集都是對兩個只有一個項不同的屬於k-1頻繁集的項集連線產生的。

3.k-候選集經過篩選後產生k-頻繁集。

從頻繁集的定義，我們可以很容易的推匯出如下結論：

如果專案集X是頻繁集，那麼它的非空子集都是頻繁集。

如果k-候選集中的項集Y，包含有某個k-1階子集不屬於k-1頻繁集，那麼Y就不可能是頻繁集，應該從候選集中裁剪掉。Apriori演算法就是利用了頻繁集的這個性質。

參考：

FP-growth演算法

Aprori演算法利用頻繁集的兩個特性，過濾了很多無關的集合，效率提高不少，但是我們發現Apriori演算法是一個候選消除演算法，每一次消除都需要掃描一次所有資料記錄，造成整個演算法在面臨大資料集時顯得無能為力。

FP-Growth演算法是韓家煒等人在2000年提出的關聯分析演算法。它通過構造一個樹結構來壓縮資料記錄，使得挖掘頻繁項集只需要掃描兩次資料記錄，而且該演算法不需要生成候選集合，所以效率會比較高。

注：韓家煒，中國科學技術大學本科（1979）+中科院碩士+威斯康辛大學博士（1985）。美國伊利諾伊大學香檳分校計算機系教授，IEEE和ACM院士。

FpGrowth演算法的平均效率遠高於Apriori演算法，但是它並不能保證高效率，它的效率依賴於資料集，當資料集中的頻繁項集的沒有公共項時，所有的項集都掛在根結點上，不能實現壓縮儲存，而且Fptree還需要其他的開銷，需要儲存空間更大，使用FpGrowth演算法前，對資料分析一下，看是否適合用FpGrowth演算法。

參考：

倖存者偏差

二戰期間，盟軍需要對戰鬥機進行裝甲加厚，以提高生還率，但由於軍費有限，只能進行區域性升級。那麼問題來了，究竟哪個部位最關鍵，最值得把裝甲加厚來抵禦敵方炮火呢？人們眾口不一，最後一致決定採用統計調查的方式來解決，即：仔細檢查每一駕戰鬥機返回時受到的損傷程度，計算出飛機整體的受彈狀況，然後根據大資料分析決定。

不久，統計資料很快出爐：盟軍飛機普遍受彈最嚴重的地方是機翼，有的幾乎被打成了篩子；相反，受彈最輕的地方是駕駛艙及尾部發動機，許多飛機的駕駛艙甚至連擦傷都沒有。

這裡寫圖片描述

正當所有人拿著這份確鑿無疑的報告準備給機翼加厚裝甲時，統計學家Abraham Wald阻攔了他們，同時提出了一個完全相反的方案：加厚駕駛艙與尾部。理由非常簡單：這兩個位置中彈的飛機，都沒有回來。換言之，它們是一份沉默的資料——“死人不會說話”。

最後，盟軍高層紛紛聽取了這個建議，加固了駕駛艙與尾部，果然空中戰場局勢得以好轉，駕駛員生還率也大大提高。事實證明，這是一個無比英明的措施。

這個事例也被稱作“倖存者偏差”（Survivorship bias）。它是一種典型的由於模型不當，導致的“資料說謊”。

注：Abraham Wald，1902～1950，生於奧匈帝國，維也納大學博士。1938年為躲避納粹，移民美國，哥倫比亞大學教授。Herman Chernoff的導師。其子Robert M. Wald，為著名理論物理學家，芝加哥大學教授，黑洞理論的提出者之一。

關聯規則評價

“資料說謊”的問題很普遍。再看這樣一個例子，我們分析一個購物籃資料中購買遊戲光碟和購買影片光碟之間的關聯關係。交易資料集共有10,000條記錄，如表1所示：

表1	買遊戲	不買遊戲	行總計
買影片	4000	3500	7500
不買影片	2000	500	2500
列總計	6000	4000	10000

假設我們設定得最小支援度為30%，最小自信度為60%。從上面的表中，可以得到：

support(買遊戲光碟→買影片光碟)=4000/10000=40% confidence(買遊戲光碟→買影片光碟)=4000/6000=66%

這條規則的支援度和自信度都滿足要求，因此我們很興奮，我們找到了一條強規則，於是我們建議超市把影片光碟和遊戲光碟放在一起，可以提高銷量。

可是我們想想，一個喜歡的玩遊戲的人會有時間看影片麼，這個規則是不是有問題，事實上這條規則誤導了我們。在整個資料集中買影片光碟的概率p(買影片)=7500/10000=75%，而買遊戲的人也買影片的概率只有66%，66%<75%恰恰說明了買遊戲光碟抑制了影片光碟的購買，也就是說買了遊戲光碟的人更傾向於不買影片光碟，這才是符合現實的。

從上面的例子我們看到，支援度和自信度並不總能成功濾掉那些我們不感興趣的規則，因此我們需要一些新的評價標準，下面介紹幾種評價標準：

機器學習（十八）——關聯規則挖掘

關聯規則挖掘

基本概念（續）

Apriori演算法

FP-growth演算法

倖存者偏差

關聯規則評價

相關性係數

機器學習（十八）——關聯規則挖掘

機器學習（十五）關聯分析之Apriori演算法

機器學習與深度學習系列連載：第一部分機器學習（十八）模型評估

機器學習之python學習（十八）

【轉】JMeter學習（十八）JMeter測試Java（二）

C++語言學習（十八）——異常處理

GO語言學習（十八）Go 語言接口

吳恩達機器學習（十六）機器學習流水線、上限分析

JMeter學習（十八）JMeter測試Java（二）

機器學習（十六）電商O2O優惠券使用預測-2

機器學習（十七）kaggle競賽之泰坦尼克號專案實戰-2

機器學習（十四）輕鬆理解模型評價指標

機器學習（十二）讓你輕鬆理解K-means 聚類演算法

機器學習（十一） SVM-支援向量機

opencv學習（十八）：影象梯度

機器學習與深度學習系列連載：第一部分機器學習（十一）決策樹2（Decision Tree）

機器學習與深度學習系列連載：第一部分機器學習（十四）非監督度學習-1 Unsupervised Learning-1

機器學習與深度學習系列連載：第一部分機器學習（十五）非監督度學習-2 Unsupervised Learning-2（Neighbor Embedding）

機器學習與深度學習系列連載：第一部分機器學習（十七）非監督度學習-2 Unsupervised Learning-4（Generative Models）

吳恩達機器學習（十一）K-means（無監督學習、聚類演算法）

機器學習（十八）——關聯規則挖掘

關聯規則挖掘

基本概念（續）

Apriori演算法

FP-growth演算法

倖存者偏差

關聯規則評價

相關性係數

相關推薦