轉載自http://blog.csdn.net/gjwang1983/article/details/45015203

1.概念

1.1 引論

關聯規則（AssociationRules）是無監督的機器學習方法，用於知識發現，而非預測。

關聯規則的學習器（learner）無需事先對訓練資料進行打標籤，因為無監督學習沒有訓練這個步驟。缺點是很難對關聯規則學習器進行模型評估，一般都可以通過肉眼觀測結果是否合理。

關聯規則主要用來發現Pattern，最經典的應用是購物籃分析，當然其他類似於購物籃交易資料的案例也可以應用關聯規則進行模式發現，如電影推薦、約會網站或者藥物間的相互副作用。

1.2 例子 - 源資料

點選流資料。

不同的Session訪問的新聞版塊，如下所示：

Session ID	List of media categories accessed
1	{News, Finance}
2	{News, Finance}
3	{Sports, Finance, News}
4	{Arts}
5	{Sports, News, Finance}
6	{News, Arts, Entertainment}

1.3資料格式

關聯規則需要把源資料的格式轉換為稀疏矩陣。

把上表轉化為稀疏矩陣，1表示訪問，0表示未訪問。

Session ID	News	Finance	Entertainment	Sports
1	1	1	0	0
2	1	1	0	0
3	1	1	0	1
4	0	0	0	0
5	1	1	0	1
6	1	0	1	0

1.4術語和度量

1.4.1項集 ItemSet

這是一條關聯規則：

括號內的Item集合稱為項集。如上例，{News, Finance}是一個項集，{Sports}也是一個項集。

這個例子就是一條關聯規則：基於歷史記錄，同時看過News和Finance版塊的人很有可能會看Sports版塊。

{News,Finance} 是這條規則的Left-hand-side (LHS or Antecedent)

{Sports}是這條規則的Right-hand-side (RHS or Consequent)

LHS（Left Hand Side)的項集和RHS（Right Hand Side）的項集不能有交集。

下面介紹衡量關聯規則強度的度量。

1.4.2支援度 Support

項集的支援度就是該項集出現的次數除以總的記錄數（交易數）。

Support({News}) = 5/6 = 0.83

Support({News, Finance}) = 4/6 =0.67

Support({Sports}) = 2/6 = 0.33

支援度的意義在於度量項集在整個事務集中出現的頻次。我們在發現規則的時候，希望關注頻次高的項集。

1.4.3置信度 Confidence

關聯規則 X -> Y 的置信度計算公式

規則的置信度的意義在於項集{X，Y}同時出現的次數佔項集{X}出現次數的比例。發生X的條件下，又發生Y的概率。

表示50%的人訪問過{News, Finance}，同時也會訪問{Sports}

1.4.4提升度 Lift

當右手邊的項集（consequent）的支援度已經很顯著時，即時規則的Confidence較高，這條規則也是無效的。

舉個例子：

在所分析的10000個事務中,6000個事務包含計算機遊戲,7500個包含遊戲機遊戲,4000個事務同時包含兩者。

關聯規則（計算機遊戲，遊戲機遊戲）支援度為0.4，看似很高，但其實這個關聯規則是一個誤導。

在使用者購買了計算機遊戲後有（4000÷6000）0.667 的概率的去購買遊戲機遊戲，而在沒有任何前提條件時，使用者反而有（7500÷10000）0.75的概率去購買遊戲機遊戲，也就是說設定了購買計算機遊戲這樣的條件反而會降低使用者去購買遊戲機遊戲的概率，所以計算機遊戲和遊戲機遊戲是相斥的。

所以要引進Lift這個概念，Lift(X->Y)=Confidence(X->Y)/Support(Y)

規則的提升度的意義在於度量項集{X}和項集{Y}的獨立性。即，Lift(X->Y)= 1 表面 {X}，{Y}相互獨立。[注：P(XY)=P(X)*P(Y),if X is independent of Y]

如果該值=1,說明兩個條件沒有任何關聯,如果<1,說明A條件(或者說A事件的發生)與B事件是相斥的,一般在資料探勘中當提升度大於3時,我們才承認挖掘出的關聯規則是有價值的。

最後，lift(X->Y) = lift(Y->X)

1.4.5出錯率 Conviction

Conviction的意義在於度量規則預測錯誤的概率。

表示X出現而Y不出現的概率。

例子：

表面這條規則的出錯率是32%。

1.5生成規則

一般兩步：

第一步，找出頻繁項集。n個item，可以產生2^n- 1 個項集（itemset）。所以，需要指定最小支援度，用於過濾掉非頻繁項集。
第二部，找出第一步的頻繁項集中的規則。n個item，總共可以產生3^n - 2^(n+1) + 1條規則。所以，需要指定最小置信度，用於過濾掉弱規則。

第一步的計算量比第二部的計算量大。

2.Apriori演算法

Apriori Principle

如果項集A是頻繁的，那麼它的子集都是頻繁的。如果項集A是不頻繁的，那麼所有包括它的父集都是不頻繁的。

例子：{X, Y}是頻繁的，那麼{X}，{Y}也是頻繁的。如果{Z}是不頻繁的，那麼{X,Z}, {Y, Z}, {X, Y, Z}都是不頻繁的。

生成頻繁項集

給定最小支援度Sup，計算出所有大於等於Sup的項集。

第一步，計算出單個item的項集，過濾掉那些不滿足最小支援度的項集。

第二步，基於第一步，生成兩個item的項集，過濾掉那些不滿足最小支援度的項集。

第三步，基於第二步，生成三個item的項集，過濾掉那些不滿足最小支援度的項集。

如下例子：

One-Item Sets	Support Count	Support
{News}	5	0.83
{Finance}	4	0.67
{Entertainment}	1	0.17
{Sports}	2	0.33
Two-Item Sets	Support Count	Support
{News, Finance}	4	0.67
{News, Sports}	2	0.33
{Finance, Sports}	2	0.33
Three-Item Sets	Support Count	Support
{News, Finance, Sports}	2	0.33

規則生成

給定Confidence、Lift 或者 Conviction，基於上述生成的頻繁項集，生成規則，過濾掉那些不滿足目標度量的規則。因為規則相關的度量都是通過支援度計算得來，所以這部分過濾的過程很容易完成。

Apriori案例分析（R語言）

1. 關聯規則的包

arules是用來進行關聯規則分析的R語言包。

[java] view plain copy

library(arules)

2. 載入資料集

源資料：groceries 資料集，每一行代表一筆交易所購買的產品（item）

資料轉換：建立稀疏矩陣，每個Item一列，每一行代表一個transaction。1表示該transaction購買了該item，0表示沒有購買。當然，data frame是比較直觀的一種資料結構，但是一旦item比較多的時候，這個data frame的大多數單元格的值為0，大量浪費記憶體。所以，R引入了特殊設計的稀疏矩陣，僅存1，節省記憶體。arules包的函式read.transactions可以讀入源資料並建立稀疏矩陣。

[java] view plain copy

groceries <- read.transactions("groceries.csv", format="basket", sep=",")

引數說明：

format=c("basket", "single")用於註明源資料的格式。如果源資料每行內容就是一條交易購買的商品列表（類似於一行就是一個購物籃）那麼使用basket；如果每行內容是交易號+單個商品，那麼使用single。

cols=c("transId", "ItemId") 對於single格式，需要指定cols，二元向量（數字或字串）。如果是字串，那麼檔案的第一行是表頭（即列名）。第一個元素是交易號的欄位名，第二個元素是商品編號的欄位名。如果是數字，那麼無需表頭。對於basket，一般設定為NULL，預設也是NULL，所以不用指定。

signle format的資料格式如下所示，與此同時，需要設定cols=c(1, 2)

1001,Fries

1001,Coffee

1001,Milk

1002,Coffee

1002,Fries

rm.duplicates=FALSE：表示對於同一交易，是否需要刪除重複的商品。

接下來，檢視資料集相關的統計彙總資訊，以及資料集本身。

[java] view plain copy

summary(groceries)
transactions as itemMatrix in sparse format with
9835 rows (elements/itemsets/transactions) and
169 columns (items) and a density of 0.02609146
most frequent items:
whole milk other vegetables rolls/buns soda
2513 1903 1809 1715
yogurt (Other)
1372 34055
element (itemset/transaction) length distribution:
sizes
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
2159 1643 1299 1005 855 645 545 438

相關推薦

R語言 apriori演算法案例詳解

轉載自http://blog.csdn.net/gjwang1983/article/details/45015203 1.概念 1.1 引論關聯規則（AssociationRules）是無監督的機器學習方法，用於知識發現，而非預測。關聯規則的學習器（learner）無

R語言ggplot2條形圖詳解

本文內容來自個人做案例過程中遇到的一些問題，一是用普通的barplot()，所畫條形圖的條數太多，導致x軸的標籤不能完全顯示；二是用EXCEL可以解決一，但是畫的條形圖又不是太美觀。因此，本文順著這個方向，得到了一些啟示，並對此作出總結。總體引數背景

Go語言實現PoW共識演算法（詳解）

PoW呢...Proof of Work ，工作量證明機制，可能這個名字大家不熟悉，說比特幣的話，大家就熟悉了吧，沒錯，PoW就是比特幣所使用的共識機制。通過計算一個數值（ nonce ），使得拼揍上交易資料後內容的 Hash 值滿足規定的上限。在節點成功找到滿足的Has

貝葉斯分類器演算法及案例詳解

作者：vicky_siyu 致謝：小龍快跑jly, 巧兒、克力,Esther_or so,雨佳小和尚本文是對貝葉斯分類器（包括樸素貝葉斯分類器，半樸素貝葉斯分類器及貝葉斯網路）演算法的演算及案例的詳細分析。本文只是在學習後進行了總結並加入了自己的理解，如有不妥之處，還望海涵，也希望大家

人人都能看懂的機器學習！3個案例詳解聚類、迴歸、分類演算法

導讀：機器是怎樣學習的，都學到了什麼？人類又是怎樣教會機器學習的？本文通過案例給你講清楚各類演算

Scrapy 爬蟲框架入門案例詳解

tin mon setting 爬蟲框架 finished perror project 原因 create 歡迎大家關註騰訊雲技術社區-博客園官方主頁，我們將持續在博客園為大家推薦技術精品文章哦~ 作者：崔慶才 Scrapy入門本篇會通過介紹一

【轉】 C語言文件操作詳解

pri void rfi 識別 archive format 隨機 stat 文本文轉自：http://www.cnblogs.com/likebeta/archive/2012/06/16/2551780.html C語言中沒有輸入輸出語句，所有的輸入輸出功能都用

SQL語句之數據定義語言（DDL）詳解

三種 absolute row redundant 字符對象 not null 工作 part 操作對象：數據庫 1）創建數據庫 MariaDB [(none)]> help create databaseName: ‘CREATE DATABASE‘Descrip

12.29-linux r-w-x權限詳解

添加數字 family 可執行執行權限總結 modify process regular 12.29linux r-w-x權限詳解內容:1. linux目錄權限體系2. rwx權限的計算3. rwx針對目錄或文件的具體含義4. 更改權限---chmod命令5. 一些關

IDEA裏如何實現自動導入包和導入包優化的設置？（適合各種語言）（圖文詳解）

pic add 分享 str sca 詳解個人博客 optimize html 　　不多說，直接上幹貨！前言　　為什麽需要自動導入包？為什麽需要導入包優化呢？　　答： IDEA裏如何實現自動導

javascript教程系列41:表格全選反選,經典案例詳解

註冊事件 tag rap 優化 document iphone8 char value ipad <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8"&g

【強化學習篇】--強化學習案例詳解一

AC 沒有技術技術分享 ron png strong http mage 一、前述本文通過一個案例來講解Q-Learning 二、具體 1、案例假設我們需要走到5房間。轉變為如下圖：先構造獎勵，達到5，即能夠走得5的action則說明獎勵比較高設置成100，沒有

LVS 負載均衡群集詳解、地址轉換模式（LVS-NAT）案例詳解

8.4 功能 block x86_64 ati local linu 它的 har 前言 · Linux Virtual Server （LVS）是針對 Linux 內核開發的一個負載均衡項目，是由我國章文嵩博士在 98 年 5月創建。· LVS 實際上相當於基於 IP

基於DKHadoop的智慧政務服務平臺開發案例詳解

正在平臺開發 ado 大數據技術大量數據數據信息 alt 大數據平臺不可基於DKHadoop的智慧政務服務平臺開發案例詳解大數據技術的應用與發展正在讓我們的生活經歷一場深刻的“變革”，而且這種變革幾乎讓所有人都感覺非常舒服，自然而然的就完成了這樣的一個變化。最根本

Linux三劍客awk的應用對比案例詳解

單引號 -i id號 std 引號技術分享詳細說明數據 font awk的格式一 awk 參數 ‘條件’（單引號）文件路徑 a.參數我們一般用-F “[]” (雙引號) 指定分隔符 b.條件為BEGIN 模塊 + 模式

0x16 HCNP-R&S BGP原理詳解（一）

自治系統（AS）：由同一個技術管理機構管理、使用統一選路策略的一些路由器的集合。 IGP 內部閘道器協議運行於AS內部著重於發現和計算路由主要有：RIP、OSPF、ISIS

深度學習——優化器演算法Optimizer詳解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

在機器學習、深度學習中使用的優化演算法除了常見的梯度下降，還有 Adadelta，Adagrad，RMSProp 等幾種優化器，都是什麼呢，又該怎麼選擇呢？在 Sebastian Ruder 的這篇論文中給出了常用優化器的比較，今天來學習一下：https://arxiv.org/pdf/160

爬蟲之刃----趕集網招聘類爬取案例詳解(系列四)

前言本篇承襲之前的系列文章，開始動真格。以趕集網招聘類資訊爬取為例，詳細解說爬蟲程式構建過程。準備工作：閱讀之前的系列一、系列二、系列三，有一定遞進關係登陸趕集網，瞭解下“地形” OK，let’s go！構建URL庫

C語言do while迴圈詳解

do…while 迴圈不經常使用，其主要用於人機互動。它的格式是： do { 語句; } while (表示式); 注意，while 後面的分號千萬不能省略。 do…while 和 while 的執行過程非常相似，唯一的區別是：“do…while 是先執行一次迴圈體，然後再判別表示式

【go 語言環境安裝】goland語言環境安裝配置詳解

1、下載go 下載地址： https://golang.google.cn/dl/ 開啟網址，由於我的電腦是win64,所以下載第一個。 2、安裝go 2.1、UNIX/Linux/Mac OS X, 和 FreeBSD 安裝以下介紹了在UNIX/Linux/Mac OS

R語言 apriori演算法案例詳解

轉載自http://blog.csdn.net/gjwang1983/article/details/45015203

1.概念

1.1 引論

1.2 例子 - 源資料

1.3資料格式

1.4術語和度量

1.4.1項集 ItemSet

1.4.2支援度 Support

1.4.3置信度 Confidence

1.4.4提升度 Lift

最後，lift(X->Y) = lift(Y->X)

1.4.5出錯率 Conviction

1.5生成規則

2.Apriori演算法

Apriori案例分析（R語言）

1. 關聯規則的包

2. 載入資料集

相關推薦