資料探勘——關聯演算法

阿新 • • 發佈：2018-11-03

一、概念

關聯（Association）

關聯就是把兩個或兩個以上在意義上有密切聯絡的項組合在一起。

關聯規則（AR，Assocaition Rules）

用於從大量資料中挖掘出有價值的資料項之間的相關關係。（購物籃分析）

協同過濾（CF，Collaborative Filtering）

協同過濾常常被用於分辨某位特定顧客可能感興趣的東西，這些結論來自於對其他相似顧客對哪些產品感興趣的分析。（推薦系統）

二、關聯規則

1、相關資料指標

兩個不相交的非空集合X、Y，如果X -> Y，就說X -> Y是一條關聯規則。

強度：支援度（Support）：support（{X -> Y}） = 集合X與集合Y中的項在一條記錄中同時出現的次數 / 資料記錄的個數

　　　自信度（Confidence）：confidence（{X -> Y}）集合X與集合Y中的項在一條記錄中同時出現的次數 / 集合X出現的次數

效度：提升度（Lift）：度量規則是否可用的指標，描述的是相對於不用規則，使用規則可以提高多少，提升度大於1，規則有效

　　　　　　　　　　lift（{X -> Y}） = confidence（{X -> Y}） / support（{X -> Y}）

2、計算步驟

掃描資料集，統計一級候選集出現的次數
清除不滿足條件的候選項集，得到一級項集
從一級項集中國，組合二級候選項集，統計資料集中它們出現的次數

清除不滿足條件的候選項集，得到二級項集
從二級項集中，組合三級候選項集，統計資料集中他們出現的次數
……
將得到的項集作為結果返回

大致過程如下：

3、使用python實現關聯演算法（apriori演算法）

！apriori 包不支援DataFrame的資料格式，需要將資料轉化為array陣列

#匯入如下格式的資料

#變換資料格式，然後通過apriori方法進行處理

transform = data.groupby(by='交易ID').apply(lambda x: list(x.購買商品)).values

result = list(apriori(transform))

輸出result並觀察，發現如下規律

#該資料格式包含各種項集和所對應的支援度、自信度、提升度
'''RelationRecord(
items=frozenset({'可樂'}), 
support=0.4, 
ordered_statistics=[OrderedStatistic(
items_base=frozenset(), 
items_add=frozenset({'可樂'}), 
confidence=0.4, 
lift=1.0
)
]
)'''
#items = items_base + items_add

#遍歷result，得到每個項集（X 與 Y ，並得到相對應的支援度、自信度和提升度

supports = []
confidences = []
lifts = []
bases = []
adds = []

for i in result:
    supports.append(i.support)
    confidences.append(i.ordered_statistics[0].confidence)
    lifts.append(i.ordered_statistics[0].lift)
    bases.append(list(i.ordered_statistics[0].items_base))
    adds.append(list(i.ordered_statistics[0].items_add))
    
#將結果轉化為容易處理的資料框
get_result = pd.DataFrame({
        'base': bases,
        'add': adds,
        'support': supports,
        'confidence': confidences,
        'lift': lifts})

#得到如下的資料框，其中有不同項集及其對應結果，可通過關聯規則得到符合的關聯項

三、協同過濾

1、相關資料指標

協同過濾簡單來說就是利用某興趣相投、擁有共同經驗的群體的喜好來推薦使用者感興趣的資訊。

協同過濾主要收集每個使用者對使用過的物品的評價（打分或星級等）。

通過使用者對各種商品評分的高低，得到使用者的喜好並，根據相似喜好的使用者歷史資料，從而推薦一些資訊

優點：

能夠過濾機器難以自動分析的資訊，如藝術品、音樂等
共用其他人的講演，避免了內容分析的不完全或不精確，能夠基於一些複雜的，難以表述的概念（如個人品味）進行過濾
有推薦新資訊的能力，可以發現使用者潛在的但自己尚未發現的興趣偏好
推薦個性化、自動化程度高，能夠有效的利用其他相似使用者的回饋資訊，加快個性化學習的速度

缺點：

新使用者在開始時推薦質量較差
新專案的推薦難度大，因為推薦質量取決於歷史資料集

2、計算步驟

收集使用者資訊，必須資料基礎：使用者、商品、評分
根據以上資料得到使用者評分向量和商品評分向量（使用者評分儘量使用標準化評分，消除使用者因打分習慣而導致的差異）
根據使用者評分向量計算距離（如歐式距離）
計算使用者相似度
兩種方法計算相似鄰居
- A）固定數量的鄰居（K-neighborhoods）
- 不考慮鄰居的距離差異，只取當前點最近的 K 個點作為其鄰居
- B）基於相似度門檻的鄰居（Threshold-based neighborhoods）
- 以當前點為中心，距離為 K 的區域內的所有點作為當前點的鄰居

3、使用python實現協同過濾演算法

#匯入如下資料，含使用者ID，商品ID，使用者評分

#通過交叉表及變換形式得到使用者評分矩陣

userrate = data.pivot_table(index='UserID',
                            columns='ItemID',
                            aggfunc=sum,
                            fill_value=0)

#將透視錶轉為資料框，優化列名
userrate.columns = userrate.columns.droplevel(0)
del userrate.columns.name

#計算每個使用者之間的距離和相似度

#計算每個使用者之間的距離
dist = pd.DataFrame(euclidean_distances(userrate))
dist.index = userrate.index
dist.columns = userrate.index

#計算每個使用者之間的相似度
sim = 1/(1+dist)

#設定引數，獲取相似使用者

#設定鄰居個數為3  使用者ID為1
k = 3
userId = 1

#獲取3個相似使用者並得到其相似度
simUserIds = sim.sort_values(userId, ascending=False)[userId].index[1:k+1]
simUser = sim.ix[simUserIds, userId]

#根據相似使用者得到商品的推薦排序

#根據相似使用者，計算出每個物品的評分
score = pd.DataFrame(np.dot(simUser,  userrate.ix[simUserIds]))

#對結果排序，得到最終的結果
result = userrate.columns[score.sort_values(0, ascending=False).index.values]

資料探勘——關聯演算法

一、概念關聯（Association）關聯就是把兩個或兩個以上在意義上有密切聯絡的項組合在一起。關聯規則（AR，Assocaition Rules）用於從大量資料中挖掘出有價值的資料項之間的相關關係。（購物籃分析）協同過濾（CF，Collaborative Filtering）協同過濾

關聯規則進行資料探勘 Apriori 演算法

1. 關聯分析(Association analysis) 理解: 從大規模的資料中, 發現事物(物品)間的隱含關係的過程就是關聯分析(association analysis)或者關聯規則學習(association rule learning). 是

資料探勘---關聯規則---ECLAT演算法

關聯規則用於發現交易資料中，不同商品之間的關係，這些規則反映了顧客的購買行為模式。如顧客經常在購買A商品的時候也會購買B商品，著名的“啤酒與尿布”的案例就是關聯規則的成功應用案例導語不同於Apriori和FP演算法所採用的按照交易事務來水平劃分項集的資料探勘方式，把資料

深度解析資料探勘關聯規則Apriori演算法

01、關聯規則挖掘背景和基本概念如下所示的資料集，表中的每一行代表一次購買清單，注意我們只關心記錄出現與否，不關心某條記錄購買了幾次，如購買十盒牛奶也只計一次。資料記錄的所有項的集合稱為總項集，上表中的總項集： S={牛奶,麵包,尿布,啤酒,雞蛋,可樂} 關聯規則就是有關聯的規則，形式

資料分析、資料探勘、演算法工程師、大資料分析師的區別是什麼？爬招聘網站用資料來全方位分析

大資料行業經過幾年的發展和沉澱，大資料專案崗位細分領域已經趨於完善，本文主要探討在大資料分析這個領域，通過爬蟲爬取各個招聘網站的相關資料，對細分崗位進行深入分析，本文的呈現，感謝科多大資料資料分析培訓班第10期學員“NO.1”團隊的技術支援。此次分析結果呈現經歷三個階段：細分查詢目

資料探勘——關聯分析

前言關聯規則是人類認知客觀事物形成的一種認知模式。人們可以從龐大的事物個體中發現一個或者多個的關聯。從而建立出關聯規則。就像一個因果關係一樣，就像我們看到惡狗就想到可能會咬人（本人對狗無惡意），按下開關的按鈕燈就會開。這些事物本身是沒有聯絡的。但是人們可以

資料探勘經典演算法：Logistic(邏輯迴歸) python和sklearn實現

Logistic雖然不是十大經典演算法之一，但卻是資料探勘中常用的有力演算法，所以這裡也專門進行了學習，以下內容皆為親自實踐後的感悟和總結（Logistic原理、程式碼實現和優化、真實樣例資料、sklearn實現）。為了記錄的比較清楚，所以內容可能有點多，但都比較淺顯，下面進

資料探勘--pagerank演算法實現

import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.util.ArrayList; import java.util.Iter

資料探勘基本演算法

資料探勘主要分為4類，即預測、分類、聚類和關聯，根據不同的挖掘目的選擇相應的演算法。R語言博大精深，吸納了來自各方的挖掘演算法包，這些包都是由統計學家或是演算法研究人員提供，我們可以站在這些偉人的肩膀上實現演算法的應用。下面對常用的資料探勘包做一個彙總：連續因變數的預測：

資料探勘分類演算法詳解

今天看了研究者July的文章，講的是最恨對一個問題了解而不深入 ~ ~。切記，戒之。在這篇文章中，我準備對資料探勘的常用分類演算法進行一一介紹，它們的實現，原理和適用問題及對比。首先補充一下監督學習，非監督學習和半監督學習的。

資料探勘經典演算法總結-樸素貝葉斯分類器

貝葉斯定理（Bayes theorem），是概率論中的一個結果，它跟隨機變數的條件概率以及邊緣概率分佈有關。在有些關於概率的解說中，貝葉斯定理(貝葉斯更新）能夠告知我們如何利用新證據修改已有的看法。通常，事件A在事件B(發生)的條件下的概率，與事件B在事件A的條件下的概率

資料探勘常用演算法優缺點分析

　　需要大量的記憶體；五決策樹　　可以處理特徵間的互動關係並且是非引數化的，因此不必擔心異常值或者資料是否線性可分（舉個例子，決策樹能輕鬆處理好類別A在某個特徵維度x的末端，類別B在中間，然後類別A又出現在特徵維度x前端的情況）。它的缺點之一就是不支援線上學習，於是在新樣本到來後，決策樹

資料探勘--Cart演算法的實現

import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.util.ArrayList; import java.util.HashMa

《BI那點兒事》資料探勘各類演算法——準確性驗證

準確性驗證示例1：——基於三國志11資料庫資料準備：挖掘模型：依次為：Naive Bayes 演算法、聚類分析演算法、決策樹演算法、神經網路演算法、邏輯迴歸演算法、關聯演算法提升圖：依次排名為： 1. 神經網路演算法（92.69% 0.99）2. 邏輯迴歸演算法（92.39% 0.99）3. 決策

資料探勘---分類演算法之支援向量機SVM

這篇來說說支援向量機，說實在的，這個是我的最愛，一直比較看好這個演算法，而且也是花了不少時間在這個上面，下面一起來複習下。同上篇，下面摘自本人的畢業設計論文中，後面給出參考文獻。基於統計學習理論的支援向量機演算法是現代智慧技術

基於SQLServer的資料探勘及演算法詳解-張勇-專題視訊課程

基於SQLServer的資料探勘及演算法詳解—183人已學習課程介紹本教程介紹了SQL Server Data Mining的所有方面，包括使用SQL Server實現成功的資料探勘解決方案的所有必要知識，帶讀者熟悉其中的工具，給出了Microsoft資料探

資料分析師、大資料開發、Hadoop開發工程師、資料探勘、演算法工程師的工資薪水到底怎麼樣？

據最新發布的《大資料人才報告》顯示,目前全國的大資料人才僅46萬,未來3-5年內大資料人才的缺口

資料探勘經典演算法概述以及詳解連結

po主最近在學習資料探勘方面相關演算法，今天就在這裡總結一下資料探勘領域的經典演算法，同時提供每個演算法的詳解連結，就當做在這裡溫習吧。對於熟悉的演算法我會有較多的描述，不熟悉的演算法可能描述較少，以免誤導，但是會貼出學習的連結。由於本人也是資歷尚淺，必然有錯誤

[資料探勘]關聯規則學習筆記

關聯規則參考資料：《資料探勘導論》人民郵電出版社Pang-Ning Tan等著關聯規則是形如X→Y 的蘊含表示式，其中X和Y是不相交的項集。即X∩Y=∅。關聯規則的強度可以用它的支援度（support）和置信度（confidence）度

資料探勘經典演算法之：C4.5演算法

一.C4.5演算法 C4.5演算法是對ID3演算法的一種改進，所以，首先我們來看ID3演算法。 ID3演算法是在決策樹各個結點上應用資訊增益準則來選擇特徵，遞迴地構建決策樹。決策樹：是一種基本的分類與迴歸方法，一種分類決策模型，是一種樹形結構，該模型具有可讀性，分類速

資料探勘——關聯演算法

相關推薦