1. 程式人生 > >資料探勘入門系列教程(一)之親和性分析

資料探勘入門系列教程(一)之親和性分析

資料探勘入門系列教程(一)之親和性分析

教程系列簡介

系列地址:https://www.cnblogs.com/xiaohuiduan/category/1661541.html

該教程為入門教程,為博主學習資料探勘的學習路徑步驟。教程為入門教程,從最簡單的開始。使用的程式語言為Python3.8.1,使用JupyterNotebook作為開發環境(使不使用JupyterNotebook都沒有關係)。

在學習本教程之前,你需要:

  • 有一點python程式設計基礎
  • 會用百度 or 谷歌
  • 數學知識還是要一點的(但是要多少呢?我也不知道,我也是剛開始學)

什麼是資料探勘, 相信點選進入這篇部落格的人都應該知道了吧。通俗的說就是挖掘資料所蘊含的含義,尋找資料之間的關係。

下面將以最簡單的親和性分析來開始吧。

親和性分析

相信大家都聽說過一個例子:

在美國的零售業有著這樣一個傳奇故事,沃爾瑪百貨將他們的紙尿褲和啤酒並排擺在一起銷售,結果紙尿褲和啤酒的銷量雙雙增長!

什麼是親和性分析呢?親和性分析根據樣本個體之間的關係,確定它們關係的親疏。舉一個簡單的應用:顧客去超市買了一個蘋果,那麼他會不會很大的可能性去買香蕉呢?

首先,我們得有一個數據集:

這個是一個很簡單的商品交易資料集,簡單到它只有100條資料,儘管資料比較少,but我們用來學習一下還是可以的。


資料集的含義:

如果看一行的話,每一行如(0,1,0,0,1)可以代表每一條交易包含的商品,0代表沒有購買,1代表購買。每一列代表一種商品。

那麼我們需要找出他的什麼資料含義規則呢?“如果一個顧客購買了商品A,則他很可能購買商品B”。找到這種規則很簡單,找出交易資料中同時購買A商品和B商品的記錄,然後與總的交易數量相比較即可。

規則有優劣,這裡有兩種衡量標準,支援度置信度。(如果商品交易資料)

  • 支援度:支援度指的是資料集中規則應驗的次數。(商品交易中同時買A商品和B商品的交易數量【支援度也可以為次數/交易總量】)
  • 置信度:置信度代表的是規則的準確性如何。(以例子來說,就是如果既買A商品又買B商品的數量除以買A商品的數量)

程式碼實現

使用的庫如下:

  • numpy
  • collections

資料集在這裡:data

首先我們需要載入資料集,資料的檔名為affinity_dataset.txt

import numpy as np
data_filename = "affinity_dataset.txt"
datas = np.loadtxt(data_filename)
# 列的屬性
features = ["麵包", "牛奶", "黃油", "蘋果", "香蕉蕉"]

資料集我們已經載入完畢,為了得到商品A和商品B的資料,在python中也就是(商品A,商品B)元組,我們需要進行遍歷,然後將資料儲存下來。

現在讓我們來計算置信度。我們使用valid_rules字典來儲存商品A和商品B同時存在的記錄,使用invalid_rules來儲存當商品A存在時,但是商品B不存在的記錄。

valid_rules = defaultdict(int)
invalid_rules = defaultdict(int)

我們使用defaultdict來建立字典而不是使用常用的方式是因為:


這樣的好處是即使在沒有這個key的時候,它也會返回預設的值0。

我們定義一個方法,目的是為了統計A,B之間的關係。

# A 和 B之間的聯絡,返回購買A商品的數量
def connect(indexA, indexB):
    buy_A_num = 0
    for sample in datas:
        if sample[indexA] == 0:
            continue
        buy_A_num += 1
        
        if(sample[indexB] == 1):
            valid_rules[(indexA, indexB)] += 1
        else:
            invalid_rules[(indexA, indexB)] += 1
    return buy_A_num
         

方法,我們就可以獲得需要的資料,現在我們可以計算置信度了。


def get_confidence():
    confidence = defaultdict(float)
    for premise, feature in valid_rules.keys():
        rule = (premise, feature)
        confidence[rule] = valid_rules[rule] / (valid_rules[rule]+invalid_rules[rule])
        print("購買{0}後同時{1}的置信度為:{2:0.3f}".format(features[rule[0]],features[rule[1]],confidence[rule]))
    return confidence

當然支援度怎麼算,這個就太簡單了,就是valid_rules裡面的value除以資料總量即可,就不展示了。

執行程式碼,使用for迴圈將所有的關係都找出來,然後計算置信度:

if __name__ == "__main__":
    for i in range(len(features)):
        for j in range(len(features)):
            if(i == j):
                continue
            connect(i,j)
    confidence = get_confidence()

最後結果如下所示:


同樣我們可以對置信度進行排序,字典的items()函式返回包含字典所有元素的列表。itemgetter(1)表示以字典各元素的值(這裡為置信度)作為排序依據,reverse=True表示降序排列。

from operator import itemgetter
    sort_dict = sorted(confidence.items(),key=itemgetter(1),reverse=True)
    for index in range(5):
        rule = sort_dict[index][0]
        print("購買{0}後同時{1}的置信度為:{2:0.3f}".format(features[rule[0]],features[rule[1]],confidence[rule]))

結果如下圖所示:


專案地址:github

參考書籍:Python資料探勘入門與實踐