小白向Apriori演算法Python實現

阿新 • • 發佈：2018-11-12

　　參考部落格：http://www.cnblogs.com/llhthinker/p/6719779.html

　　學習的別人的程式碼，用Python實現的Apriori演算法，演算法介紹見https://www.cnblogs.com/1113127139aaa/p/9926507.html

　　內容是實現Apriori演算法的流程，資料是簡單的測試陣列，因為自己比較菜所以僅是為了自己複習寫了很水的註釋，如果有像我一樣的小白可以參考，先把完成的部分貼上來，原部落格有原來博主的註釋

def load_data_set():
    """
   載入一個示例集合
    Returns: 
        A data set: 一個購物列表，每個項中有不同的商品item
     
"""
    data_set = [['l1', 'l2', 'l5'], ['l2', 'l4'], ['l2', 'l3'],
            ['l1', 'l2', 'l4'], ['l1', 'l3'], ['l2', 'l3'],
            ['l1', 'l3'], ['l1', 'l2', 'l3', 'l5'], ['l1', 'l2', 'l3']]
    return data_set


def create_C1(data_set):
    """
    掃描資料集，建立元素個數為1的項集C1，作為頻繁項集的候選項集C1
    """ 

    C1 = set()
    for t in data_set:
        for item in t:
            item_set = frozenset([item])
            """
            由於要使用字典（support_data）記錄項集的支援度，需要用項集作為key，
            而可變集合無法作為字典的key，因此在合適時機應將項集轉為固定集合frozenset。
            或者另一種用法：
            for item in t:
                C1.append([item])
            C1.sort()
            return map(frozenset,C1)
             
"""
            C1.add(item_set)
    return C1


def is_apriori(Ck_item, Lksub1):
    """
    進行剪枝，如果滿足APriori，即滿足支援度，返回True
    否則返回False，刪除
    """
    for item in Ck_item:
        sub_Ck = Ck_item - frozenset([item])
        if sub_Ck not in Lksub1:
            return False
    return True


def create_Ck(Lksub1, k):
    """
    由Lk-1生成Ck
    具體實現方法是在Lk-1中，對所有兩個項集之間只有最後一項item不同的項集的交集
    """
    Ck = set()
    len_Lksub1 = len(Lksub1)
    list_Lksub1 = list(Lksub1)
    for i in range(len_Lksub1):
        for j in range(1, len_Lksub1):
            l1 = list(list_Lksub1[i])
            l2 = list(list_Lksub1[j])
            l1.sort()
            l2.sort()
            if l1[0:k-2] == l2[0:k-2]:
                Ck_item = list_Lksub1[i] | list_Lksub1[j]           #求並集
                # 剪枝
                if is_apriori(Ck_item, Lksub1):
                    Ck.add(Ck_item)
    return Ck


def generate_Lk_by_Ck(data_set, Ck, min_support, support_data):
    """
    由候選頻繁k項集Ck生成頻繁k項集Lk
    主要內容是對Ck中的每個項集計算支援度，去掉不滿足最低支援度的項集
    返回Lk，記錄support_data
    """
    Lk = set()
    item_count = {}
    for t in data_set:                              #掃描所有商品，計算候選頻繁項集C中項集的支援度，t為訂單
        for item in Ck:                             #item為C中的項集
            if item.issubset(t):                    #如果C中的項集是t訂單的子集
                if item not in item_count:          #如果item_count中還沒有這個項集，計數為1
                    item_count[item] = 1
                else:                               #如果item_count中已經有了這個項集，計數加1
                    item_count[item] += 1
    t_num = float(len(data_set))                    #t_num，訂單總數
    for item in item_count:                         #item_count中已經有了所有的候選項集，計算支援度
        if (item_count[item] / t_num) >= min_support:
            Lk.add(item)                            #滿足最小支援度的項集add進頻繁項集Lk中
            support_data[item] = item_count[item] / t_num       #記錄支援度，返回Lk
    return Lk


def generate_L(data_set, k, min_support):
    """
    生成頻繁集Lk，通過呼叫generate_Lk_by_Ck
    從C1開始共進行k輪迭代，將每次生成的Lk都append到L中，同時記錄支援度support_data
    """
    support_data = {}
    C1 = create_C1(data_set)            #生成C1
    L1 = generate_Lk_by_Ck(data_set, C1, min_support, support_data)     #由C1生成L1，呼叫generate_Lk_by_Ck函式
    Lksub1 = L1.copy()
    L = []
    L.append(Lksub1)
    for i in range(2, k+1):                                             #由k已知進行重複迭代
        Ci = create_Ck(Lksub1, i)                                       #由Lk生成Lk+1，呼叫create_Ck函式
        Li = generate_Lk_by_Ck(data_set, Ci, min_support, support_data)
        Lksub1 = Li.copy()
        L.append(Lksub1)
    return L, support_data


def generate_big_rules(L, support_data, min_conf):
    """
    Generate big rules from frequent itemsets.
    Args:
        L: The list of Lk.
        support_data: A dictionary. The key is frequent itemset and the value is support.
        min_conf: Minimal confidence.
    Returns:
        big_rule_list: A list which contains all big rules. Each big rule is represented
                       as a 3-tuple.
    """
    big_rule_list = []
    sub_set_list = []
    for i in range(0, len(L)):
        for freq_set in L[i]:
            for sub_set in sub_set_list:
                if sub_set.issubset(freq_set):
                    conf = support_data[freq_set] / support_data[freq_set - sub_set]
                    big_rule = (freq_set - sub_set, sub_set, conf)
                    if conf >= min_conf and big_rule not in big_rule_list:
                        # print freq_set-sub_set, " => ", sub_set, "conf: ", conf
                        big_rule_list.append(big_rule)
            sub_set_list.append(freq_set)
    return big_rule_list


if __name__ == "__main__":                  #主程式入口
    """
    Test
    """
    data_set = load_data_set()              #載入測試資料集
    L, support_data = generate_L(data_set, k=3, min_support=0.2)            #資料集中最大商品數為3，給定預設最低支援度為0.2，呼叫generate_L函式
    big_rules_list = generate_big_rules(L, support_data, min_conf=0.7)
    for Lk in L:
        print ("="*50)
        print ("frequent " + str(len(list(Lk)[0])) + "-itemsets\t\tsupport")
        print ("="*50)
        for freq_set in Lk:
            print (freq_set, support_data[freq_set])                        #print頻繁k項集和支援度
    print
    print ("Big Rules")
    for item in big_rules_list:
        print (item[0], "=>", item[1], "conf: ", item[2])

小白向Apriori演算法Python實現

　　參考部落格：http://www.cnblogs.com/llhthinker/p/6719779.html 　　　　學習的別人的程式碼，用Python實現的Apriori演算法，演算法介紹見https://www.cnblogs.com/1113127139aaa/p/9926507.html

資料探勘入門系列教程（五）之Apriori演算法Python實現

資料探勘入門系列教程（五）之Apriori演算法Python實現載入資料集獲得訓練集頻繁項的生成生成規則獲得support獲得confidence獲得Lift進行驗證總結參考資料探勘入門系列教程（五）之Apriori演算法Python實現在上一篇部落格中，我們介紹了Apriori演算法的演算法流

小白之KMP演算法詳解及python實現

在看子串匹配問題的時候，書上的關於KMP的演算法的介紹總是理解不了。看了一遍程式碼總是很快的忘掉，後來決定好好分解一下KMP演算法，算是給自己加深印象。 ------------------------- 分割線-------------------------------

【2018.10】【小白向】利用閒置VPS搭建私有離線下載服務最新基於Aria2 +WebUI Aria2實現含帶GUI的離線下載私有迅雷

引子： Aria2是老東西了，下載服務的佼佼者，越來越成熟手頭裡有個專門用來“ 閒置 ”的Vultr伺服器，Vultr家的伺服器有丟包現象，但最大的優點是價效比極高，頻寬極高，用來搭建科學上網和學習實驗用的服務是非常不錯的選擇，而且還支援Alipay和WeChat P

一隻自動化測試小白的學習記錄——Python+Selenium+Sublime 運用API、元素定位、元素操作方法、滑鼠鍵盤事件實現入門Web自動化測試

題外話：之前做一些自動化測試的入門實驗都是用的Python的IDLE進行編寫的，正兒八經的好處（可以一行一行地執行，因此能夠直觀地看到對於網頁測試的每一步變化，也能夠明確地知道在哪一步出了錯），不知所云的壞處(沒有一下子執行指令碼程式的成就感?????（黑人嚴肅臉）) 。於是

旋轉數組的最小數字（C++ 和 Python 實現）

ram 兩個 requires images red 輸入 off internet iat （說明：本博客中的題目、題目詳細說明及參考代碼均摘自 “何海濤《劍指Offer：名企面試官精講典型編程題》2012年”）題目　　把一個數組最開始的若幹個元素搬到數組的末尾，我們

win10匯編如何debug（小白向）

引用 oca art inf 技術分享。。 sbo 輸入其中先引用別人的方法 http://blog.csdn.net/lcr_happy/article/details/52491107 按他所說的下完對應軟件後，安裝其中的dosbox，然後將debug.exe

前向算法Python實現

基本是什麽比較 down 第一天什麽可能性馬爾可夫模型完全前言這裏的前向算法與神經網絡裏的前向傳播算法沒有任何聯系。。。這裏的前向算法是自然語言處理領域隱馬爾可夫模型第一個基本問題的算法。前向算法是什麽？這裏用一個海藻的例子來描述前向算法是什麽。網上有關

GIS資訊關聯規則挖掘——Apriori演算法的實現（下）

上篇說明了原理，這篇就直接上核心程式碼了~ 程式碼比較長，所以理解可能有點麻煩，核心思路就是計算選擇的維度後遍歷資料，逐步進行迴圈計算置信度，並淘汰每次迴圈後的最低值。這裡有一點要注意的，我一開始想用arraylist構造一個堆疊結構進行資料遍歷的儲存跟計算，因為這樣效率比較高。

GIS資訊關聯規則挖掘——Apriori演算法的實現（上）

最近閒著無聊沒啥課，幫讀master的朋友做了一個桌面端的GIS系統，主要功能是景區管理。其中有個核心功能挺有意思的，就是統計所有景區受損設施的所有致損型別和每個型別具體包含的致損因子後，計算致損因子之間的關聯規則，然後可以根據使用者選定的致損型別組合計算出其景區設施造成損害的概率。（有點

爬蟲是什麼？爬蟲能幹什麼？一篇小白能懂的Python爬蟲工作流程！ python入門

這篇文章是給正準備學習或者想要Python爬蟲小白們看的。如果不想看文章的可以私信我回復【爬蟲】有爬蟲入門的視訊教程更多幹貨分享加python程式語言學習QQ群 515267276 根據使用場景，網路爬蟲可分為通用爬蟲（傳統爬蟲）和聚焦爬蟲兩種。 1.通用爬蟲捜索引擎抓取系統（Ba

機器學習實戰——k-近鄰演算法Python實現問題記錄

準備 kNN.py 的python模組 from numpy import * import operator def createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

小白使用百度 NLP 實現語料庫 TTR 統計

本人是一個文科生，本科學英語，碩士學翻譯。學院裡都流行的是語言學研究，我個人更喜歡的是計算語言學，看了幾本書和論文之後就對計算語言學和語料庫語言學深感興趣。奈何讀書那會對這些技術一竅不通，程式碼也看不進去，工作幾年後還是對這方面感興趣，就從10月份開始學python，做了個基礎的入門，然後開始挑選適合自己的N

遺傳演算法-python實現

已經調通，並有大量註釋 # encoding=utf-8 import math import random import operator class GA(): def __init__(self, length, count): # 染色體長度

關於layui框架的from表單佈局（小白向）

from表單的使用在使用from表單的時候，必須先宣告from模組，否則select、checkbox、radio等將無法顯示，並且無法使用form相關功能，這是很多小白一開始經常犯的錯誤，雖然這很簡單但也很基礎，所以有必要在這裡提一下 from模組宣告 <script&

機器學習——樸素貝葉斯演算法Python實現

簡介這裡參考《統計學習方法》李航編進行學習總結。詳細演算法介紹參見書籍，這裡只說明關鍵內容。即條件獨立下：p{X=x|Y=y}=p{X1=x1|Y=y} * p{X2=x2|Y=y} *...* p{Xn=xn|Y=y} （4.4）等價於p{Y=ck|X=x

快速排序演算法Python實現

快速排序演算法，簡稱快排，是最實用的排序演算法，沒有之一，各大語言標準庫的排序函式也基本都是基於快排實現的。本文用python語言介紹四種不同的快排實現。 1. 一行程式碼實現的簡潔版本 quick_sort = lambda array: array if le

N數碼問題的啟發式搜尋演算法--A*演算法python實現

一、啟發式搜尋：A演算法 1）評價函式的一般形式 : f(n) = g(n) + h(n) g(n):從S0到Sn的實際代價(搜尋的橫向因子) h(n):從N到目標節點的估計代價,稱為啟發函式(搜尋的縱向因子); 特點: 效率高, 無回溯, 搜尋演算法 OPEN表 : 存放待擴充套件的節點. CLOS

python學習之旅 | k_means演算法python實現

寫在前面前一段時間看到一篇文章，建議學生時代寫程式碼不要光呼叫庫和複製貼上，而是要儘量每一行程式碼都自己寫。因為以後工作的時候都主要是用別人寫好的東西，就沒有這樣鍛鍊基本功的機會了。筆者最近入門python，希望能夠通過這些重複造輪子的簡單工作來加強基本功，

小白向Apriori演算法Python實現

相關推薦