《Python資料分析與挖掘實戰》第8章——Apriori關聯規則

阿新 • • 發佈：2019-02-03

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第八章的資料——《中醫證型關聯規則挖掘》做的分析。

旨在補充原文中的細節程式碼，並給出文中涉及到的內容的完整程式碼。

主要有：1）將原始資料按照聚類結果進行標記類別

1 背景與目標分析

此專案旨在根據相關資料建模，獲取中醫證素與乳腺癌TNM分期之間的關係。

2 資料預處理

2.1 資料變換

2.1.1 資料離散化

datafile = 'data.xls'
resultfile = 'data_processed.xlsx'

typelabel = {u'肝氣鬱結證型係數':'A',u'熱毒蘊結證型係數':'B',u'衝任失調證型係數':'C',u'氣血兩虛證型係數':'D',u'脾胃虛弱證型係數':'E',u'肝腎陰虛證型係數':'F'}

k = 4 #需要進行的聚類類別數

#讀取檔案進行聚類分析
data = pd.read_excel(datafile)
keys = list(typelabel.keys())
result = DataFrame()

for i in range(len(keys)):
    #呼叫k-means演算法 進行聚類
    print(u'正在進行%s的聚類' % keys[i])
    kmodel = KMeans(n_clusters = k, n_jobs = 4)  # n_job是執行緒數，根據自己電腦本身來調節
    kmodel.fit(data[[keys[i]]].as_matrix())# 訓練模型
#     kmodel.fit(data[[keys[i]]]) # 不轉成矩陣形式結果一樣
#KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
#     n_clusters=4, n_init=10, n_jobs=4, precompute_distances='auto',
#     random_state=None, tol=0.0001, verbose=0)
    
    r1 = DataFrame(kmodel.cluster_centers_, columns = [typelabel[keys[i]]]) # 聚類中心
    r2 = Series(kmodel.labels_).value_counts() #分類統計
    r2 = DataFrame(r2,columns = [typelabel[keys[i]]+'n'])# 轉成DataFrame格式，記錄各個類別的數目
    r = pd.concat([r1,r2], axis=1).sort_values(typelabel[keys[i]])
    r.index = range(1,5)
    r[typelabel[keys[i]]] = pd.rolling_mean(r[typelabel[keys[i]]],2) # rolling_mean用來計算相鄰兩列的均值，以此作為邊界點
    r[typelabel[keys[i]]][1] = 0.0 # 將原來的聚類中心改成邊界點
    result = result.append(r.T)
result = result.sort_index() # 以index排序，以ABCDEF排序
result.to_excel(resultfile)
    
print (result)

2.1.2 劃分原始資料中的類別

# 將分類後資料進行處理（*****）
data_cut = DataFrame(columns = data.columns[:6])
types = ['A','B','C','D','E','F']
num = ['1','2','3','4']
for i in range(len(data_cut.columns)):
    value = list(data.iloc[:,i])
    bins = list(result[(2*i):(2*i+1)].values[0])
    bins.append(1)
    names = [str(x)+str(y) for x in types for y in num]
    group_names = names[4*i:4*(i+1)]
    cats = pd.cut(value,bins,labels=group_names,right=False)
    data_cut.iloc[:,i] = cats
data_cut.to_excel('apriori.xlsx')
data_cut.head()

# 注意！本文中作者最後建模的時候並沒有使用這份資料進行建模，當輸入這份資料時，結果為空！

3 模型建立

inputfile ='apriori.txt' #輸入事務集檔案
# '''apriori.txt中檔案格式如下
# A1,B2,C1,D3,E2,F1,H2
# A2,B2,C1,D2,E2,F1,H3
# A3,B4,C2,D3,E4,F1,H4
# A3,B1,C2,D1,E1,F1,H1
# '''
data2 = pd.read_csv(inputfile, header=None, dtype=object)# 此檔案是作者建模時的資料，執行後正常。
# data2 = pd.read_excel('apriori.xlsx', header=0) # !!!此檔案是在預處理時進行離散化後得到的，輸出結果有誤！為空！

start = time.clock() # 計時開始
print(u'\n轉換原始資料至0-1矩陣')

ct = lambda x: Series(1, index = x[pd.notnull(x)]) # 將標籤資料轉換成1，是轉換0-1矩陣的過渡函式
b = map(ct, data2.as_matrix())# 用map方式執行
data3 = DataFrame(b).fillna(0)
end = time.clock() #計時開始

print (u'轉換完畢，用時%s秒' % (end-start))
del b #刪除中間變數b 節省記憶體

support = 0.06 #最小支援度
confidence = 0.75 #最小置信度
ms = '---'# 用來區分不同元素，需要保證原始表格中無該字元

start = time.clock() #計時開始
print(u'\n開始搜尋關聯規則...')
find_rule(data3, support, confidence, ms)
end = time.clock() 
print (u'\n搜尋完成，用時：%.2f秒' % (end-start))

模型改進：

由於書中作者給出的程式碼並沒有運用到剪枝策略，因此採用了這篇文章的程式碼，將該程式碼中load_data_set（）函式中的內容改成如圖：

其執行的結果如下：

備註：本章節完整程式碼詳見點選開啟連結

python資料分析與挖掘實戰第六章拓展思考

企業偷漏稅識別模型 1、資料探索偷漏稅企業分佈首先生成data import pandas as pd inputfile = r'E:\Download\百度雲\圖書配套資料、程式碼\chapter6\拓展思考\tax.xls' data =

python資料分析與挖掘實戰第九章拓展練習

這一章的拓展練習感覺是比較簡單的。基本上沒有太多讓人糾結的地方。沒有特徵提取和資料規約，讓事情簡單了不少。當然不包括寫出C4.5的決策樹，我也沒有那麼寫。讀取資料，劃分訓練集和測試集，不用多說。

python資料分析與挖掘實戰第七章拓展思考

流失客戶分類模型 1 資料預處理如果動手做過的人可能面臨的第一個問題就是，這資料讀進pandas怎麼弄編碼結果都是錯的。如果你存在這樣的問題，那麼我建議你使用NotePad++載入檔案以後，改成無BOM的UTF-8編碼，然後就可以正常讀取了。資料預處理部

python資料分析與挖掘實戰-第六章拓展偷漏稅使用者識別

第六章分別使用了LM神經網路和CART 決策樹構建了電力竊漏電使用者自動識別模型，章末提出了拓展思考--偷漏稅使用者識別。專案要求：汽車銷售行業在稅收上存在多種偷漏稅情況導致政府損失大量稅收。汽車銷售企業的部分經營指標能在一定程度上評估企業的偷漏稅傾向，附件資料提供了汽車銷售

《Python資料分析與挖掘實戰》第8章——Apriori關聯規則

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第八章的資料——《中醫證型關聯規則挖掘》做的分析。旨在補充原文中的細節程式碼，並給出文中涉及到的內容的完整程式碼。主要有：1）將原始資料按照聚類結果進行標記類別1 背景與目標分析此專案旨在根據相關資料建模，獲取中

《Python資料分析與挖掘實戰》第7章——kmeans

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第七章的資料——《航空公司客戶價值分析》做的分析。旨在補充原文中的細節程式碼，並給出文中涉及到的內容的完整程式碼。 1）在資料預處理部分增加了屬性規約、資料變換的程式碼2）在模型構建的部分增加了一個畫出雷達圖的函式程式碼

《Python資料分析與挖掘實戰》第13章——迴歸+DNN

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第13章的資料——《財政收入影響因素分析及預測模型》做的分析。旨在補充原文中的細節程式碼，並給出文中涉及到的內容的完整程式碼。在作者所給程式碼的基礎上增加的內容包括： 1）探索了灰色預測的原理 2）畫出預測結果圖3）由於

《Python資料分析與挖掘實戰》第15章——文字挖掘

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第15章的資料——《電商產品評論資料情感分析》做的分析。旨在回顧對評論文字資料的處理和建模方法。1 挖掘背景與目標對京東平臺上的熱水器評論進行文字挖掘分析，挖掘建模如下：1）分析某一個品牌熱水器的使用者情感傾向2

『Python資料分析與挖掘實戰』第五章：挖掘建模

# coding:utf-8 """ logistic 迴歸，自動建模 """ import pandas as pd # 引數初始化 filename = r"C:\learning\DataMining\Book\Python_DataMining\Data\cha

python資料分析與挖掘實戰筆記二：第99頁神經網路訓練出現的錯誤'Some keys in session_kwargs are not supported at this time: %s'

在使用神經網路模型預測銷量高低時，系統指出模型訓練時出現錯誤： ValueError Traceback (most recent call last) <ipython-input-20-e46e29b76a5e> in <module&g

《Python資料分析與挖掘實戰》第10章（上）——DNN

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第10章的資料——《家用電器使用者行為分析與事件識別》做的分析。旨在補充原文中的細節程式碼，並給出文中涉及到的內容的完整程式碼；另外，原文中的資料處理部分排版先後順序個人感覺較為凌亂，在此給出梳理。在作者所給程式碼的基礎

《Python資料分析與挖掘實戰》第六章學習拓展——偷漏稅使用者識別

本文是繼上一篇文章中上機實驗之後的拓展思考部分的練習記錄。此拓展思考部分主要目標是依據附件所提供的汽車銷售企業的部分經營指標，來評估汽車銷售行業納稅人的偷漏稅傾向，建立偷漏稅行為識別模型。本次拓展思考練習分以下幾個步驟進行：資料初步探索分析資料預處理

《Python資料分析與挖掘實戰》第八章學習-關聯規則Apriori

《Python資料分析與挖掘實戰》這本書其實已經在暑假結束的時候就已經基本上過了一遍，但是卻一直沒有堅持著記錄。最近幾天想著將之前的學習內容整理一遍，因此，再做記錄。全文分為以下三個部分： Apriori演算法 Apriori的python實現總結

菜鷄日記——《Python資料分析與挖掘實戰》實驗6-1 拉格朗日插值法

實驗6-1 用拉格朗日插值法題目描述：用拉格朗日插值法對missing_data.xls中表格的空值進行填補。 # p1, lab6 # Fill all of the null values with Lagrange's interpolation # Data file name i

Python資料分析與挖掘實戰 pdf下載

Python資料分析與挖掘實戰是10餘位資料探勘領域資深專家和科研人員，10餘年大資料探勘諮詢與實施經驗結晶。從資料探勘的應用出發，以電力、航空、醫療、網際網路、生產製造以及公共服務等行業真實案例為主線，深入淺出介紹Python資料探勘建模過程，實踐性極強。本書共15章，分兩個部分：基礎

《Python資料分析與挖掘實戰》筆記（一）：資料探勘基礎

一、資料探勘的基本任務利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智慧推薦等方法，幫助企業提取資料中蘊含的商業價值，提升企業的競爭力。二、資料探勘建模過程定義挖掘目標：任務目標和完

Python資料分析與挖掘實戰—挖掘建模

常用的分類與預測演算法 1迴歸模型分類 1線性迴歸---自變數因變數線性關係，最小二乘法求解 2非線性迴歸--自變數因變數非線性關係，函式變換為線性關係，或非線性最小二乘方法求解 3logistic迴

Python資料分析與挖掘實戰（Pandas,Matplotlib常用方法）

作業系統：Windows Python：3.5 歡迎加入學習交流QQ群：657341423 上節講到資料分析和挖掘需要的庫，其中最主要的是Pandas,Matplotlib。 Pandas：主要是對資料分析，計算和統計，如求平均值，方差等。 Matplotl

Python資料分析與挖掘實戰程式碼糾錯程式碼3-1

我是通過這本書來開始學習資料探勘和分析，在目前學的內容中，發現了書上的程式碼有些地方是錯誤了，在此希望分享下我除錯好的程式碼，供大家參考，相互學習。 1、程式碼清單3-1 餐飲銷額資料異常值檢測程式碼書上的程式碼如下： #-*- coding: utf-

《Python資料分析與挖掘實戰》第8章——Apriori關聯規則

1 背景與目標分析

2 資料預處理

2.1 資料變換

2.1.1 資料離散化

2.1.2 劃分原始資料中的類別

3 模型建立

相關推薦