資料探勘 | 親和性分析（一）

阿新 • • 發佈：2019-01-31

首先解釋一下什麼是親和性

舉一個簡單的例子：當顧客在購買一件商品時，往往還會購買另一件商品。比如我們買了麵包就還會買牛奶，買了刀就還會買叉子等等。也就是說，顧客買了商品A，還會購買商品B，這就是親和性的簡單例子

那麼，親和性分析就是對這種規律進行分析，商家就可以將這些同時購買的物品放在一起以提升銷售額啦。當然，實際上的應用遠遠不止這些。親和性分析其實就是根據樣本個體之間的相似度，確定它們關係的親疏。像我們平時看到的電影推薦，廣告推薦等等，就是親和性分析的應用

下面開始分析一個簡單的資料集，來實現商品推薦

資料集

這裡每一列表示為一種商品，分別為麵包、牛奶、乳酪、蘋果和香蕉

每一行為一次購買記錄，1表示購買，0表示未購買

下面開始用Python對這個資料集進行分析

載入資料集

環境：Python3.6

使用模組：numpy

	#coding: utf-8#coding: utf-8
	import numpy as np
	# 定義資料集檔名
	dataset_filename = "affinity_dataset.txt"
	# 載入資料集
	X = np.loadtxt(dataset_filename)
	# 列印資料集,行為交易資訊，列為商品，各列假設為麵包、牛奶、乳酪、蘋果和香蕉，1表示購買 

	n_samples, n_features = X.shape
	print("資料集共有{0}個樣本和{1}個分支".format(n_samples, n_features))
	print(X)

執行結果為:

簡單的資料查詢

現在來一個很簡單的資料查詢，那就是查詢一下有多少位顧客購買了蘋果

    # 查詢多少顧客購買了蘋果
	num_apple_purchases = 0  # 初始化
	for sample in X:
	    if sample[3] == 1:
	        num_apple_purchases += 1
	print("共有{0}人購買了蘋果".format 
(num_apple_purchases))

思路很簡單，若每一行第四列的值為1時，變數num_ apple_ purchases的值加一

那麼最終的值即為購買蘋果人數

執行結果為：共有39人購買了蘋果

規則查詢及優劣判斷

現在，開始來尋找一個規則

如果顧客購買了蘋果，那麼他們還購買了香蕉

用程式碼實現很簡單，其實就是統計資料集中第四列和第五列同為1的次數即可

這裡還要補充一下規則的優劣的衡量，常用的是支援度和置信度

比較簡單的支援度即資料集中規則應驗的次數，也就是成立了幾條，就是支援度

置信度就是規則成立的比例，也就是前提成立時這條規則應驗次數佔所有次數的比例

知道了這些，現在開始用程式碼來實現

# 查詢多少人既買了蘋果又買了香蕉，並記錄下規則有效和規則無效的次數
	rule_valid = 0
	rule_invalid = 0
	for sample in X:
	    if sample[3] == 1:   # 購買蘋果
	        if sample[4] == 1:  # 購買香蕉
	            rule_valid += 1  # 規則成立，次數加一
	        else:
	            rule_invalid += 1  # 否則規則不成立
	print("共有{0}人既買了蘋果又買了香蕉".format(rule_valid))
	print("共有{0}人買了蘋果但沒買香蕉".format(rule_invalid))

    # 計算支援度和置信度
	support = rule_valid  # 支援度即規則有效次數
	confidence = rule_valid / num_apple_purchases  # 置信度即規則有效比例
	print("支援度為：{0}，置信度為：{1:.3f}.".format(support, confidence))
	# 置信度表示為百分比形式
	print("置信度為：{0:.1f}%.".format(100 * confidence))

執行結果為：

共有24人既買了蘋果又買了香蕉

共有15人買了蘋果但沒買香蕉

支援度為：24，置信度為：0.615

置信度為：61.5%.

通過分析，我們知道了“如果顧客購買了蘋果，那麼他們還購買了香蕉”這條規則支援度為24,置信度為0.615。但這只是所有規則中的一種規則，還有其他規則我們還沒有分析。所以，下一次，將會講如何統計所有規則

資料探勘 | 親和性分析（一）

首先解釋一下什麼是親和性舉一個簡單的例子：當顧客在購買一件商品時，往往還會購買另一件商品。比如我們買了麵包就還會買牛奶，買了刀就還會買叉子等等。也就是說，顧客買了商品A，還會購買商品B，這就是親和性的簡單例子那麼，親和性分析就是對這種規律進行分析，商家就

資料探勘 | 親和性分析（三）

既然統計出所有規則的支援度和置信度，那麼我們就想知道到底哪一條規則是支援度或置信度最高的，以便商家分析出顧客的習慣。首先我們要給支援度和置信度字典進行排序這裡需要用到operator模組的itemgetter函式 # 對支援度字典進行排序 from oper

資料探勘 | 親和性分析（二）

上回講了親和性分析的簡單分析，但只計算了一條規則的支援度和置信度，現在來說說怎麼計算所有規則的支援度和置信度首先先建立字典，分別建立有效規則字典、無效規則字典以及條件相同的規則數量 # 建立字典，儲存規則有效資料及無效資料 from collection

資料探勘入門系列教程（一）之親和性分析

資料探勘入門系列教程（一）之親和性分析教程系列簡介系列地址：https://www.cnblogs.com/xiaohuiduan/category/1661541.html 該教程為入門教程，為博主學習資料探勘的學習路徑步驟。教程為入門教程，從最簡單的開始。使用的程式語言為Pytho

【機器學習】資料探勘演算法——關聯規則（一），相關概念，評價指標

綜述：資料探勘是指以某種方式分析資料來源，從中發現一些潛在的有用的資訊，所以資料探勘又稱作知識發現，而關聯規則挖掘則是資料探勘中的一個很重要的課題，顧名思義，它是從資料背後發現事物之間可能存在的關聯或者聯絡。關聯規則的目的在於在一個數據集中找出項之間的關

資料探勘導論學習筆記（一）

第一章緒論資料探勘：在大型資料儲存庫中，自動的發現有用資訊的過程。資料庫中知識發現過程（KDD）：輸入資料—>資料預處理---->資料探勘---->後處理---->資訊資料預處理：特徵選擇，維規約，規範集，選擇資料子集後處理：

資料探勘十大演算法（一）：決策樹演算法 python和sklearn實現

學完到第三章——決策樹，python程式碼實現的僅是ID3演算法，sklearn為優化過的C4.5，這裡做一個詳細的總結包括（原理、程式碼、視覺化、scikit-learn實現），皆為親自實踐後的感悟。以下進入正文。早前簡單瞭解了決策樹的原理，然後為了儘快使用便沒有深究直

資料探勘01---文字分析（jieba分詞和詞雲繪製）

一、定義：文字挖掘：從大量文字資料中抽取出有價值的知識，並且利用這些知識重新組織資訊的過程。二、語料庫（Corpus）語料庫是我們要分析的所有文件的集合。 import os import os.path filePaths = [] #定義一個數組變數 #再用

基於R的資料探勘方法與實踐（3）——決策樹分析

決策樹構建的目的有兩個——探索與預測。探索方面，參與決策樹聲場的資料為訓練資料，待樹長成後即可探索資料所隱含的資訊。預測方面，可以藉助決策樹推匯出的規則預測未來資料。由於需要考慮未來資料進入該模型的分類表現，因此在基於訓練資料構建決策樹之後，可以用測試資料來衡量該模型的穩健

【機器學習】資料探勘演算法——關聯規則（二），挖掘過程，Aprioir演算法

關聯規則挖掘的原理和過程從關聯規則（一）的分析中可知，關聯規則挖掘是從事務集合中挖掘出這樣的關聯規則：它的支援度和置信度大於最低閾值（minsup,minconf），這個閾值是由使用者指定的。根據 support=(X,Y).count/T.countsupp

基於R的資料探勘方法與實踐（1）——資料準備

1、資料檢查資料檢查是資料探勘的第1步，從不同的維度檢查資料，找出其中有問題的資料以便對其進行修正。 1.1 資料型別檢視資料的構成與形態，尤其是各列的屬性。 > library(MASS) > data(ChickWeight) > str(Chic

資料探勘十大演算法（九）：樸素貝葉斯 python和sklearn實現

第三個演算法終於算是稍有了解了，其實當你結合資料瞭解了它的實現原理後，你會發現確實很樸素。這裡對樸素貝葉斯演算法做一個介紹和總結，包括（原理、一個程式碼示例、sklearn實現），皆為親自實踐後的感悟，下面進入正文。原理：首先我們需要了解概率論的一些簡單知識：

資料探勘十大演算法（五）：EM(Expectation Maximum)演算法原理與Python實現

參考：一、一個簡單的概率問題實驗：現在有A和B兩個硬幣，我們從這兩個硬幣中，隨機選取5次，做5組實驗，每組實驗內容是：丟擲所選的硬幣，記錄正反面。實驗資料如下：目標：根據所得到的實驗資料，分別求出硬幣A和B丟擲後正面向上的概率。根據古典概率的原

資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現

一、條件概率的定義與貝葉斯公式二、樸素貝葉斯分類演算法樸素貝葉斯是一種有監督的分類演算法，可以進行二分類，或者多分類。一個數據集例項如下圖所示：現在有一個新的樣本， X = (年齡：<=30, 收入：中，是否學生：是，信譽：中)，目標是利用樸素貝

基於R的資料探勘方法與實踐（2）——關聯規則

關聯規則是從龐大的資料中提取一系列變數或因子間關係，以探索資料的變數或專案間隱含的關係。 1、基本原理關聯規則通常用支援度、置信度、增益三個指標來分別表示其顯著性、正確性和價值。通過給性最小支援度、最小置信度作為門檻值。若該規則的支援度與置信度大於門檻值，則說明該規則有助

資料探勘-目錄-特徵處理（feature）

Feature Extractors（特徵提取） TF TF-IDF Word2Vec CountVectorizer Feature Transformers（特徵變換） Tokenizer（分詞器）

Thinking in BigData（12）大資料之有指導資料探勘方法模型序（3）

接著上面部落格繼續探討：有指導資料探勘方法模型步驟 5、修復問題資料所有資料都是髒的。所有的資料都是有問題。究竟是不是問題有時可能隨著資料探勘技術的變化而變化。對於某些技術，例如決策樹，缺失值和離群點並不會造成很大的麻煩，但是對於其他技術，

資料探勘入門系列教程（二）之分類問題OneR演算法

資料探勘入門系列教程（二）之分類問題OneR演算法資料探勘入門系列部落格：https://www.cnblogs.com/xiaohuiduan/category/1661541.html 專案地址：GitHub 在上一篇部落格中，我們通過分析親和性來尋找資料集中資料與資料之間的相關關係。這篇部落

資料探勘入門系列教程（三）之scikit-learn框架基本使用（以K近鄰演算法為例）

資料探勘入門系列教程（三）之scikit-learn框架基本使用（以K近鄰演算法為例）簡介scikit-learn 估計器載入資料集進行fit訓練設定引數預處理流水線結尾資料探勘入門系列教程（三）之scikit-learn框架基本使用（以K近鄰演算法為例）資料探勘入門系列部落格：https://

資料探勘入門系列教程（四）之基於scikit-lean實現決策樹

資料探勘入門系列教程（四）之基於scikit-lean決策樹處理Iris載入資料集資料特徵訓練隨機森林調參工程師結尾資料探勘入門系列教程（四）之基於scikit-lean決策樹處理Iris 在上一篇部落格，我們介紹了決策樹的一些知識。如果對決策樹還不是很瞭解的話，建議先閱讀上一篇部落格，在來學習這

資料探勘 | 親和性分析（一）

資料集

載入資料集

簡單的資料查詢

規則查詢及優劣判斷

相關推薦