數據挖掘——親和性分析

阿新 • • 發佈：2017-05-14

基因 conf log 支持度用戶 continue 字典 rem 帶來

親和性分析根據樣本個體之間的相似度，確定它們關系的親疏。應用場景:

1.向網站用戶提供多樣化的服務或投放定向廣告。

2.為了向用戶推薦電影或商品

3.根據基因尋找有親緣關系的人

比如：統計顧客購買了商品1，然後再購買商品2的比率，算相似度。

import numpy as np
dataset_filename = "affinity_dataset.txt"
x = np.loadtxt(dataset_filename)
# print x[:5]
# 上述代碼的結果代表前5次交易中顧客購買了什麽。用“1”表示購買，“0”表示沒有購買。
# 這五種商品分別是：面包，牛奶，奶酪，蘋果和香蕉。 

# 現在我們要找出“如果顧客購買了商品x，那麽他們可能願意購買商品y”的規則（一條規則有前提條件和結論兩部分組成）。衡量一個規則的優劣通常有：支持度（指數據集中規則應驗的次數）和置信度（指規則準確率如何，計算方法是：規則應驗次數除以滿足前提條件的所有次數）。

# 舉個例子計算有多少人購買了蘋果。
num_apples_purchases = 0
for sample in x:
    if sample[3] == 1:
        num_apples_purchases += 1
# print "{0} people bought Apples".format(num_apples_purchases) 

# 接著我們計算有多少人購買了蘋果，後又購買了香蕉。同時計算支持度和置信度。
num_apples_bananas_purchases = 0
for sample in x:
    if sample[3] == 1 and sample[4] == 1:
        num_apples_bananas_purchases += 1
valid_rules = num_apples_bananas_purchases
num_occurances = num_apples_purchases
support = valid_rules
confidence = valid_rules/float(num_occurances)
 
print "{0} people bought Apples, but {1} people also bought bananas".format(num_apples_purchases, num_apples_bananas_purchases)
print "------"
# 支持度
print support
# 置信度
print "{0:.3f}".format(confidence)

# 我們接著將所有規則下的可能性都統計出來，找出親和性最高的幾個。首先，分為兩種：一種是規則應驗，一種是規則無效。分別創建字典。字典的鍵是由條件和結論組成的元組，元組元素為特征在特征列表中的索引值，比如“如果顧客買了蘋果，他們也會買香蕉”就用（3，4）表示。這裏使用defaultdict，好處是如果查找的鍵不存在，返回一個默認值。
from collections import defaultdict
features = ["bread", "milk", "cheese", "apple", "banana"]
valib_rules = defaultdict(int)
invalib_rules = defaultdict(int)
num_occurances = defaultdict(int)
# 依次對樣本的每個個體及個體的每個特征值進行處理。第一個特征為規則的前提條件。
for sample in x:
    for premise in xrange(4):
        if sample[premise] == 0:
            continue
        num_occurances[premise] += 1
        # 比如“顧客買了蘋果，他們也買了蘋果”，這樣的規則是沒有意義的。
        for conclusion in xrange(len(features)):
            if premise == conclusion:
                continue
            if sample[conclusion] == 1:
                valib_rules[(premise, conclusion)] += 1
            else:
                invalib_rules[(premise, conclusion)] += 1
support = valib_rules
confidence = defaultdict(float)
‘‘‘
for premise, conclusion in valib_rules.keys():
    rule = (premise, conclusion)
    confidence[rule] = valib_rules[rule] / num_occurances[premise]
‘‘‘
# 這樣我們就得到了支持度字典和置信度字典。我們再來創建一個函數，以便更加方便查看結果。
def print_rule(premise, conclusion, support, confidence, features):
    premise_name = features[premise]
    conclusion_name = features[conclusion]
    confidence[(premise, conclusion)] = valib_rules[(premise, conclusion)] / float(num_occurances[premise])
    print "Rule: If a person buys {0} they will also buy {1}".format(premise_name, conclusion_name)
    print "- Support: {0}".format(support[(premise, conclusion)])
    print "- Confidence: {0:.3f}".format(confidence[(premise, conclusion)])
if __name__ == "__main__":
    premise = 1
    conclusion = 3
    # print print_rule(premise, conclusion, support, confidence, features)

# 排序找出最佳的規則。對字典排序：首先字典的items（）函數返回包含字典所有元素的列表，再使用itemgetter（）類作為鍵，這樣就可以對嵌套列表進行排序了。
from operator import itemgetter
sorted_support = sorted(support.items(), key=itemgetter(1), reverse=True)
# 提取支持度最高的5條
for index in range(5):
    print "Rule #{0}".format(index + 1)
    premise, conclusion = sorted_support[index][0]
    print_rule(premise, conclusion, support, confidence, features)

# 總結親和性分析，可以清楚的看出哪兩種商品一起購買的幾率要大些，經理就可以根據這些規則來調整商品擺放的位置，從而為商家帶來更大的經濟效益。

affinity_dataset.txt

數據挖掘——親和性分析

基因 conf log 支持度用戶 continue 字典 rem 帶來親和性分析根據樣本個體之間的相似度，確定它們關系的親疏。應用場景: 1.向網站用戶提供多樣化的服務或投放定向廣告。 2.為了向用戶推薦電影或商品 3.根據基因尋找有親緣關系的人比如：統計顧客購買了

Python數據挖掘-相關性-相關分析

bsp 相關系數 div 相關性公式 nbsp font style afr 所需模塊 numpy、pandas 相關系數計算首先使用numpy.mean()方法求出均值，Xsd=numpy.std()方法求出標準差；然後在通過(X-Xmean)/Xsd公式求出z分數

數據挖掘——回歸分析2——簡單神經網絡的python實現

https src 簡單操作結果 core 縮放 sigmoid 神經元神經網絡(Artificial Neural Network)：全稱為人工神經網絡（ANN），是一種模仿生物神經網絡（動物的中樞神經系統，特別是大腦）的結構和功能的數學模型或計算模型。

數據挖掘——聚類分析總結

app 較差 dbscan repo scatter 結構計算公式 mage != 聚類分析一、概念　　聚類分析是按照個體的特征將他們分類，讓同一個類別內的個體之間具有較高的相似度，不同類別之間具有較大的差異性　　聚類分析屬於無監督學習　　聚類對象可以分為Q型聚類

花唄數據挖掘-破產情況分析

序列可能 matplot sim highlight 範圍標準差折線圖生活我也是剛開始學習數據分析，所以直方圖、柱形圖、折線圖這些也是挺蒙圈的，看視頻學學這個花唄模型還不錯 import numpy as np import pandas as pd i

python 數據較大性能分析

進行 .com pro 顯示 -1 匹配 fun 分析 nbsp 前提：若有一個幾百M的文件需要解析，某個函數需要運行很多次（幾千次），需要考慮性能問題性能分析模塊：cProfile 使用方法：cProfile.run("func()")，其中func()是進行性能分析的

Python和R數據挖掘分析技術高級公開課在上海舉行

python r數據挖掘分析技術高級公開課 2017年5月15日，Python和R數據挖掘分析技術培訓在上海開課。來自各企業的系統架構師、系統分析師、高級程序員、資深開發人員、大數據來源單位的負責人，參加了此次培訓。本次培訓中，老師將會針對具體實際問題與學員一起進行研究，在關鍵點上還會搭建

R語言數據挖掘中的，“回歸分析”是如何操作的？

r數據挖掘分析技術高級公開課回歸分析是對多個自變量(又稱為預測變量)建立一個函數來預測因變量(又稱為響應變量的值)。例如，銀行根據房屋貸款申請人的年齡、收入、開支、職業、負擔人口，以及整體信用限額等因素，來評估申請人的房貸風險。線性回歸線性回歸是利用預測變量的一個線性組合函數，來預測響應變量

地震數據挖掘分析系統（雲計算處理、智能挖掘技術）

數據挖掘項目實戰：地震數據挖掘分析系統（雲計算處理、智能挖掘技術）奉獻下載地址——https://pan.baidu.com/s/1o7AU2JC 密碼: ytj6 本課程由淺入深，全面、系統地介紹了大數據基礎、應用、管理、性能優化、數據庫的架構，環境搭建實例，編程實例等內容。課程中的每一章

PL1936-大數據快速數據挖掘平臺RapidMiner數據分析

class 成功過程視頻教程人工 ner 智能 con 試驗 PL1936-大數據快速數據挖掘平臺RapidMiner數據分析隨筆背景：在很多時候，很多入門不久的朋友都會問我：我是從其他語言轉到程序開發的，有沒有一些基礎性的資料給我們學習學習呢，你的框架感覺一下太大

數據挖掘算法：關聯分析一（基本概念）

latin ron 來看關聯 row 集中 items 多個可能性一.基本概念　　我們來看上面的事務庫，如同上表所示的二維數據集就是一個購物籃事務庫。該事物庫記錄的是顧客購買商品的行為。這裏的TID表示一次購買行為的編號，items表示顧客購買了哪些商品。　　事

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

Py：數據挖掘之對個人微信朋友圈好友的性別、區域、昵稱、簽名信息進行情感分析——Jason niu

簽名信息 col ram gif -s post 區域 ons AR #Py：數據挖掘之對微信朋友圈好友的性別、區域、昵稱、簽名信息進行情感分析——Jason niu import os import re import csv import time import jso

數據分析、數據挖掘、機器學習、神經網絡、深度學習和人工智能概念區別（入門級別）

新的簡單什麽 nbsp 駕駛 exce 小白數學未來數據分析，就是對數據進行分析，得出一些結論性的內容，用於決策。分析什麽哪？根據分析現狀、分析原因、預測未來。分析現狀和分析原因，需要結合業務才能解釋清楚。用到的技術比較簡單，最簡單的數據分析

網易遊戲數據挖掘分析筆試題

語句 border and 代碼實現 http center 程序金字塔 tar 一張數據表有三個字段，ID, gametime, coin，記錄用戶某次登錄的持續時長，以及在此次登錄中獲得的金幣總數，示例數據如下： ID Gametime

數據挖掘——統計學分析（三：數據的概括性度量）

none osi 計算公式中位數數據的分布 bsp 適用於對稱數組數據的概括性度量數據的分布特征可從三方面去描述：1）分布的集中趨勢，反映各數據向其中心值靠攏或聚集的程度； 2）分布的離散程度，反映各數據遠離其中心值的趨勢； 3）分布的形狀，反映數據分布

數據挖掘——統計學分析（五：統計量）

隨機模擬學分精確挖掘中位數試驗重復方差卡方統計量通過從總體中抽取樣本構造適當的統計量，由樣本性質推斷總體性質的樣本函數。常用的統計量1）樣本均值2）樣本方差、標準差3）樣本的變異系數——C=根號（D(x)）/E(x)4）k階距5）中心距6）樣本偏度7）樣本

數據挖掘與分析學習鏈接匯總

each循環 def 約束 docs 數據類型 efi foreach 經典 tail 最近在學習Sql Server的數據挖掘，為了方便歸納學習資料，我將看過的相關主題的文章的鏈接記錄在本篇文章內，以便後續溫習。在後續學習的過程當中，我會將我覺得比較經典的相關

吳裕雄數據挖掘與分析案例實戰（7）——嶺回歸與LASSO回歸模型

Y軸 otl error 處理回歸 models 關系 err idg # 導入第三方模塊import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn import mod

吳裕雄數據挖掘與分析案例實戰（6）——線性回歸預測模型

img rcp 圖例 his sha bubuko 數量 xlsx drop # 工作年限與收入之間的散點圖# 導入第三方模塊import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt #

數據挖掘——親和性分析

相關推薦