基於使用者的協同過濾演算法

阿新 • • 發佈：2018-12-17

基本思想

俗話說“物以類聚、人以群分”，拿看電影這個例子來說，如果你喜歡《蝙蝠俠》、《碟中諜》、《星際穿越》、《原始碼》等電影，另外有個人也都喜歡這些電影，而且他還喜歡《鋼鐵俠》，則很有可能你也喜歡《鋼鐵俠》這部電影。

所以說，當一個使用者 A 需要個性化推薦時，可以先找到和他興趣相似的使用者群體 G，然後把 G 喜歡的、並且 A 沒有聽說過的物品推薦給 A，這就是基於使用者的系統過濾演算法。

原理

根據上述基本原理，我們可以將基於使用者的協同過濾推薦演算法拆分為兩個步驟：

找到與目標使用者興趣相似的使用者集合
找到這個集合中使用者喜歡的、並且目標使用者沒有聽說過的物品推薦給目標使用者

1、發現興趣相似的使用者

通常用 Jaccard 公式或者餘弦相似度計算兩個使用者之間的相似度。設 N(u) 為使用者 u 喜歡的物品集合，N(v) 為使用者 v 喜歡的物品集合，那麼 u 和 v 的相似度是多少呢：

Jaccard 公式：在這裡插入圖片描述餘弦相似度：假設目前共有4個使用者： A、B、C、D；共有5個物品：a、b、c、d、e。使用者與物品的關係（使用者喜歡物品）如下圖所示：如何一下子計算所有使用者之間的相似度呢？為計算方便，通常首先需要建立“物品—使用者”的倒排表，如下圖所示：在這裡插入圖片描述然後對於每個物品，喜歡他的使用者，兩兩之間相同物品加1。例如喜歡物品 a 的使用者有 A 和 B，那麼在矩陣中他們兩兩加1。如下圖所示：

計算使用者兩兩之間的相似度，上面的矩陣僅僅代表的是公式的分子部分。以餘弦相似度為例，對上圖進行進一步計算：在這裡插入圖片描述

到此，計算使用者相似度就大功告成，可以很直觀的找到與目標使用者興趣較相似的使用者。

2、推薦物品

首先需要從矩陣中找出與目標使用者 u 最相似的 K 個使用者，用集合 S(u, K) 表示，將 S 中使用者喜歡的物品全部提取出來，並去除 u 已經喜歡的物品。對於每個候選物品 i ，使用者 u 對它感興趣的程度用如下公式計算：在這裡插入圖片描述其中 r_vi 表示使用者 v 對 i 的喜歡程度，因為使用的是單一行為的隱反饋資料，在本例中 r_vi 都是為 1，在一些需要使用者給予評分的推薦系統中，則要代入使用者評分。

舉個例子，假設我們要給 A 推薦物品，選取 K = 3 個相似使用者，相似使用者則是：B、C、D，那麼他們喜歡過並且 A 沒有喜歡過的物品有：c、e，那麼分別計算 p(A, c) 和 p(A, e)：在這裡插入圖片描述看樣子使用者 A 對 c 和 e 的喜歡程度可能是一樣的，在真實的推薦系統中，只要按得分排序，取前幾個物品就可以了。

python程式碼

# -*- coding: utf-8 -*-
"""
Created on Wed Oct 24 17:07:29 2018
@author: Administrator
"""
 
import random
import math
class UserBasedCF:
    def __init__(self,datafile = None):
        self.datafile = datafile
        self.readData()
        self.splitData(3,47)
    def readData(self,datafile = None):
        """
        read the data from the data file which is a data set
        """
        self.datafile = datafile or self.datafile
        self.data = []
        for line in open(self.datafile):
            userid,itemid,record,_ = line.split()
            self.data.append((userid,itemid,int(record)))
    def splitData(self,k,seed,data=None,M = 8):
        """
        split the data set
        testdata is a test data set
        traindata is a train set 
        test data set ：　train data set ＝　1:M-1
        """
        self.testdata = {}
        self.traindata = {}
        data = data or self.data
        random.seed(seed)
        for user,item, record in self.data:
            if random.randint(0,M) == k:
                self.testdata.setdefault(user,{})
                self.testdata[user][item] = record 
            else:
                self.traindata.setdefault(user,{})
                self.traindata[user][item] = record
    def userSimilarity(self,train = None):
        """
        One method of getting user similarity matrix
        """
        train = train or self.traindata
        self.userSim = dict()
        for u in train.keys():
            for v in train.keys():
                if u == v:
                    continue
                self.userSim.setdefault(u,{})
                self.userSim[u][v] = len(set(train[u].keys()) & set(train[v].keys()))
                self.userSim[u][v] /=math.sqrt(len(train[u]) * len(train[v]) *1.0)
    def userSimilarityBest(self,train = None):
        """
        the other method of getting user similarity which is better than above
        you can get the method on page 46
        In this experiment，we use this method
        """
        train = train or self.traindata
        self.userSimBest = dict()
        item_users = dict()
        for u,item in train.items():
            for i in item.keys():
                item_users.setdefault(i,set())
                item_users[i].add(u)
        user_item_count = dict()
        count = dict()
        for item,users in item_users.items():
            for u in users:
                user_item_count.setdefault(u,0)
                user_item_count[u] += 1
                for v in users:
                    if u == v:continue
                    count.setdefault(u,{})
                    count[u].setdefault(v,0)
                    count[u][v] += 1
        for u ,related_users in count.items():
            self.userSimBest.setdefault(u,dict())
            for v, cuv in related_users.items():
                self.userSimBest[u][v] = cuv / math.sqrt(user_item_count[u] * user_item_count[v] * 1.0)
 
    def recommend(self,user,train = None,k = 8,nitem = 40):
        train = train or self.traindata
        rank = dict()
        interacted_items = train.get(user,{})
        for v ,wuv in sorted(self.userSimBest[user].items(),key = lambda x : x[1],reverse = True)[0:k]:
            for i , rvi in train[v].items():
                if i in interacted_items:
                    continue
                rank.setdefault(i,0)
                rank[i] += wuv * rvi
        return dict(sorted(rank.items(),key = lambda x :x[1],reverse = True)[0:nitem])
    def recallAndPrecision(self,train = None,test = None,k = 8,nitem = 10):
        """
        Get the recall and precision, the method you want to know is listed 
        in the page 43
        """
        train  = train or self.traindata
        test = test or self.testdata
        hit = 0
        recall = 0
        precision = 0
        for user in train.keys():
            tu = test.get(user,{})
            rank = self.recommend(user, train = train,k = k,nitem = nitem) 
            for item,_ in rank.items():
                if item in tu:
                    hit += 1
            recall += len(tu)
            precision += nitem
        return (hit / (recall * 1.0),hit / (precision * 1.0))
    def coverage(self,train = None,test = None,k = 8,nitem = 10):
        train = train or self.traindata
        test = test or self.testdata
        recommend_items = set()
        all_items  = set()
        for user in train.keys():
            for item in train[user].keys():
                all_items.add(item)
            rank = self.recommend(user, train, k = k, nitem = nitem)
            for item,_ in rank.items():
                recommend_items.add(item)
        return len(recommend_items) / (len(all_items) * 1.0)
    def popularity(self,train = None,test = None,k = 8,nitem = 10):
        """
        Get the popularity
        the algorithm on page 44
        """
        train = train or self.traindata
        test = test or self.testdata
        item_popularity = dict()
        for user ,items in train.items():
            for item in items.keys():
                item_popularity.setdefault(item,0)
                item_popularity[item] += 1
        ret = 0
        n = 0
        for user in train.keys():
            rank = self.recommend(user, train, k = k, nitem = nitem)
            for item ,_ in rank.items():
                ret += math.log(1+item_popularity[item])
                n += 1
        return ret / (n * 1.0)
     
def testRecommend():
    ubcf = UserBasedCF('data.txt')
    ubcf.readData()
    ubcf.splitData(4,100)
    ubcf.userSimilarity()
    user = "345"
    rank = ubcf.recommend(user,k = 3)
    for i,rvi in rank.items():
        items = ubcf.testdata.get(user,{})
        record = items.get(i,0)
        print ("%5s: %.4f--%.4f" %(i,rvi,record))
def testUserBasedCF():
    cf  =  UserBasedCF('data.txt')
    cf.userSimilarityBest()
    print ("%3s%20s%20s%20s%20s" % ('K',"recall",'precision','coverage','popularity'))
    for k in [5,10,20,40,80,160]:
        recall,precision = cf.recallAndPrecision( k = k)
        coverage = cf.coverage(k = k)
        popularity = cf.popularity(k = k)
        print ("%3d%19.3f%%%19.3f%%%19.3f%%%20.3f" % (k,recall * 100,precision * 100,coverage * 100,popularity))
         
if __name__ == "__main__":
    testUserBasedCF()

參考文獻1

參考文獻2

基於使用者的協同過濾演算法

基本思想

原理

1、發現興趣相似的使用者

2、推薦物品

python程式碼

基於使用者的協同過濾演算法實現的商品推薦系統

3、前奏之基於物品的協同過濾演算法：ItemsCF

推薦系統（一）基於協同過濾演算法開發離線推薦

基於協同過濾演算法的推薦

吳恩達機器學習（十四）推薦系統（基於梯度下降的協同過濾演算法）

基於使用者的協同過濾演算法

Java推薦系統-基於使用者的最近鄰協同過濾演算法

基於線上評分的協同過濾演算法---Slope One演算法

基於協同過濾演算法構建推薦系統

基於使用者最近鄰模型的協同過濾演算法的Python程式碼實現

利用Python實現基於協同過濾演算法的影片推薦

【推薦演算法】協同過濾演算法——基於使用者 Java實現

協同過濾演算法概述與python 實現協同過濾演算法基於內容（usr-item,item-item）

基於使用者的協同過濾演算法(Java實現或R語言實現

基於鄰域的協同過濾演算法（一）

基於改進的協同過濾演算法的使用者評分預測模型

Mahout基於使用者的協同過濾演算法的例子

基於近鄰使用者協同過濾演算法的音樂推薦系統

資料探勘--協同過濾演算法，基於集合交集相似性計算的mapreduce演算法設計

Mahout系列之推薦演算法-基於物品協同過濾實踐

基於使用者的協同過濾演算法

基本思想

原理

1、發現興趣相似的使用者

2、推薦物品

python程式碼

相關推薦