【知識發現】隱語義模型LFM演算法python實現(二)

阿新 • • 發佈：2019-01-26

http://blog.csdn.net/fjssharpsword/article/details/78015956

基於該篇文章中的程式碼優化，主要是在生成負樣例上提高執行速度，程式碼參考如下：

# -*- coding: utf-8 -*-
'''
Created on 2017年10月16日

@author: Administrator
'''
import numpy as np
import pandas as pd
from math import exp
import time
import math

class LFM:
    
    def __init__(self,lclass,iters,alpha,lamda,topk,ratio,traindata):
        self.lclass = lclass#隱類數量，對效能有影響
        self.iters = iters#迭代次數，收斂的最佳迭代次數未知
        self.alpha =alpha#梯度下降步長
        self.lamda = lamda#正則化引數
        self.topk =topk #推薦top k項
        self.ratio =ratio #正負樣例比率，對效能最大影響
        self.traindata=traindata
        
    #初始化開始.....    
    def getUserPositiveItem(self, userid):#生成正樣例
        traindata=self.traindata
        series = traindata[traindata['userid'] == userid]['itemid']
        positiveItemList = list(series.values)
        return positiveItemList

    def getUserNegativeItem(self, userid):#生成負樣例
        traindata=self.traindata
        itemLen=self.itemLen
        ratio=self.ratio
        userItemlist = list(set(traindata[traindata['userid'] == userid]['itemid'])) #使用者評分過的物品
        negativeItemList = []
        count =  ratio*len(userItemlist)#生成負樣例的數量
        for key,value in itemLen.iteritems():#itemLen.index
            if count==0:
                break
            if key in userItemlist:
                continue
            negativeItemList.append(key)
            count=count-1
        return negativeItemList    
    
    def initUserItem(self, userid):
        #traindata=self.traindata
        positiveItem = self.getUserPositiveItem( userid)
        negativeItem = self.getUserNegativeItem( userid)
        itemDict = {}
        for item in positiveItem: itemDict[item] = 1
        for item in negativeItem: itemDict[item] = 0
        return itemDict
    
    def initModel(self):
        traindata=self.traindata
        lcalss=self.lclass #隱類數量
        userID = list(set(traindata['userid'].values))
        self.userID=userID
        itemID = list(set(traindata['itemid'].values))
        self.itemID=itemID
        itemCount=[len(traindata[traindata['itemid'] == item]['userid']) for item in itemID ]
        self.itemLen = pd.Series(itemCount, index=itemID).sort_values(ascending=False)#統計每個物品對應的熱門度（次數並降序
        #初始化p、q矩陣
        arrayp = np.random.rand(len(userID), lcalss) #構造p矩陣，[0,1]內隨機值
        arrayq = np.random.rand(lcalss, len(itemID)) #構造q矩陣，[0,1]內隨機值
        p = pd.DataFrame(arrayp, columns=range(0,lcalss), index=userID)
        q = pd.DataFrame(arrayq, columns=itemID, index=range(0,lcalss))
        #生成負樣例
        userItem = []
        for userid in userID:
            itemDict = self.initUserItem(userid)
            userItem.append({userid:itemDict})
        return p, q, userItem
    #初始化結束.....  
    def sigmod(self,x):
        # 單位階躍函式,將興趣度限定在[0,1]範圍內
        y = 1.0/(1+exp(-x))
        return y
    
    def lfmPredict(self,p, q, userID, itemID):
        #利用引數p,q預測目標使用者對目標物品的興趣度
        p = np.mat(p.ix[userID].values)
        q = np.mat(q[itemID].values).T
        r = (p * q).sum()
        r = self.sigmod(r)
        return r
   
    def latenFactorModel(self):
        #traindata=self.traindata
        lclass=self.lclass
        iters=self.iters #迭代次數
        alpha = self.alpha #梯度下降步長
        lamda = self.lamda #正則化引數
        p, q, userItem = self.initModel()
        for step in range(0, iters):
            for user in userItem:
                for userID, samples in user.items():
                    for itemID, rui in samples.items():
                        eui = rui - self.lfmPredict(p, q, userID, itemID)
                        for f in range(0, lclass):
                            #print('step %d user %d class %d' % (step, userID, f))
                            p[f][userID] += alpha * (eui * q[itemID][f] - lamda * p[f][userID])
                            q[itemID][f] += alpha * (eui * p[f][userID] - lamda * q[itemID][f])
            alpha *= 0.9#學習速率
        return p, q
    
    def recommend(self,userid,p,q):
        itemID=self.itemID
        Topk=self.topk
        #traindata=self.traindata
        #userItemlist = list(set(traindata[traindata['userid'] == userid]['itemid']))
        #otherItemList = [item for item in set(traindata['itemid'].values) if item not in userItemlist]
        predictList = [self.lfmPredict(p, q, userid, itemid) for itemid in itemID]
        series = pd.Series(predictList, index=itemID)
        series = series.sort_values(ascending=False)[:Topk]
        return series
    
    def recallAndPrecision(self,p,q):#召回率和準確率
        traindata = self.traindata
        #itemID=self.itemID
        userID=self.userID
        hit = 0
        recall = 0
        precision = 0
        for userid in userID:
            trueItem = traindata[traindata['userid'] == userid]['itemid']
            preitem=self.recommend(userid, p, q)
            preItem=list(preitem.index)
            for item in preItem:
                if item in trueItem:
                    hit += 1
            recall += len(trueItem)
            precision += len(preItem)
        return (hit / (recall * 1.0),hit / (precision * 1.0))
    
    def coverage(self,p,q):#覆蓋率
        traindata = self.traindata
        recommend_items = set()
        all_items = set()
        userID=self.userID
        for userid in userID:
            trueItem = traindata[traindata['userid'] == userid]['itemid']
            for item in trueItem:
                all_items.add(item)
            preitem = self.recommend(userid, p, q)
            preItem=list(preitem.index)
            for item in preItem:
                recommend_items.add(item)
        return len(recommend_items) / (len(all_items) * 1.0)
    
    def popularity(self,p,q):#流行度
        #traindata = self.traindata
        itemLen=self.itemLen
        #itemID=self.itemID
        userID=self.userID
        ret = 0
        n = 0
        for userid in userID:
            preitem = self.recommend(userid, p, q)
            preItem=list(preitem.index)
            for item in preItem:
                ret += math.log(1+itemLen[item])
                n += 1
        return ret / (n * 1.0)
 
if __name__ == "__main__":   
    start = time.clock()  
    
    #匯入資料
    #df_sample = pd.read_csv("D:\\dev\\workspace\\PyRecSys\\demo\\ratings.csv",names=['userid','itemid','ratings'],header=0)
    df_sample = pd.read_csv("D:\\tmp\\ratings.csv",names=['userid','itemid','ratings'],header=0)
    traindata=df_sample[['userid','itemid']]  
    for ratio in [1,2,3,5,10,20]:
            for lclass in [5,10,20,30,50]:     
                lfm=LFM(lclass,2,0.02,0.01,10,ratio,traindata)  #隱類引數
                p,q=lfm.latenFactorModel()
                #推薦
                #preitem = lfm.recommend(1, p, q)
                #print (preitem)
                #模型評估
                print ("%3s%20s%20s%20s%20s%20s" % ('ratio','lcalss',"recall",'precision','coverage','popularity'))
                recall,precision = lfm.recallAndPrecision(p,q)
                coverage =lfm.coverage(p,q)
                popularity =lfm.popularity(p,q)
                print ("%3d%20d%19.3f%%%19.3f%%%19.3f%%%20.3f" % (ratio,lclass,recall * 100,precision * 100,coverage * 100,popularity))

    end = time.clock()    
    print('finish all in %s' % str(end - start))

關注三點：
1）效能受正負樣例比率、隱類數量影響最大，要訓練出一個最佳引數。
2）對於梯度下降的收斂條件，即迭代次數，限定步長為0.02，迭代次數n要訓練出一個最佳值。
3）對於增量資料的訓練：儲存p、q矩陣，對於增量樣本集，可以在p、q基礎上訓練，有待實踐驗證，避免每次全量訓練耗費效能。

【知識發現】隱語義模型LFM演算法python實現(二)

http://blog.csdn.net/fjssharpsword/article/details/78015956 基於該篇文章中的程式碼優化，主要是在生成負樣例上提高執行速度，程式碼參考如下： # -*- coding: utf-8 -*- ''' Created o

【知識發現】隱語義模型LFM演算法python實現(三)

http://blog.csdn.net/fjssharpsword/article/details/78257126 基於上篇再優化。 1、回顧LFM原理，可以更好地理解程式碼對於一個給定的使用者行為資料集（資料集包含的是所有的user, 所有的item，以及每個us

隱語義模型LFM

1、概述該演算法的理論基礎是運用矩陣分解，把使用者評分矩陣R分解為兩個低維矩陣，然後用這兩個低維矩陣去估計目標使用者對專案的評分。傳統的協同過濾演算法是利用使用者的歷史行為，來預測使用者對目標使用者的評分。需要在整個使用者空間上去尋找最近鄰居。隨著電子商務的不斷髮展，使

【資料結構】十一種排序演算法C++實現

練習了十一種排序演算法的C++實現：以下依次為，冒泡、選擇、希爾、插入、二路歸併、快排、堆排序、計數排序、基數排序、桶排序，可建立sort.h和main.cpp將程式碼放入即可執行。如有錯誤，請指出更正，謝謝交流。 // sort.h # include <

項亮《推薦系統實踐》——使用LFM隱語義模型進行Top-N推薦

使用LFM（Latent factor model）隱語義模型進行Top-N推薦最近在拜讀項亮博士的《推薦系統實踐》，系統的學習一下推薦系統的相關知識。今天學習了其中的隱語義模型在Top-N推薦中的應用，在此做一個總結。隱語義模型LFM和

【知識學習】Sublime Text 快捷鍵精華版

輸入效果不同的文件夾 nbsp enter 尾插文件瀏覽相同 1 Sublime Text 3 快捷鍵精華版 2 Ctrl+Shift+P：打開命令面板 3 Ctrl+P：搜索項目中的文件 4 Ctrl+G：跳轉到第幾行 5 Ctrl+W：關

【oracle入門】數據模型

平臺數據庫管理層次要素數據庫管理系統 left 世界 pan 概念數據模式也是一這種模型，它是數據庫中用於提供信息表示的操作手段的形式架構，是數據庫中用來對現實世界驚喜抽象的工具。數據模型按不同的應用層次分為3種類型，分別為概念數據模型、邏輯數據模型、物理數據模型

【深度學習】常用的模型評估指標

是我初學者 cnblogs 沒有線下均衡顯示總數效果 “沒有測量，就沒有科學。”這是科學家門捷列夫的名言。在計算機科學中，特別是在機器學習的領域，對模型的測量和評估同樣至關重要。只有選擇與問題相匹配的評估方法，我們才能夠快速的發現在模型選擇和訓練過程中可能出現的

【知識小結】Git 個人學習筆記及心得

art over round TP 緩存 PE QQ 的區別 rda https://mp.weixin.qq.com/s/D96dXYfu3XAA4ac456qo0g git架構工作區：就是你在電腦裏能看到的目錄。版本庫：工作區有一個隱藏目錄.git，，而是

【資料倉庫】1.資料模型

0x00 前言翻出來之前零零散散寫的資料倉庫的內容，重新修正整理成一個系列，此為第一篇《資料模型》。資料倉庫包含的內容很多，比如系統架構、建模和方法論。對應到具體工作中的話，它可以包含下面的這些內容：以Hadoop、Spark、Hive等元件為中心的資料架構體系

學習筆記（十二）：推薦系統-隱語義模型

#程式碼摘自唐宇迪《推薦系統》視訊課程，資料集來自http://pan.baidu.com/s/1eS5VZ8Y中的“ml-1m"資料 from collections import deque from six import next import readers import tensor

【知識總結】快速傅立葉變換（FFT）

這可能是我第五次學FFT了……菜哭qwq 先給出一些個人認為非常優秀的參考資料：一小時學會快速傅立葉變換（Fast Fourier Transform） - 知乎小學生都能看懂的FFT！！！ - 胡小兔 - 部落格園快速傅立葉變換（FFT）用於計算兩個\(n\)次多項式相乘，能把複雜度從樸素的\

【知識積累】Linux Confluence檔案內容不能預覽

1、檢視作業系統是否有中文字型 fc-list 2、安裝字型庫 yum -y install fontconfig 2.1、安裝成功 2.2、檢視相關目錄 3、新增中文字型 3.1、在fonts目錄下新建windowsfonts目錄

【知識積累】共享鎖和排他鎖

共享鎖，又稱為讀鎖，獲得共享鎖之後，可以檢視但無法修改和刪除資料。排他鎖，又稱為寫鎖、獨佔鎖。獲准排他鎖後，既能讀資料，又能修改資料。為什麼要加鎖很多人都知道，鎖，是用來解決併發問題的，那麼什麼是併發問題呢？併發情況下，不加鎖會有什麼問題呢？拿日常生活中的洗手間舉例子，每個洗手間都會

【知識積累】Lombok

安裝：https://blog.csdn.net/dorothy1224/article/details/79280591/ cmd 進入jar包目錄執行java -jar lombok.jar 進入安裝頁面

【知識積累】Alibaba druid配置

1、官方網站 https://github.com/alibaba/druid/wiki/%E9%A6%96%E9%A1%B5 2、下載 http://repo1.maven.org/maven2/com/alibaba/druid/ <dependency>

【知識積累】一、設計模式（建立型）

定義公共介面和實現類：一、工廠方法模式（Factory Method） 1、普通工廠模式 2、多工廠方法模式 3、靜態工廠方法模式二、抽象工廠模式（Abstract Factory）三、建造者模式（Builder）

【知識積累】一、設計模式

一、分類 1、建立型（5）工廠方法模式、抽象工廠模式、建造者模式、原型模式、單例模式。 2、結構型（7）介面卡模式、裝飾器模式、代理模式、外觀模式、橋接模式、組合模式、享元模式。 3、行為型模式（11）策略模式、模板方法模式、觀察者模式、迭代子模式、責任鏈模式、命令模式、備忘錄

【知識積累】Quartz的使用

一、cron表示式格式：【秒】【分】【時】【日】【月】【周】【年】說明必填範圍萬用字元秒 Y 0~59 , - * / 分 Y 0~

【知識發現】隱語義模型LFM演算法python實現(二)

相關推薦