基於模型融合的推薦系統實現(1)：基於SGD的PMF

阿新 • • 發佈：2018-10-31

(1)PMF演算法

PMF的基本的思路,就是定義兩個基本的引數W,U,然後對於任意一個組合(u,m),利用 $W^i*U^j$ ,來獲取預測值。這些基本的演算法思路網上很多,就不細說了。簡單說一下程式

[0]:一開始我們要將訓練資料劃分為3部分,第一部分用來做普通的SGD訓練,第二部分用來訓練模型融合,第三部分用來測試RMSE。

[1]:我們利用SGD(隨機梯度下降)來訓練函式,最後就可以得到W，U，為了更好的效果,還添加了偏置引數bu,bi，也要訓練得到

[2]:初始值問題,我們隨機生成引數,並且正比於 $1/\sqrt{k}$

.

[3]:最後是學習速率的變化,我簡單的每次都乘以0.9。但是這裡有好幾種辦法:

$method 1:$ 我們可以用啟發式的演算法來更新學習速率.當RMSE變大的時候就要減少速率,反之可以增大。

$method2:$ 讓學習速率等於 $\frac{\alpha_0}{1+iter*d}$ ,d是一個常數用來條件減小的速度,隨著迭代的增加學習速率會越來越小。

[4]另外為了加快訓練的速度,避免每次訓練都要重頭開始,我將訓練的結果儲存在文本里面,每次重新讀取即可。所以這也增加了編寫程式的複雜度

[5]可以優化的地方:為了避免偏導數進入一個長期平滑的區域,我們可以引入動量這個引數,叫做momentum,每次偏導不光等於它的數學表示式,而是等於 $partial_d = partial_d*momentum + expression$ ,這樣可以加快收斂,在這裡我就沒有實現了。但是實現也比較簡單。

下面是程式碼,分割檔案的程式碼在最後給出

import numpy
from queue import PriorityQueue
from collections import Iterable,Counter,namedtuple,ChainMap,defaultdict
from 
 functools import reduce
from itertools import groupby,chain,compress
from statistics import mean
from code import read_file

def get_train(path=r'smaller_train.txt'):
    train = defaultdict(dict)
    for uid,iid,r in read_file(path):
        train[uid][iid] = r
    return train
def write_file(data,path):
    with open(path,'w') as f:
        pass

    with open(path,'a') as file:
        for u_i,modelitems in data.items():
            if isinstance(modelitems,Iterable):
                file.write('{0} '.format(u_i)+' '.join(('{0:.2f}'.format(x) for x in modelitems))+'\n')
            else:
                file.write('{0} '.format(u_i)+'{0:.3f}'.format(modelitems)+'\n')
def LFM(train,F,N,alpha,_lambda):

    (p,q,bu,bi) = init(train,F)
    for step in range(0,N):
        print(step)
        print(bu[1],p[1][1])
        for u,user_items in train.items():
            pu = p[u]
            for i,r in user_items.items():
                pui = predict(u,i,p,q,bu,bi)
                eui = r - pui

                bu[u] = alpha*(eui-_lambda*bu[u])
                bi[i] = alpha*(eui-_lambda*bi[i])
                qi = q[i]
                for f in range(F):
                    pu[f] += alpha*(qi[f]*eui - _lambda*pu[f])
                    qi[f] += alpha*(pu[f]*eui - _lambda*qi[f])
        alpha *= 0.9
        write_file(p,'p{}.txt'.format(F))
        write_file(q,'q{}.txt'.format(F))
        write_file(bu,'bu{}.txt'.format(F))
        write_file(bi,'bi{}.txt'.format(F))
    return bu,bi,p,q

def predict(u,i,p,q,bu,bi):
    try:
        pu,qi,bu_,bi_= p[u],q[i],bu[u],bi[i]
    except:
        return None
    return sum(pu[f]*qi[f] for f in range(len(pu)))+bu_+bi_

def init(train,F):
    import random
    p,q = dict(),dict()
    bu,bi = dict(),dict()
    for u in train:
        p[u] = [random.random()/(F)**(0.5) for x in range(F)]
        bu[u] = 0
        for i in train[u]:
            if i not in q:
                bi[i] = 0
                q[i] = [random.random()/(F)**(0.5) for x in range(F)]
    return p,q,bu,bi

def get_pq(sep = '\t',index = 5):
    import re
    p,q,bu,bi = dict(),dict(),dict(),dict()
    p_name,q_name,bu_name,bi_name = 'p{0}.txt'.format(index),'q{0}.txt'.format(index),'bu{0}.txt'.format(index),'bi{0}.txt'.format(index)
    name = [p_name,q_name,bu_name,bi_name]
    for x,_name in zip([p,q,bu,bi],name):
        with open(_name) as p_f:
            for line in p_f:
                line = re.split(r'[;,\s\t\n]\s*',line)
                line = [x for x in line if x!='']
                uid = int(line[0])
                x[uid] = list(map(float,line[1:])) if len(line)!=2 else float(line[1])
    return p,q,bu,bi

def REMS(p,q,bu,bi):
    error = 0
    cnt = 0
    mmin = 10;mmax = 0;
    for uid,iid,r in read_file(r'smaller_test.txt'):
        pr = predict(uid,iid,p,q,bu,bi)
        if pr==None:continue
        if pr<1:pr = 1.0
        if pr>5:pr=5.0
        error += (r-pr)**2
        cnt += 1
    print(cnt,error,(error/cnt)**0.5)

if __name__ == '__main__':
    k = 50
    LFM(get_train(),k,50,0.02,0.01)
    p,q,bu,bi = get_pq(index=k)
    REMS(p,q,bu,bi)

用來分隔檔案,讀取檔案

import numpy
from queue import PriorityQueue
from collections import Iterable,Counter,namedtuple,ChainMap,defaultdict
from functools import reduce
from itertools import groupby,chain,compress
from statistics import mean
import re

def read_file(r_path,sep='\t',num = 3):
    with open(r_path) as file:
        for line in file:
            line = re.split(r'[;,\s\t\n]\s*',line)
            line = [x for x in line if x!='']
            uid,iid = int(line[0]),int(line[1])
            if num==2:
                yield uid,iid#return uid,item id in test file
            else:
                yield uid,iid,float(line[2])#return uid,item id,rating

def write_file(w_path,data):

    with open(w_path,'w'):
        pass
    with open(w_path,'a') as file:
        for u in data:
            user = data[u]
            for iid,r in user.items():
                file.write('{0}\t{1}\t{2}\n'.format(u,iid,r))
def split():
    index = 0
    M = 10
    train = defaultdict(dict)
    test = defaultdict(dict)
    for uid,iid,r in read_file(r'real_train.txt'):
        index+=1
        if index%M == 0:
            test[uid][iid]=r
        else:
            train[uid][iid] = r

    w_path1,w_path2 = r'real_train.txt',r'real_test.txt' 
    w_path3,w_path4 = r'smaller_train.txt',r'smaller_test.txt'
    write_file(w_path3,train)
    write_file(w_path4,test)
    #write_file(w_path1,train)
    #write_file(w_path2,test)
if __name__ == '__main__':
    pass

大概7M的資料RMSE在0.88左右,應該還有進一步優化的空間

基於模型融合的推薦系統實現(1)：基於SGD的PMF

(1)PMF演算法 PMF的基本的思路,就是定義兩個基本的引數W,U,然後對於任意一個組合(u,m),利用 Wi∗Uj W^i*U^j,來獲取預測值。這些基本的演算法思路網上很多,就不細說了。簡單說一下程式 [0]:一開始我們要將訓練資料劃分為3部分,第一部

基於模型融合的推薦系統實現(2)：迭代式SVD分解

SVD演算法的原理網路上也有很多,不再細說了,關鍵是我們得到的資料是不完整的資料,所以要算SVD就必須做一次矩陣補全。補全的方式有很多,這裡推薦使用均值補全的方法(用每一行均值和每一列均值的平均來代替空白處)，然後可以計算SVD,作PCA分析,然後就可以得到預測結果。但是我們這裡有

基於記憶與基於模型的推薦系統對比

在任何讀到推薦系統的地方，你都會發現一種分類方法：基於記憶的推薦系統與基於模型的推薦系統。看到一些對此分類的糟糕解釋，我決定嘗試儘量簡略的解釋它。基於記憶的方法使用使用者之間（協同過濾）或物品之間（基於內容的推薦）的聯絡（相似性）這一資料（贊、

基於模型的推薦系統

4. 隱語義模型 4.1 矩陣分解評分資料是高度相關的，資料的冗餘可以讓我們用低秩矩陣來近似原矩陣。隱語義模型目前是the state of art。 U為m×kU為m×k的矩陣，V為n×kV為n×k的矩陣，他兩的乘積用以估計評分矩陣 R≈UVT(

基於模型融合的推薦系統實現(3):模型融合

基本思路很簡單，最小二乘法就好了: 我們假設兩個演算法得到的結果權重分別是a,b利用最小二乘法和我們分出來的第二部分資料就可以獲取a,b使得誤差最小。其實最小二乘法就是求一個廣義的逆即可。最後的RMSE比起單一的模型有所提高,變成了(0.86~~~~) import numpy

【推薦系統實戰】：C++實現基於用戶的協同過濾（UserCollaborativeFilter）

color style popu ted std 相似度 abi ear result 好早的時候就打算寫這篇文章，可是還是參加阿裏大數據競賽的第一季三月份的時候實驗就完畢了。硬生生是拖到了十一假期。自己也是醉了。。。找工作不是非常順利，希望寫點東西回想一下知識。然後再

基於Django快速開發可定制的辦公系統實戰(1)：Git的使用

cal http 本地 repos har 開開 www 一個 hub 基於Django快速開發可定制的辦公系統實戰(1)：Git的使用 ?為什麽在項目的開篇要介紹下git的使用呢？俗話說：“工欲善其事，必先利其器”，git工具就是項目開發的必備利器，尤其是在多人協作開發環

[吳恩達機器學習筆記]16推薦系統1-2基於內容的推薦系統

16.推薦系統 Recommender System 覺得有用的話,歡迎一起討論相互學習~Follow Me 16.1 問題形式化Problem Formulation 推薦系統的改善

keras探索：nlp-基於內容的推薦系統(單標籤，不涉及使用者畫像)

open resource ：deep learning with python (keras) open code: https://github.com/fchollet/deep-learning-with-python-notebooks/blob/master/3.6-clas

基於Spark平臺的電影推薦系統實現

博主一年前寫過一個這樣的文章，電影推薦也是博主一年前就學習過的，溫故而知新，重新拿出來好好重新研究一番。這時以前的文章連結：如何使用Spark ALS實現協同過濾http://www.aboutyun.com/forum.PHP?mod=viewthread&

Spark資料探勘例項1：基於 Audioscrobbler 資料集音樂推薦

本例項來源於《Spark高階資料分析》，這是一個很好的spark資料探勘的例項。從經驗上講，推薦引擎屬於大規模機器學習，在日常購物中大家或許深有體會，比如：你在淘寶上瀏覽了一些商品，或者購買了一些商品，那麼淘寶就會根據你的偏好給你推薦一些其他類似的商品。然而，相比較其他機器學習演算法，推薦引擎的輸出

基於CB，CF，LR演算法的推薦系統實現

在開篇之前，我們先來說下上次CB，CF演算法實現粗的推薦系統，我們知道，CB，CF演算法只是在召回階段使用，這種推薦出來的item畢竟是粗排的，這篇文章正是對上圖畫上一個圓滿的句號，將CB，CF召回回來的item進行精排，然後選擇分數最高，給使用者推薦出來，那麼，問題來，

Spark2.0機器學習系列之1：基於Pipeline、交叉驗證、ParamMap的模型選擇和超引數調優

Spark中的CrossValidation Spark中採用是k折交叉驗證（k-fold cross validation）。舉個例子，例如10折交叉驗證(10-fold cross validation)，將資料集分成10份，輪流將其中9份

基於隱語義模型的推薦系統

如何根據上邊兩位豆瓣使用者的圖書列表做出推薦？傳統的推薦方法 UserCF，首先需要找到和他們看了同樣書的其他使用者，然後給他們推薦那些使用者喜歡的其他書。 ItemCF，需要給他們推薦和他們已經看的書相似的書。基於隱語義模型通過矩陣分解建立

Hadoop 2.6 使用MapReduce實現基於物品的推薦系統

一、基於物品的推薦系統 1、餘弦相似度例如，如果兩個向量完全相同，則其夾角為0度，cos = 1 如果兩個向量相互垂直，則其夾角為90度，cos=0，此時相似度最低 2、基於物品的協同過濾推薦演算法思想：給使用者推薦那些和他們之前喜歡的商品相似的商品步驟：

個性化推薦系統原理介紹（基於內容過濾／協同過濾／關聯規則／序列模式）

信息來講行為記錄鏈接方程機器學習沒有比較 graph 個性化推薦根據用戶興趣和行為特點，向用戶推薦所需的信息或商品，幫助用戶在海量信息中快速發現真正所需的商品，提高用戶黏性，促進信息點擊和商品銷售。推薦系統是基於海量數據挖掘分析的商業智能平臺，推薦主要基

大數據(1)：基於sogou.500w.utf8數據的MapReduce程序設計

trace 實例 map函數 writable 復制 -m 數據 mapred file 1.使用ECLIPSE工具打包運行WORDCOUNT實例，統計莎士比亞文集各單詞計數（文件SHAKESPEARE.TXT）。 ①WorldCount.java 中的main函數修改如下

使用自然語言處理構建基於內容的推薦系統

資料下載地址：https://query.data.world/s/uikepcpffyo2nhig52xxeevdialfl7 1.提取資料---電影標題，電影型別，電影導演，電影演員，電影劇情 2.清洗資料--- 電影劇情使用rake_nltk去除停定詞，對關

京東推薦系統架構揭祕：大資料時代下的智慧化改造

在電商領域，推薦的價值在於挖掘使用者潛在購買需求，縮短使用者到商品的距離，提升使用者的購物體驗。京東推薦的演進史是絢麗多彩的。京東的推薦起步於2012年，當時的推薦產品甚至是基於規則匹配做的。整個推薦產品線組合就像一個個鬆散的原始部落一樣，部落與部落之前沒有任何工程、演算法的交集。201

基於模型融合的推薦系統實現(1)：基於SGD的PMF

(1)PMF演算法

PMF的基本的思路,就是定義兩個基本的引數W,U,然後對於任意一個組合(u,m),利用 Wi∗Uj W^i*U^j,來獲取預測值。這些基本的演算法思路網上很多,就不細說了。簡單說一下程式

[0]:一開始我們要將訓練資料劃分為3部分,第一部分用來做普通的SGD訓練,第二部分用來訓練模型融合,第三部分用來測試RMSE。

[1]:我們利用SGD(隨機梯度下降)來訓練函式,最後就可以得到W，U，為了更好的效果,還添加了偏置引數bu,bi，也要訓練得到

[2]:初始值問題,我們隨機生成引數,並且正比於 1/k√ 1/\sqrt{k} .

[3]:最後是學習速率的變化,我簡單的每次都乘以0.9。但是這裡有好幾種辦法:

method1: method 1:我們可以用啟發式的演算法來更新學習速率.當RMSE變大的時候就要減少速率,反之可以增大。

method2: method2:讓學習速率等於 α01+iter∗d \frac{\alpha_0}{1+iter*d},d是一個常數用來條件減小的速度,隨著迭代的增加學習速率會越來越小。

[4]另外為了加快訓練的速度,避免每次訓練都要重頭開始,我將訓練的結果儲存在文本里面,每次重新讀取即可。所以這也增加了編寫程式的複雜度

下面是程式碼,分割檔案的程式碼在最後給出

用來分隔檔案,讀取檔案

大概7M的資料RMSE在0.88左右,應該還有進一步優化的空間

相關推薦

PMF的基本的思路,就是定義兩個基本的引數W,U,然後對於任意一個組合(u,m),利用 $W^i*U^j$ ,來獲取預測值。這些基本的演算法思路網上很多,就不細說了。簡單說一下程式

[2]:初始值問題,我們隨機生成引數,並且正比於 $1/\sqrt{k}$

.

$method 1:$ 我們可以用啟發式的演算法來更新學習速率.當RMSE變大的時候就要減少速率,反之可以增大。

$method2:$ 讓學習速率等於 $\frac{\alpha_0}{1+iter*d}$ ,d是一個常數用來條件減小的速度,隨著迭代的增加學習速率會越來越小。