1. 程式人生 > >【推薦系統演算法】DPMF(Dependent Probabilistic Matrix Factorization).中篇

【推薦系統演算法】DPMF(Dependent Probabilistic Matrix Factorization).中篇

Adams, Ryan Prescott, George E. Dahl, and Iain Murray. “Incorporating side information in probabilistic matrix factorization with gaussian processes.” arXiv preprint arXiv:1003.4944 (2010).

上一篇部落格介紹了DPMF方法的概率模型,本篇部落格繼續討論該論文的求解和預測。

優化

歷史比賽的主客場得分ZO,ZD已知,需要估計模型引數θ,μ,L,σ,ρ。為了便於求解,同時估計高斯過程f
這裡寫圖片描述

採用MCMC方法,在已知資料的條件下,每次固定其他變數,寫出待求變數的條件概率。根據這個概率(目標分佈)對此變數進行取樣,取樣結果用來更新此變數的取值。
為了明確起見,再次列出各個變數的尺寸。

ZOs,ZDs,YOs,YDs Um(s),fUm(s) Vn(s),fVn(s) LU,LV x θU,θV
1×1 1×K 1×K K×K D×1 K×1

比賽場次s=1:S,主隊編號m=1:M,客隊編號n=1:N。一般來說M=Nx: 表示D種輔助資訊。例如D=2,同時考慮時間和主客場資訊。

以下推導中,用all表示全部隱變數,用others表示出當前更新變數外的其他隱變數。以下推導為了書寫簡便,省略了一些上標和下標。

特徵的協方差LU,LV

在原始碼中認為LU服從一個均勻分佈,換言之不知道任何LU的先驗資訊。目標分佈為:

p(LU|ZO,ZF,others)p(ZO,ZF|LU,other)p(LU,others)p(ZO,ZD|all)p(LU)p(ZO,ZD|all)

其中

p(ZO,ZD|all)=sp(ZOs(x),ZDs(x)|all)

已知其他變數條件下,

[ZOs(x),ZDs(x)]N([YOs(x),YFs(x)],[σ2ρσ2ρσ2σ2])

這個概率非常重要,是取樣後面幾個變數都要用到的。

特徵的均值μU,μV

原始碼中認為μU服從高斯分佈,其引數mU,cU人工指定。和前述推導類似:

p(μU|ZO,ZD,others)p(ZO,ZD|all)N(μ
U
;mU,cU)

觀測誤差