矩陣分解在推薦系統的應用以及python程式碼的實現

阿新 • • 發佈：2019-01-13

矩陣分解在打分預估系統中得到了成熟的發展和應用，為了方便以後複習，先總結如下。

打分矩陣R(n,m)是n行和m列，n表示user個數，m行表示item個數，例如R(5,6)

item1item2item3item4item5item6

user1 544350

user2 045031

user3540130

user4045315

user5103505

其中，為了表示方便0表示沒有打分，根據目前的矩陣R（5,6）如何得到分值為0的使用者的打分值？

矩陣分解的思想可以解決這個問題，其實這種思想可以看作是有監督的機器學習問題

具體的：

R（n,m）~=P(n,K)*Q(K,m)

其中 ~=表示約等於(由於編輯器使用的不熟悉)，矩陣P(n,K)表示n個user和K個特徵之間的關係矩陣，這K個特徵是一箇中間變數，矩陣Q(K,m)的轉置是矩陣Q(m,K)

，矩陣Q(m,K)表示m個item和K個特徵之間的關係矩陣,這裡的K值是自己控制的，可以使用交叉驗證的方法獲得最佳的K值。為了得到近似的R(n,m),必須求出矩陣P和Q，怎麼求它們呢？

令

$\hat{r}_{ij} = p_i^T q_j = \sum_{k=1}^k{p_{ik}q_{kj}}$

如果R(i,j)已知，則R(i,j)的誤差平方和為

$e_{ij}^2 = (r_{ij} - \hat{r}_{ij})^2 = (r_{ij} - \sum_{k=1}^K{p_{ik}q_{kj}})^2$

為了防止過擬合，增加正則化項:

$e_{ij}^2 = (r_{ij} - \sum_{k=1}^K{p_{ik}q_{kj}})^2 + \frac{\beta}{2} \sum_{k=1}^K{(||P||^2 + ||Q||^2)}$

使用梯度下降法獲得修正的p和q分量：

$p'_{ik} = p_{ik} + \alpha \frac{\partial}{\partial p_{ik}}e_{ij}^2 = p_{ik} + \alpha(2 e_{ij} q_{kj} - \beta p_{ik} )$ 糾錯：中間等式前面的alph前面應該是負號，代表負梯度方向

$q'_{kj} = q_{kj} + \alpha \frac{\partial}{\partial q_{kj}}e_{ij}^2 = q_{kj} + \alpha(2 e_{ij} p_{ik} - \beta q_{kj} )$ 糾錯：中間等式前面的alph前面應該是負號，代表負梯度方向

不停的迭代直到sum(e^2) <=閾值，

K=2 得到結果是

item1 item2 item4 item5item6

item7

user1[[ 5.25600533 4.30482789 4.76151949 2.04197028 3.77745497 1.59709987]
user2[ 4.92136216 3.986272 4.40232802 1.81776335 3.57447488 1.37667655]
user3 [ 4.70259529 3.66136084 4.02053168 1.42409487 3.54021725 0.92110655]
user4 [ 3.24257645 3.95178917 4.57037303 4.00482228 1.23685399 4.44552925]

user5 [ 0.94314043 2.66249238 3.23566396 4.36964834 -0.91695287 5.33276304]]

K=3 得到結果是

item1item2item4item5item6item7

user1[[ 5.35081468 4.21628989 3.92966236 2.8616707 4.42764467 3.67424467]
user2[ 3.65150782 4.00536042 4.98203391 -0.24263616 2.84660098 1.11289902]
user3[ 4.55129228 3.73496981 3.86823535 1.11434568 3.71657794 2.03034916]
user4[ 1.57844524 3.97142414 5.03277248 3.35320963 1.08371548 4.62480722]
user5[ 0.93799194 2.70958606 2.97752303 4.67356409 0.67601902 5.28834503]]

python 原始碼如下：

import numpy
def matrix_factorization(R, P, Q, K, steps=5000, alpha=0.0002, beta=0.02):
    Q = Q.T
    for step in xrange(steps):
        for i in xrange(len(R)):
            for j in xrange(len(R[i])):
                if R[i][j] > 0:
                    eij = R[i][j] - numpy.dot(P[i,:],Q[:,j])
                    for k in xrange(K):
                        P[i][k] = P[i][k] + alpha * (2 * eij * Q[k][j] - beta * P[i][k])
                        Q[k][j] = Q[k][j] + alpha * (2 * eij * P[i][k] - beta * Q[k][j])
        eR = numpy.dot(P,Q)
        e = 0
for i in xrange(len(R)):
            for j in xrange(len(R[i])):
                if R[i][j] > 0:
                    e = e + pow(R[i][j] - numpy.dot(P[i,:],Q[:,j]), 2)
                    for k in xrange(K):
                        e = e + (beta/2) * ( pow(P[i][k],2) + pow(Q[k][j],2) )
        if e < 0.001:
            break
    return P, Q.T

###############################################################################
if __name__ == "__main__":
    R = [
         [5,4,4,3,5,0],
         [0,4,5,0,3,1],
         [5,4,0,1,3,0],
         [0,4,5,3,1,5],
         [1,0,3,5,0,5],
        ]

    R = numpy.array(R)

    N = len(R)
    M = len(R[0])
    K = 2
P = numpy.random.rand(N,K)
    Q = numpy.random.rand(M,K)

    nP, nQ = matrix_factorization(R, P, Q, K)
    print R
    T = numpy.dot(nP,nQ.T)
    print T

參考文章：http://www.quuxlabs.com/blog/2010/09/matrix-factorization-a-simple-tutorial-and-implementation-in-python/#source-code

adding biases

然而，上面僅僅考慮了q和p直接相互影響，而沒有考慮user和item專案本身的屬性，比如，總體的平均分是all_mean,

user是一位嚴厲的顧客，那麼打分自然要低於打分的平均分，一個item比其他item更流行，其得分高於打分的

平均分，則：

r_exp(u,i) = u + b(i) + b(u) + q(i)p(u)

其中 u是所有打過分的打分item的打分的平均值，b(i）為item比平均值的偏差，b(u)表示個人打分習慣和

平均打分的偏差

優化目標函式是：

min ∑ (r(u,i) - all_mean - b(u) - b(i) - p(u)q(i))^2 + lamda*(||p(u)||^2 + ||q(i)||^2 + (b(u))^2 + (b(i))^2)

參考文章：matrix factorization techniques for recommender systems

該原始碼在我的github,https://github.com/zhangqianjin/recommender-system/  ,歡迎大家交流學習

矩陣分解在推薦系統的應用以及python程式碼的實現

矩陣分解在推薦系統的應用以及python程式碼的實現

Redis訂閱&釋出以及python程式碼實現

leetcode-Two sum（最佳思路以及python程式碼實現）

決策樹基本理論學習以及Python程式碼實現和詳細註釋

Apriori演算法學習以及Python程式碼實現

Redis訂閱&釋出以及python程式碼實現

推薦系統實踐----基於使用者的協同過濾演算法（python程式碼實現書中案例）

模擬RSA雙向驗證，並且實現DES加密以及MD5校驗過程（python程式碼實現）

K-Means演算法、非負矩陣分解(NMF)與影象壓縮(Python)

推薦系統應用---音樂類

推薦系統應用研究：音樂電臺

【推薦系統實戰】：C++實現基於用戶的協同過濾（UserCollaborativeFilter）

Tensorflow 反捲積（DeConv）實現原理+ 手寫python程式碼實現反捲積（DeConv）

推薦系統-協同過濾原理與實現

推薦系統中協同過濾演算法實現分析（重要兩個圖！！）

利用itchat 10行python程式碼實現微信轟炸

請寫出一段Python程式碼實現刪除一個list裡面的重複元素？

iOS12系統應用傳送普通郵實現傳送

WGS84地球座標系轉火星座標系的Python程式碼實現

PageHelper與bootstrap的模態框,以及jquery程式碼實現分頁查詢顯示以及Echart的使用

矩陣分解在推薦系統的應用以及python程式碼的實現

相關推薦