1. 程式人生 > >機器學習演算法(推薦演算法)—協同過濾推薦演算法(2)

機器學習演算法(推薦演算法)—協同過濾推薦演算法(2)

一、基於協同過濾的推薦系統

    協同過濾(Collaborative Filtering)的推薦系統的原理是通過將使用者和其他使用者的資料進行比對來實現推薦的。比對的具體方法就是通過計算兩個使用者資料之間的相似性,通過相似性的計算來說明兩個使用者資料之間的相似程度。相似度函式的設計必須滿足度量空間的三點要求,即非負性,對稱性和三角不等性。常用的相似度的計算方法有:歐式距離法、皮爾遜相關係數法和夾角餘弦相似度法。具體的可以參見上一篇文章“協同過濾推薦演算法(1) ”。

二、面臨的問題

    在基本的協同過濾的推薦系統中(主要指上面所提到的基本模型中),我們是在整個空間上計算相似度,進而實現推薦的。但是現實中的資料往往並不是那麼規整,普遍的現象就是在使用者資料中出現很多未評分項,如下面所示的資料:

對於這樣的稀疏矩陣,我們利用基本的協同過濾推薦演算法的效率必將很低。對於這樣的稀疏矩陣,我們可以利用SVD對其進行降維,將這樣的稀疏矩陣對映到另一個具體的主題空間,SVD降維的原理可以參見博文“SVD奇異值分解”。

三、利用SVD構造主題空間

    我們對上面所示的這樣一個矩陣進行SVD分解,分解的結果為:

1、U矩陣


(U矩陣,矩陣U主要反應的是使用者資訊)

2、對角陣S


(S矩陣,矩陣S主要反映的是11個奇異值)

3、VT矩陣


(VT矩陣,矩陣VT主要反映的是物品資訊)

4、選取奇異值並對映主題空間

   奇異值分解公式為:,現在我們要將原始資料對映到反映物品的相互關係中。選取前5個奇異值,奇異值的選取符合能量的規則,選擇出來的奇異值的能量要能反映90%的原始資訊。這樣新的主題空間的計算方式為:

即可得新的主題空間:

四、實驗的模擬

    我們在這樣的資料集上做推薦計算。其中user為2號使用者。
(相似度的計算)
(推薦結果) MATLAB程式碼 主程式
  1. %% 主函式  
  2. % 匯入資料  
  3. %data = [4,4,0,2,2;4,0,0,3,3;4,0,0,1,1;1,1,1,2,0;2,2,2,0,0;1,1,1,0,0;5,5,5,0,0];  
  4. data = [2,0,0,4,4,0,0,0,0,0,0;0,0,0,0,0,0,0,0,0,0,5;0,0,0,0,0,0,0,1,0,4,0;3,3,4,0,3,0,0,2,2,0,0;5,5,5,0,0,0,0,0,0,0,0;  
  5.     0,0,0,0,0,0,5,0,0,5,0;4,0,4,0,0,0,0,0,0,0,5;0,0,0,0,0,4,0,0,0,0,4;0,0,0,0,0,0,5,0,0,5,0;0,0,0,3,0,0,0,0,4,5,0;  
  6.     1,1,2,1,1,2,1,0,4,5,0];  
  7. % reccomendation  
  8. %[sortScore, sortIndex] = recommend(data, 3, 'cosSim');  
  9. [sortScore, sortIndex] = recommend(data, 2, 'cosSim');  
  10. len = size(sortScore);  
  11. finalRec = [sortIndex, sortScore];  
  12. disp(finalRec);  

SVD空間對映的函式
  1. function [ score ] = SVDEvaluate( data, user, simMeas, item )  
  2.     [m,n] = size(data);  
  3.     simTotal = 0;  
  4.     ratSimTotal = 0;  
  5.     % 奇異值分解  
  6.     [U S V] = svd(data);  
  7.     % 求使得保留90%能量的奇異值  
  8.     sizeN = 0;%記錄維數  
  9.     [m_1,n_1] = size(S);  
  10.     a = 0;%求總能量  
  11.     for i = 1:m_1  
  12.         a = a + S(i,i)*S(i,i);  
  13.     end  
  14.     b = a*0.9;%能量的90%  
  15.     c = 0;  
  16.     for i = 1:n_1  
  17.         c = c + S(i,i)*S(i,i);  
  18.         if c >= b  
  19.             sizeN = i;  
  20.             break;  
  21.         end  
  22.     end  
  23.     %物品降維後的空間  
  24.     itemTransformed = data' * U(:,1:sizeN) * S(1:sizeN,1:sizeN)^(-1);  
  25.     for j = 1:n  
  26.         userRating = data(user, j);%此使用者評價的商品  
  27.         if userRating == 0 || j == item%只是找到已評分的商品  
  28.             continue;  
  29.         end  
  30.         vectorA = itemTransformed(item,:);  
  31.         vectorB = itemTransformed(j,:);  
  32.         switch simMeas  
  33.            case {'cosSim'}  
  34.                similarity = cosSim(vectorA,vectorB);  
  35.            case {'ecludSim'}  
  36.                similarity = ecludSim(vectorA,vectorB);  
  37.            case {'pearsSim'}  
  38.                similarity = pearsSim(vectorA,vectorB);  
  39.         end  
  40.         disp(['the ', num2str(item), ' and ', num2str(j), ' similarity is ', num2str(similarity)]);  
  41.         simTotal = simTotal + similarity;  
  42.         ratSimTotal = ratSimTotal + similarity * userRating;  
  43.     end  
  44.     if simTotal == 0  
  45.         score = 0;  
  46.     else  
  47.         score = ratSimTotal./simTotal;  
  48.     end  
  49. end  

推薦的函式
  1. function [ sortScore, sortIndex ] = recommend( data, user, simMeas )  
  2.     % 獲取data的大小  
  3.     [m, n] = size(data);%m為使用者,n為商品  
  4.     if user > m  
  5.         disp('The user is not in the dataBase');  
  6.     end  
  7.     % 尋找使用者user未評分的商品  
  8.     unratedItem = zeros(1,n);  
  9.     numOfUnrated = 0;  
  10.     for j = 1:n  
  11.         if data(user, j) == 0  
  12.             unratedItem(1,j) = 1;%0表示已經評分,1表示未評分  
  13.             numOfUnrated = numOfUnrated + 1;  
  14.         end  
  15.     end  
  16.     if numOfUnrated == 0  
  17.         disp('the user has rated all items');  
  18.     end  
  19.     % 對未評分項打分,已達到推薦的作用  
  20.     itemScore = zeros(numOfUnrated,2);  
  21.     r = 0;  
  22.     for j = 1:n  
  23.         if unratedItem(1,j) == 1%找到未評分項  
  24.             r = r + 1;  
  25.             %score = evaluate(data, user, simMeas, j);  
  26.             score = SVDEvaluate(data, user, simMeas, j);  
  27.             itemScore(r,1) = j;  
  28.             itemScore(r,2) = score;  
  29.         end  
  30.     end  
  31.     %排序,按照分數的高低進行推薦  
  32.     [sortScore, sortIndex_1] = sort(itemScore(:,2),'descend');  
  33.     [numOfIndex,x] = size(sortIndex_1(:,1));  
  34.     sortIndex = zeros(numOfIndex,1);  
  35.     for m = 1:numOfIndex  
  36.         sortIndex(m,:) = itemScore(sortIndex_1(m,:),1);  
  37.     end  
  38. end  

相似度的計算與前文一致。