利用Python實現基於協同過濾演算法的影片推薦

阿新 • • 發佈：2018-12-30

協同過濾演算法即對一大群人進行搜尋，找出其中品味與我們相近的一小群人，並將這一小群人的偏好進行組合來構造一個推薦列表。
本文利用Python3.5分別實現了基於使用者和基於物品的協同過濾演算法的影片推薦。具體過程如下：先建立了一個涉及人員、物品和評價值的字典，然後利用兩種相似度測量演算法（歐幾里得距離和皮爾遜相關度）分別基於使用者和基於物品進行影片推薦及評論者推薦，最後對兩種協同過濾方式的選擇提出了建議。

使用字典收集偏好

新建 recommendations.py 檔案，並加入以下程式碼構建一個數據集：

# A dictionary of movie critics and their ratings of a small 

# set of movies
critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5,
 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5, 
 'The Night Listener': 3.0},
'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5, 
 'Just My Luck': 1.5, 'Superman Returns' 
: 5.0, 'The Night Listener': 3.0, 
 'You, Me and Dupree': 3.5}, 
'Michael Phillips': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.0,
 'Superman Returns': 3.5, 'The Night Listener': 4.0},
'Claudia Puig': {'Snakes on a Plane': 3.5, 'Just My Luck': 3.0,
 'The Night Listener': 4.5, 'Superman Returns': 4.0 
, 
 'You, Me and Dupree': 2.5},
'Mick LaSalle': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0, 
 'Just My Luck': 2.0, 'Superman Returns': 3.0, 'The Night Listener': 3.0,
 'You, Me and Dupree': 2.0}, 
'Jack Matthews': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0,
 'The Night Listener': 3.0, 'Superman Returns': 5.0, 'You, Me and Dupree': 3.5},
'Toby': {'Snakes on a Plane':4.5,'You, Me and Dupree':1.0,'Superman Returns':4.0}}

上面的字典清晰的展示了一位影評者對若干部電影的打分，分值為1-5。
這樣就很容易對其進行查詢和修改，如查詢某人對某部影片的評分。程式碼如下：

>>> from recommendations import critics
>>> critics['Lisa Rose']['Snakes on a Plane']
3.5

尋找相似使用者

尋找相似使用者，即確定人們在品味方面的相似度。這需要將每個人與其他所有人進行對比，並計算相似度評價值。這裡採用了歐幾里得距離和皮爾遜相關度兩套演算法來計算相似度評價值。

歐幾里得距離評價

歐幾里得距離是多維空間中兩點之間的距離，用來衡量二者的相似度。距離越小，相似度越高。
歐氏距離公式：dist(X,Y)=∑ni=1(xi−yi)2‾‾‾‾‾‾‾‾‾‾‾‾‾‾√
程式碼實現：

from math import sqrt

# Returns a distance-based similarity score for person1 and person2
def sim_distance(prefs,person1,person2):
  # Get the list of shared_items
  si={}
  for item in prefs[person1]: 
    if item in prefs[person2]: si[item]=1

  # if they have no ratings in common, return 0
  if len(si)==0: return 0

  # Add up the squares of all the differences
  sum_of_squares=sum([pow(prefs[person1][item]-prefs[person2][item],2) 
                      for item in prefs[person1] if item in prefs[person2]])

  return 1/(1+sum_of_squares)

這一函式返回介於0到1之間的值。呼叫該函式，傳入兩個人的名字，可計算相似度評價值。程式碼如下：

>>> import recommendations
>>> recommendations.sim_distance(recommendations.critics,'Lisa Rose','Gene Seymour')
0.14814814814814814

皮爾遜相關度評價

皮爾遜相關係數是判斷兩組資料與某一直線擬合程度的一種度量，修正了“誇大分值”，在資料不是很規範的時候（如影評者對影片的評價總是相對於平均水平偏離很大時），會給出更好的結果。相關係數越大，相似度越高。

皮爾遜相關係數公式： r(X,Y)=∑XY−∑X∑YN(∑X2−(∑X)2N)(∑Y2−(∑Y)2N)
程式碼實現：

# Returns the Pearson correlation coefficient for p1 and p2
def sim_pearson(prefs,p1,p2):
  # Get the list of mutually rated items
  si={}
  for item in prefs[p1]: 
    if item in prefs[p2]: si[item]=1

  # if they are no ratings in common, return 0
  if len(si)==0: return 0

  # Sum calculations
  n=len(si)

  # Sums of all the preferences
  sum1=sum([prefs[p1][it] for it in si])
  sum2=sum([prefs[p2][it] for it in si])

  # Sums of the squares
  sum1Sq=sum([pow(prefs[p1][it],2) for it in si])
  sum2Sq=sum([pow(prefs[p2][it],2) for it in si])   

  # Sum of the products
  pSum=sum([prefs[p1][it]*prefs[p2][it] for it in si])

  # Calculate r (Pearson score)
  num=pSum-(sum1*sum2/n)
  den=sqrt((sum1Sq-pow(sum1,2)/n)*(sum2Sq-pow(sum2,2)/n))
  if den==0: return 0

  r=num/den

  return r

這一函式返回介於-1到1之間的值。呼叫該函式，傳入兩個人的名字，可計算相似度評價值。程式碼如下：

>>> import recommendations
>>> recommendations.sim_pearson(recommendations.critics,'Lisa Rose','Gene Seymour')
0.39605901719066977

基於使用者提供推薦

評論者	相似度	Night	S.xNight	Lady	S.xLady	Luck	S.xLuck
Rose	0.99	3.0	2.97	2.5	2.48	3.0	2.97
Seymour	0.38	3.0	1.14	3.0	1.14	1.5	0.57
Puig	0.89	4.5	4.42	3.0	2.68
LaSalle	0.92	3.0	2.77	3.0	2.77	2.0	1.85
Matthews	0.66	3.0	1.99	3.0	1.99
總計	12.89	8.38	8.07
Sim. Sum	3.84	2.95	3.18
總計/Sim. Sum	3.35	2.83	2.53

基於物品提供推薦

兩種協同過濾方式的選擇

基於物品的過濾方式推薦結果更加個性化，反映使用者自己的興趣傳承，對於稀疏資料集在精準度上更優，而且針對大資料集生成推薦列表時明顯更快，不過有維護物品相似度的額外開銷。
但是，基於使用者的過濾方法更易於實現，推薦結果著重於反應和使用者興趣相似的小群體的熱點，著重於維繫使用者的歷史興趣，更適合於規模較小的變化非常頻繁的記憶體資料集，或者有推薦相近偏好使用者給指定使用者的需求。

利用Python實現基於協同過濾演算法的影片推薦

使用字典收集偏好

尋找相似使用者

歐幾里得距離評價

皮爾遜相關度評價

基於使用者提供推薦

推薦評論者

推薦影片

基於物品提供推薦

推薦影片

推薦評論者

兩種協同過濾方式的選擇

利用Python實現基於協同過濾演算法的影片推薦

基於協同過濾演算法的推薦

基於協同過濾演算法構建推薦系統

python資料分析：基於協同過濾的電影推薦演算法

利用Python實現基於PCA演算法的人臉識別

推薦系統（一）基於協同過濾演算法開發離線推薦

利用Python實現k最近鄰演算法並識別手寫數字（詳細註釋）

簡單的協同過濾演算法程式碼推薦系統

基於使用者最近鄰模型的協同過濾演算法的Python程式碼實現

協同過濾演算法概述與python 實現協同過濾演算法基於內容（usr-item,item-item）

推薦系統學習--基於item的協同過濾演算法及python實現

（三）協同過濾演算法之基於物品的推薦演算法python實現

《推薦系統》基於使用者和Item的協同過濾演算法的分析與實現（Python）

推薦系統實踐----基於使用者的協同過濾演算法（python程式碼實現書中案例）

基於使用者的協同過濾演算法實現的商品推薦系統

【推薦演算法】協同過濾演算法——基於使用者 Java實現

基於使用者的協同過濾演算法(Java實現或R語言實現

協同過濾演算法python實現簡單入門詳細註釋

《推薦系統實踐》——基於物品的協同過濾演算法（程式碼實現）

3、前奏之基於物品的協同過濾演算法：ItemsCF

利用Python實現基於協同過濾演算法的影片推薦

使用字典收集偏好

尋找相似使用者

歐幾里得距離評價

皮爾遜相關度評價

基於使用者提供推薦

推薦評論者

推薦影片

基於物品提供推薦

推薦影片

推薦評論者

兩種協同過濾方式的選擇

相關推薦