使用Python的Pandas庫實現基於使用者的協同過濾推薦演算法

阿新 • • 發佈：2018-12-31

本文在下文的程式碼基礎上修改而來：

環境	版本
Python	3.5.5
Pandas	0.22.0

import pandas as pd


df = None


def dataSet2Matrix(filename):
    """
       匯入訓練資料
       :param filename: 資料檔案路徑
    """
    table_name = ['userId', 'movieId', 'rating', 'timestamp']
    # 按照','分割讀取csv檔案
    ratings = pd.read_table(filename, sep=',' 
, header=0, names=table_name)
    global df
    # 轉換成User-Item矩陣
    df = ratings.pivot(index='userId', columns='movieId', values='rating')

你可以使用MovieLens提供的資料集，不過，為了便於闡述，這裡使用一個很小的測試資料集。
匯入test.csv這個測試資料，看dataSet2Matrix函式是否執行成功。你可以在這裡下載這個測試資料。
資料的格式為：使用者ID,電影ID,評分（5分制）,時間戳

dataSet2Matrix('test.csv' 
)
df

userId/movieId	1	2	3	4	5	6	7	8
1	3.5	2.0	NaN	4.5	5.0	1.5	2.5	2.0
2	2.0	3.5	4.0	NaN	2.0	3.5	NaN	3.0
3	5.0	1.0	1.0	3.0	5.0	1.0	NaN	NaN
4	3.0	4.0	4.5	NaN	3.0	4.5	4.0	2.0
5	NaN	4.0	1.0	4.0	NaN	NaN	4.0	1.0
6	NaN	4.5	4.0	5.0	5.0	4.5	4.0	4.0
7	5.0	2.0	NaN	3.0	5.0	4.0	5.0	NaN
8	3.0	NaN	NaN	5.0	4.0	2.5	3.0	4.0

可以看到，成功將資料集轉化成了UI矩陣。

之後，我們需要構建共同評分矩陣。程式碼如下：

# 構建共同的評分向量
def build_xy(user_id1, user_id2):
    bool_array = df.loc[user_id1].notnull() & df.loc[user_id2].notnull()
    return df.loc[user_id1, bool_array], df.loc[user_id2, bool_array]

我們測試下userId分別為1和2的兩個使用者的共同評分矩陣：

print(build_xy(1,2))

    (movieId
    1    3.5
    2    2.0
    5    5.0
    6    1.5
    8    2.0
    Name: 1, dtype: float64, movieId
    1    2.0
    2    3.5
    5    2.0
    6    3.5
    8    3.0
    Name: 2, dtype: float64)

對比UI矩陣，1和2的共同評分向量是正確的，即使用者1和使用者2都曾經對電影1、2、5、6、8做出過評價。

# 歐幾里德距離
def euclidean(user_id1, user_id2):
    x, y = build_xy(user_id1, user_id2)
    try:
        value = sum((x - y)**2)**0.5
    except ZeroDivisionError:
        value = 0
    return value


# 餘弦相似度
def cosine(user_id1, user_id2):
    x, y = build_xy(user_id1, user_id2)
    # 分母
    denominator = (sum(x*x)*sum(y*y))**0.5
    try:
        value = sum(x*y)/denominator
    except ZeroDivisionError:
        value = 0
    return value


# 皮爾遜相關係數
def pearson(user_id1, user_id2):
    x, y = build_xy(user_id1, user_id2)
    mean1, mean2 = x.mean(), y.mean()
    # 分母
    denominator = (sum((x-mean1)**2)*sum((y-mean2)**2))**0.5
    try:
        value = sum((x - mean1) * (y - mean2)) / denominator
    except ZeroDivisionError:
        value = 0
    return value

我們來看一下使用者1和使用者2的皮爾遜相關係數

print(pearson(1,2))

    -0.9040534990682686

metric_funcs = {
    'euclidean': euclidean,
    'pearson': pearson,
    'cosine': cosine
}


# 計算最近的鄰居
def computeNearestNeighbor(user_id, metric='pearson', k=3):
    """
    metric: 度量函式
    k:      返回k個鄰居
    返回：pd.Series，其中index是鄰居名稱，values是距離
    """
    if metric in ['manhattan', 'euclidean']:
        return df.drop(user_id).index.to_series().apply(metric_funcs[metric], args=(user_id,)).nsmallest(k)
    elif metric in ['pearson', 'cosine']:
        return df.drop(user_id).index.to_series().apply(metric_funcs[metric], args=(user_id,)).nlargest(k)

我們使用皮爾遜相似度計算一下與使用者3興趣最相近的3個使用者：

print(computeNearestNeighbor(3))

    userId
    1    0.819782
    6    0.801784
    7    0.766965
    Name: userId, dtype: float64

# 向給定使用者推薦（返回：pd.Series）
def recommend(user_id):
    # 找到距離最近的使用者id
    nearest_user_id = computeNearestNeighbor(user_id, metric='cosine').index[0]
    print('最近鄰使用者id：', nearest_user_id)
    # 找出鄰居評價過、但自己未曾評價的樂隊（或商品）
    # 結果：index是商品名稱，values是評分
    return df.loc[nearest_user_id, df.loc[user_id].isnull() & df.loc[nearest_user_id].notnull()].sort_values()

嘗試對使用者3做出推薦：

recommend(3)

    最近鄰使用者id： 1

    movieId
    8    2.0
    7    2.5
    Name: 1, dtype: float64

使用Python的Pandas庫實現基於使用者的協同過濾推薦演算法

本文在下文的程式碼基礎上修改而來：環境版本 Python 3.5.5 Pandas 0.22.0 import pandas as pd df = None def dataSet2Matrix(

基於使用者(user-based)的協同過濾推薦演算法的初步理解以及程式碼實現

總論協同過濾是目前最經典的推薦演算法。分而理之，協同，指通過線上資料找到使用者可能喜歡的物品；過濾，濾掉一些不值得推薦的資料。協同過濾推薦分為三種類型。第一種是基於使用者(user-based)的協同過濾，第二種是基於專案(ite

基於使用者的協同過濾推薦演算法原理和實現

在推薦系統眾多方法中，基於使用者的協同過濾推薦演算法是最早誕生的，原理也較為簡單。該演算法1992年提出並用於郵件過濾系統，兩年後1994年被 GroupLens 用於新聞過濾。一直到2000年，該演算法都是推薦系統領域最著名的演算法。本文簡單介紹基於使用者的協同

基於使用者的協同過濾和基於物品的協同過濾推薦演算法圖解

在協同過濾中，有兩種主流方法：基於使用者的協同過濾，和基於物品的協同過濾。具體怎麼來闡述他們的原理呢，看個圖大家就明白了基於使用者的 CF 的基本思想相當簡單，基於使用者對物品的偏好找到相鄰鄰居使用者，然後將鄰居使用者喜歡的推薦給當前使用者。計算上，就是將一個使用者對所有物品

基於譜聚類SM演算法的協同過濾推薦演算法研究——清華師兄畢業論文學習

一、個性化推薦演算法 1.相似度的比較兩個商品或者商品之間相似的的計算方法，量化屬性為非數值型資料的商品或者使用者之間的接近程度。通常我們計算使用者或者專案間相似度的主要方法有餘弦相似度（Cosime Similarity）、Jaccard係數和pearson相關(pearson Corr

推薦演算法概述：基於內容的推薦演算法、協同過濾推薦演算法和基於知識的推薦演算法

所謂推薦演算法就是利用使用者的一些行為，通過一些數學演算法，推測出使用者可能喜歡的東西。推薦演算法主要分為兩種 1. 基於內容的推薦基於內容的資訊推薦方法的理論依據主要來自於資訊檢索和

基於社交網路的使用者與基於物品的協同過濾推薦演算法-java

完整工程+資料來源：https://github.com/scnuxiaotao/recom_sysimport java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.Fil

mahout推薦演算法——協同過濾推薦演算法（java程式碼實現）

什麼是協同過濾協同過濾是利用集體智慧的一個典型方法。要理解什麼是協同過濾 (Collaborative Filtering, 簡稱 CF)，首先想一個簡單的問題，如果你現在想看個電影，但你不知道具體看哪部，你會怎麼做？大部分的人會問問周圍的朋友，看看最近有什麼好看的電影推

協同過濾推薦演算法詳解

一、什麼是協同過濾？協同過濾是利用集體智慧的一個典型方法。要理解什麼是協同過濾 (Collaborative Filtering, 簡稱 CF)，首先想一個簡單的問題，如果你現在想看個電影，但你不知道具體看哪部，你會怎麼做？大部分的人會問問周圍的朋友，看看最近有什麼好看的電影推薦，而我們一般更傾向於從

協同過濾推薦演算法的優化（稀疏矩陣的處理）

簡單的協同過濾演算法流程如下（1）、計算其他使用者和你的相似度，可以使用反差表忽略一部分使用者（2）、根據相似度的高低找出K個與你最相似的鄰居（3）、在這些鄰居喜歡的物品中，根據鄰居與你的遠近程度算出每一件物品的推薦度（4）、根據每一件物品的推薦度高低給你推薦物品。

協同過濾推薦演算法之Slope One的介紹

Slope One 之一 : 簡單高效的協同過濾演算法(轉)( 原文地址：http://blog.sina.com.cn/s/blog_4d9a06000100am1d.html 現在做的一個專案中需要用到推薦演算法, 在網上查了一下. Beyo

機器學習演算法（推薦演算法）—協同過濾推薦演算法(2)

一、基於協同過濾的推薦系統協同過濾(Collaborative Filtering)的推薦系統的原理是通過將使用者和其他使用者的資料進行比對來實現推薦的。比對的具體方法就是通過計算兩個使用者

協同過濾推薦演算法-----向量之間的相似度

Collaborative Filtering Recommendation 度量向量之間的相似度方法很多了，你可以用距離（各種距離）的倒數，向量夾角，Pearson相關係數等。皮爾森相關係數計算公式如下： ρX,Y=cov(X,Y)σxσy=E((X−μx)

基於使用者的協同過濾推薦—實現電影推薦

不正之處，歡迎指教。 “嗨，最經有什麼好看的電影嗎？” “那個xxx，xxx我感覺還是不錯的，推薦你可以去看一下” 上述情景在我們的生活中可以說是很熟悉的，當我們不知道選擇哪一部電影去看的時候，我們就會去詢問周圍的人，希望從他們那裡可以得到一些比較好的推薦，

超級詳細的協同過濾推薦系統+完整Python實現及結果

協同過濾推薦系統在我們的日常生活之中無處不在，例如，在電子商城購物，系統會根據使用者的記錄或者其他的資訊來推薦相應的產品給客戶，是一種智慧的生活方式。之所以交協同過濾，是因為在實現過濾推薦的時候是根據其他人的行為來做預測的，基於相似使用者的喜好來實現使用者的喜好預測。

【筆記3】用pandas實現矩陣資料格式的推薦演算法 (基於使用者的協同)

原書作者使用字典dict實現推薦演算法，並且驚歎於18行程式碼實現了向量的餘弦夾角公式。我用pandas實現相同的公式只要3行。特別說明：本篇筆記是針對矩陣資料，下篇筆記是針對條目資料。 ''' 基於使用者的協同推薦矩陣資料 ''' import pandas as pd from io impor

Mahout系列之推薦演算法-基於物品協同過濾實踐

上文已經說明了使用者的協同過濾，這篇也來談談基於物品的協同過濾。 2.基於物品的協同過濾類似的，也很容易做出一個簡單的基於物品的過濾方法。 1. 單機基本演算法實踐 public static void ItemBased() {try {//DataModel mo

Mahout系列之推薦演算法-基於使用者協同過濾

Mahout的一大特色就是包含了推薦演算法，裡面包括了多種常見的演算法，下面我們來分析分析。針對基於使用者行為資料的推薦演算法一般稱為協同過濾演算法。協同過濾演算法有基於領域(neighborhood-based)的方法，隱語義模型(latent factor model

基於Spark MLlib平臺和基於模型的協同過濾演算法的電影推薦系統（一）協同過濾演算法概述&&基於模型的協同過濾的演算法思想（演算法模型和結構待補充）

本文暫時分為三部分：（一）基於Spark MLlib平臺和基於模型的協同過濾演算法的電影推薦系統（一） → 協同過濾演算法概述&&基於模型的協同過濾的演算法思想（二）基於Spark MLlib平臺和基於模型的協同過濾演算法的電影推薦

scala應用-基於user協同過濾的推薦系統

以下是一個只用scala語言開發的推薦系統，可以參考一下，這個能執行一些小資料集，當然可以改造成多執行緒，實踐中表明，百M級別多執行緒和分散式的相同配置的機器在運算上並沒有很大的時間上的差別。這個要研究scala原始碼的執行緒池物件（和java的很類似）。 S

userId/movieId	1	2	3	4	5	6	7	8
1	3.5	2.0	NaN	4.5	5.0	1.5	2.5	2.0
2	2.0	3.5	4.0	NaN	2.0	3.5	NaN	3.0
3	5.0	1.0	1.0	3.0	5.0	1.0	NaN	NaN
4	3.0	4.0	4.5	NaN	3.0	4.5	4.0	2.0
5	NaN	4.0	1.0	4.0	NaN	NaN	4.0	1.0
6	NaN	4.5	4.0	5.0	5.0	4.5	4.0	4.0
7	5.0	2.0	NaN	3.0	5.0	4.0	5.0	NaN
8	3.0	NaN	NaN	5.0	4.0	2.5	3.0	4.0

userId/movieId	1	2	3	4	5	6	7	8
1	3.5	2.0	NaN	4.5	5.0	1.5	2.5	2.0
2	2.0	3.5	4.0	NaN	2.0	3.5	NaN	3.0
3	5.0	1.0	1.0	3.0	5.0	1.0	NaN	NaN
4	3.0	4.0	4.5	NaN	3.0	4.5	4.0	2.0
5	NaN	4.0	1.0	4.0	NaN	NaN	4.0	1.0
6	NaN	4.5	4.0	5.0	5.0	4.5	4.0	4.0
7	5.0	2.0	NaN	3.0	5.0	4.0	5.0	NaN
8	3.0	NaN	NaN	5.0	4.0	2.5	3.0	4.0

使用Python的Pandas庫實現基於使用者的協同過濾推薦演算法

本文在下文的程式碼基礎上修改而來：

相關推薦

userId/movieId	1	2	3	4	5	6	7	8
1	3.5	2.0	NaN	4.5	5.0	1.5	2.5	2.0
2	2.0	3.5	4.0	NaN	2.0	3.5	NaN	3.0
3	5.0	1.0	1.0	3.0	5.0	1.0	NaN	NaN
4	3.0	4.0	4.5	NaN	3.0	4.5	4.0	2.0
5	NaN	4.0	1.0	4.0	NaN	NaN	4.0	1.0
6	NaN	4.5	4.0	5.0	5.0	4.5	4.0	4.0
7	5.0	2.0	NaN	3.0	5.0	4.0	5.0	NaN
8	3.0	NaN	NaN	5.0	4.0	2.5	3.0	4.0