1. 程式人生 > >[論文筆記]Item-based collaborative filtering recommendation algorithms

[論文筆記]Item-based collaborative filtering recommendation algorithms

作者:Badrul Sarwar, George Karypi, Joseph Konstan, John Riedl

內容概要

1. 協同過濾:

目標:推薦TOP N item

類別:memory-based, model-based。

2. user-based的協同過濾的問題: a. 資料稀疏性  b.可擴充套件性(因為它在推薦時需要用到鄰居資訊,並且鄰居更新更頻繁)

3. item-based協同過濾

3.1 item相似度

    a. cosine相似度:只考慮item向量的點積

    b. correlation-based相似度(Pearson相似度):考慮了item的平均評分

    c. adjusted cosine相似度:考慮了使用者對item的平均評分

3.2 預測計算:

    a. 使用相似度加權平均

    b. 使用迴歸模型。使用加權平均時,採用的與預測item i相似的item j的相似度Sim j* j的評分Rj。而使用迴歸模型時,它會計算出一個線性迴歸 f(j) =α*avg(Rj) + β + ξ,從而計算出一個不同於Rj的分值,然後再使用加權平均。

3.3 計算效能

item相似度離線計算。

推薦的時候,有兩種策略,相對於最精確的取所有的n個相似商品,一種更為有效的策略是隻取k(model size)個相似商品,其中k<<n。

4. 實驗評估

4.1 資料來源:採用了MovieLens的資料,包含了943個使用者和1682部電影。其中評分數量為10W,即資料稀疏度為 1 - 100000/(943*1682) = 0.9369。

4.2 評價指標:

    a. statistical accuracy metrics:MAE(mean absolute error), RMSE等

    b. decision support accuracy metrics:reversal rate, weighted errors, ROC等

本論文使用MAE來評價推薦質量。

4.3 結果

    a. 相似度評價:adjusted cosine相似度效果最好。

    b. 訓練/測試集拆分比例: 80%的訓練集效果最好

    c. model size(相似item數量):基本的item-item演算法,model size越大,推薦質量越好。然而基於迴歸的item-item演算法,先是隨著model size的增大有改善,再大之後就出現了過度擬合(論文觀點),導致質量下降。權衡兩者之後,取的model size=30。