基於使用者(user-based)的協同過濾推薦演算法的初步理解以及程式碼實現

阿新 • • 發佈：2019-01-05

總論

    協同過濾是目前最經典的推薦演算法。
    分而理之，協同，指通過線上資料找到使用者可能喜歡的物品；過濾，濾掉一些不值得推薦的資料。
    協同過濾推薦分為三種類型。第一種是基於使用者(user-based)的協同過濾，第二種是基於專案(item-based)的協同過濾，第三種是基於模型(model based)的協同過濾。
    我認為，選擇哪種型別，取決於業務場景。需要考慮的是，user和item的數量比，誰的數量級小就選擇哪個模式的cf；在業務處於的場景中，user和item的多變性比較，選擇多變性較小的一方，在後續的維護，會方便很多；最後一點，明確你的推薦覆蓋要求。
    今天主要講基於使用者。
    凡是推薦演算法離不開大資料的基礎，基於使用者型別的資料一般是如下格式：
使用者id 
，外物id，使用者對外物的評分，以上是一般物聯網的演算法模型，（舉一反三，分析系統日誌，建立如下模型，使用者id，資源id，使用者對資源的訪問次數，--->實現推薦頁面 ）

演算法基礎實現

  看這塊的時候，我是真的後悔大學沒好好學數學!!!
  首先讓我們拆分下過程。 基於使用者的協同過濾 可分為2步，
  1.找到相似度高的使用者
  2.根據1步驟獲取的資訊，推薦源使用者相對喜歡，並且未採取過的行為

    下面這個是大名鼎鼎的Jaccard公式，很簡單， 取2個使用者的選擇集的交集，跟2個使用者的選擇集的並集，進行計算。但很顯然，若要計算整個使用者集合，
時間複雜度是O（n^2 
）,太慢了。

這裡寫圖片描述

    後續就有了利用倒排查表進行優化如下： 可以建立個5X5矩陣，以使用者、行為為維度。

 行為     使用者
 1      1，2，3
 2      2，3，5
 3      1，3，5
 4      3，4，5
 5      2，3，4

到這裡，已經可以獲得相似使用者了。

    下面這個公式可以完成之前提到的步驟二，p(u,i)-使用者u對行為i的權重，S(u,k)表示和使用者u相似的K個使用者，N(i)表示採取過行為i的使用者集合，Wuv表示使用者u和使用者v的相似度，Rvi表示使用者v對行為i的權重。
    Rvi部分可以大做文章，使用者對某個行為的權重值定義，需要以業務為基礎。在這裡舉個例子，如果某個行為在整個使用者群裡執行的次數不多，但某兩個使用者多次執行，可判斷這兩個使用者對該行為權重極大，也就是對該行為興趣濃厚，也就是這兩個使用者極其得相似，我把這個現象稱為，單熱群冷現象。

這裡寫圖片描述

演算法數學總結到此結束，感覺數學功底是真的差，上面那個公式看了半天，後來還是諮詢了大學裡數學師父~~~

Mahout實現

    Mahout是hadoop全家桶裡的一員，提供一些可擴充套件的機器學習領域經典演算法的實現，旨在幫助開發人員更加方便快捷地建立智慧應用程式。
    之前說的一大堆，其實開發中，都是用不到的，它已經在它的庫裡給你實現了~~直接上程式碼，程式碼也很簡單。

public class MahoutTest {

    public static void main(String[] args) throws IOException, TasteException {
        String file = "D:\\test.txt";
        //模型建立
        DataModel model = new FileDataModel(new File(file));
        //根據模型獲取userId迭代器
        LongPrimitiveIterator iter = model.getUserIDs();
        UserSimilarity user = new EuclideanDistanceSimilarity(model);
        //2代表--限制在模型中的使用者數量
        NearestNUserNeighborhood neighbor = new NearestNUserNeighborhood(2, user, model);
        Recommender r = new GenericUserBasedRecommender(model, neighbor, user);
        while (iter.hasNext()) {
            long uid = iter.nextLong();
            //3代表--所需要的行為數
            List<RecommendedItem> list = r.recommend(uid, 3);
            System.out.printf("uid:%s", uid);
            for (RecommendedItem ritem : list) {
                System.out.printf("(%s,%f)", ritem.getItemID(), ritem.getValue());
            }
            System.out.println();
        }
    }
}

原始碼解析

核心類如下，粗略講一下我這裡用到的genericUserBasedRecommender

這裡寫圖片描述

與上圖程式碼順序一致
1.校驗傳參
2.獲取相似使用者id
3.獲取相似使用者的所有行為資訊
4.獲取評估資訊
5.獲取結果集 getTopItems方法如下

 public static List<RecommendedItem> getTopItems(int howMany,
                                                  LongPrimitiveIterator possibleItemIDs,
                                                  IDRescorer rescorer,
                                                  Estimator<Long> estimator) throws TasteException {
    Preconditions.checkArgument(possibleItemIDs != null, "argument is null");
    Preconditions.checkArgument(estimator != null, "argument is null");

    Queue<RecommendedItem> topItems = new PriorityQueue<RecommendedItem>(howMany + 1,
      Collections.reverseOrder(ByValueRecommendedItemComparator.getInstance()));
    boolean full = false;
    double lowestTopValue = Double.NEGATIVE_INFINITY;
    while (possibleItemIDs.hasNext()) {
      long itemID = possibleItemIDs.next();
      if (rescorer == null || !rescorer.isFiltered(itemID)) {
        double preference;
        try {
          preference = estimator.estimate(itemID);
        } catch (NoSuchItemException nsie) {
          continue;
        }
        double rescoredPref = rescorer == null ? preference : rescorer.rescore(itemID, preference);
        if (!Double.isNaN(rescoredPref) && (!full || rescoredPref > lowestTopValue)) {
          topItems.add(new GenericRecommendedItem(itemID, (float) rescoredPref));
          if (full) {
            topItems.poll();
          } else if (topItems.size() > howMany) {
            full = true;
            topItems.poll();
          }
          lowestTopValue = topItems.peek().getValue();
        }
      }
    }
    int size = topItems.size();
    if (size == 0) {
      return Collections.emptyList();
    }
    List<RecommendedItem> result = Lists.newArrayListWithCapacity(size);
    result.addAll(topItems);
    Collections.sort(result, ByValueRecommendedItemComparator.getInstance());
    return result;
  }

這裡用了PriorityQueue，利用了其特殊建構函式 指定比較器，指定初始容量。
public PriorityQueue(int initialCapacity,
                         Comparator<? super E> comparator) {
        if (initialCapacity < 1)
            throw new IllegalArgumentException();
        this.queue = new Object[initialCapacity];
        this.comparator = comparator;
    }

查看了優先順序佇列的原始碼，其本質是：PriorityQueue會對入隊的元素進行排序，所以在佇列頂端的總是最小的元素。

end!

基於使用者(user-based)的協同過濾推薦演算法的初步理解以及程式碼實現

總論協同過濾是目前最經典的推薦演算法。分而理之，協同，指通過線上資料找到使用者可能喜歡的物品；過濾，濾掉一些不值得推薦的資料。協同過濾推薦分為三種類型。第一種是基於使用者(user-based)的協同過濾，第二種是基於專案(ite

基於使用者的協同過濾和基於物品的協同過濾推薦演算法圖解

在協同過濾中，有兩種主流方法：基於使用者的協同過濾，和基於物品的協同過濾。具體怎麼來闡述他們的原理呢，看個圖大家就明白了基於使用者的 CF 的基本思想相當簡單，基於使用者對物品的偏好找到相鄰鄰居使用者，然後將鄰居使用者喜歡的推薦給當前使用者。計算上，就是將一個使用者對所有物品

基於譜聚類SM演算法的協同過濾推薦演算法研究——清華師兄畢業論文學習

一、個性化推薦演算法 1.相似度的比較兩個商品或者商品之間相似的的計算方法，量化屬性為非數值型資料的商品或者使用者之間的接近程度。通常我們計算使用者或者專案間相似度的主要方法有餘弦相似度（Cosime Similarity）、Jaccard係數和pearson相關(pearson Corr

使用Python的Pandas庫實現基於使用者的協同過濾推薦演算法

本文在下文的程式碼基礎上修改而來：環境版本 Python 3.5.5 Pandas 0.22.0 import pandas as pd df = None def dataSet2Matrix(

推薦演算法概述：基於內容的推薦演算法、協同過濾推薦演算法和基於知識的推薦演算法

所謂推薦演算法就是利用使用者的一些行為，通過一些數學演算法，推測出使用者可能喜歡的東西。推薦演算法主要分為兩種 1. 基於內容的推薦基於內容的資訊推薦方法的理論依據主要來自於資訊檢索和

基於使用者的協同過濾推薦演算法原理和實現

在推薦系統眾多方法中，基於使用者的協同過濾推薦演算法是最早誕生的，原理也較為簡單。該演算法1992年提出並用於郵件過濾系統，兩年後1994年被 GroupLens 用於新聞過濾。一直到2000年，該演算法都是推薦系統領域最著名的演算法。本文簡單介紹基於使用者的協同

基於社交網路的使用者與基於物品的協同過濾推薦演算法-java

完整工程+資料來源：https://github.com/scnuxiaotao/recom_sysimport java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.Fil

協同過濾推薦演算法詳解

一、什麼是協同過濾？協同過濾是利用集體智慧的一個典型方法。要理解什麼是協同過濾 (Collaborative Filtering, 簡稱 CF)，首先想一個簡單的問題，如果你現在想看個電影，但你不知道具體看哪部，你會怎麼做？大部分的人會問問周圍的朋友，看看最近有什麼好看的電影推薦，而我們一般更傾向於從

協同過濾推薦演算法的優化（稀疏矩陣的處理）

簡單的協同過濾演算法流程如下（1）、計算其他使用者和你的相似度，可以使用反差表忽略一部分使用者（2）、根據相似度的高低找出K個與你最相似的鄰居（3）、在這些鄰居喜歡的物品中，根據鄰居與你的遠近程度算出每一件物品的推薦度（4）、根據每一件物品的推薦度高低給你推薦物品。

協同過濾推薦演算法之Slope One的介紹

Slope One 之一 : 簡單高效的協同過濾演算法(轉)( 原文地址：http://blog.sina.com.cn/s/blog_4d9a06000100am1d.html 現在做的一個專案中需要用到推薦演算法, 在網上查了一下. Beyo

機器學習演算法（推薦演算法）—協同過濾推薦演算法(2)

一、基於協同過濾的推薦系統協同過濾(Collaborative Filtering)的推薦系統的原理是通過將使用者和其他使用者的資料進行比對來實現推薦的。比對的具體方法就是通過計算兩個使用者

mahout推薦演算法——協同過濾推薦演算法（java程式碼實現）

什麼是協同過濾協同過濾是利用集體智慧的一個典型方法。要理解什麼是協同過濾 (Collaborative Filtering, 簡稱 CF)，首先想一個簡單的問題，如果你現在想看個電影，但你不知道具體看哪部，你會怎麼做？大部分的人會問問周圍的朋友，看看最近有什麼好看的電影推

協同過濾推薦演算法-----向量之間的相似度

Collaborative Filtering Recommendation 度量向量之間的相似度方法很多了，你可以用距離（各種距離）的倒數，向量夾角，Pearson相關係數等。皮爾森相關係數計算公式如下： ρX,Y=cov(X,Y)σxσy=E((X−μx)

KMP演算法詳解以及程式碼實現

KMP演算法求解什麼型別問題字串匹配。給你兩個字串，尋找其中一個字串是否包含另一個字串，如果包含，返回包含的起始位置。如下面兩個字串： char *str = "bacbababadababacambabacaddababacasdsd"; char *ptr = "

幾大排序演算法的理解和程式碼實現（超級詳細的過程）

幾種常見的排序（比較） ![](https://img2020.cnblogs.com/blog/1460578/202011/1460578-20201122215204751-255787420.png) 氣泡排序這裡就按照下面的兩步模擬氣泡排序：後面的類似，就不展示。 ![](https

基於使用者的協同過濾（user-based CF）推薦系統【2】

這一篇是緊跟著上一篇基於使用者的協同過濾（user-based CF）推薦系統【1】的，這一篇只是把計算相似度的方法換成了餘弦相似度，當然最後計算評分的公式也就變了。下面只把有變化的那部分程式碼貼出來。

吳恩達機器學習（十四）推薦系統（基於梯度下降的協同過濾演算法）

目錄 0. 前言學習完吳恩達老師機器學習課程的推薦系統，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心的~ 0. 前言在推薦系統中，主要有兩種方法，基於內容的推薦

基於Spark MLlib平臺和基於模型的協同過濾演算法的電影推薦系統（一）協同過濾演算法概述&&基於模型的協同過濾的演算法思想（演算法模型和結構待補充）

本文暫時分為三部分：（一）基於Spark MLlib平臺和基於模型的協同過濾演算法的電影推薦系統（一） → 協同過濾演算法概述&&基於模型的協同過濾的演算法思想（二）基於Spark MLlib平臺和基於模型的協同過濾演算法的電影推薦

個性化推薦演算法------基於內容的推薦和基於鄰域的協同過濾

這篇文章主要討論了個性推薦演算法中，基於內容推薦和基於鄰域的協同過濾推薦的分析比較。資料集：使用者對電影的歷史評價記錄，只有喜歡與不喜歡，喜歡用1表示，不喜歡用2表示，格式如下：使用者歷史電影評分

基於使用者(user-based)的協同過濾推薦演算法的初步理解以及程式碼實現

相關推薦