mahout demo——本質上是基於Hadoop的分步式算法實現，比如多節點的數據合並，數據排序，網路通信的效率，節點宕機重算，數據分步式存儲

阿新 • • 發佈：2017-07-27

fin urn [] return uid content 3.0 stock blank

摘自：http://blog.fens.me/mahout-recommendation-api/

測試程序：RecommenderTest.java

測試數據集：item.csv


1,101,5.0
1,102,3.0
1,103,2.5
2,101,2.0
2,102,2.5
2,103,5.0
2,104,2.0
3,101,2.5
3,104,4.0
3,105,4.5

測試程序：org.conan.mymahout.recommendation.job.RecommenderTest.java


package org.conan.mymahout.recommendation.job;

import java.io.IOException;
import java.util.List;

import org.apache.mahout.cf.taste.common.TasteException;
import org.apache.mahout.cf.taste.eval.RecommenderBuilder;
import org.apache.mahout.cf.taste.impl.common.LongPrimitiveIterator;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.recommender.RecommendedItem;
import org.apache.mahout.common.RandomUtils;

public class RecommenderTest {

    final static int NEIGHBORHOOD_NUM = 2;
    final static int RECOMMENDER_NUM = 3;

    public static void main(String[] args) throws TasteException, IOException {
        RandomUtils.useTestSeed();
        String file = "datafile/item.csv";
        DataModel dataModel = RecommendFactory.buildDataModel(file);
        slopeOne(dataModel);
    }

    public static void userCF(DataModel dataModel) throws TasteException{}
    public static void itemCF(DataModel dataModel) throws TasteException{}
    public static void slopeOne(DataModel dataModel) throws TasteException{}

    ...

每種算法都一個單獨的方法進行算法測試，如userCF(),itemCF(),slopeOne()….

5. 基於用戶的協同過濾算法UserCF

基於用戶的協同過濾，通過不同用戶對物品的評分來評測用戶之間的相似性，基於用戶之間的相似性做出推薦。簡單來講就是：給用戶推薦和他興趣相似的其他用戶喜歡的物品。

舉例說明：

技術分享

基於用戶的 CF 的基本思想相當簡單，基於用戶對物品的偏好找到相鄰鄰居用戶，然後將鄰居用戶喜歡的推薦給當前用戶。計算上，就是將一個用戶對所有物品的偏好作為一個向量來計算用戶之間的相似度，找到 K 鄰居後，根據鄰居的相似度權重以及他們對物品的偏好，預測當前用戶沒有偏好的未涉及物品，計算得到一個排序的物品列表作為推薦。圖 2 給出了一個例子，對於用戶 A，根據用戶的歷史偏好，這裏只計算得到一個鄰居 – 用戶 C，然後將用戶 C 喜歡的物品 D 推薦給用戶 A。

上文中圖片和解釋文字，摘自： https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/

算法API: org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender


  @Override
  public float estimatePreference(long userID, long itemID) throws TasteException {
    DataModel model = getDataModel();
    Float actualPref = model.getPreferenceValue(userID, itemID);
    if (actualPref != null) {
      return actualPref;
    }
    long[] theNeighborhood = neighborhood.getUserNeighborhood(userID);
    return doEstimatePreference(userID, theNeighborhood, itemID);
  }

 protected float doEstimatePreference(long theUserID, long[] theNeighborhood, long itemID) throws TasteException {
    if (theNeighborhood.length == 0) {
      return Float.NaN;
    }
    DataModel dataModel = getDataModel();
    double preference = 0.0;
    double totalSimilarity = 0.0;
    int count = 0;
    for (long userID : theNeighborhood) {
      if (userID != theUserID) {
        // See GenericItemBasedRecommender.doEstimatePreference() too
        Float pref = dataModel.getPreferenceValue(userID, itemID);
        if (pref != null) {
          double theSimilarity = similarity.userSimilarity(theUserID, userID);
          if (!Double.isNaN(theSimilarity)) {
            preference += theSimilarity * pref;
            totalSimilarity += theSimilarity;
            count++;
          }
        }
      }
    }
    // Throw out the estimate if it was based on no data points, of course, but also if based on
    // just one. This is a bit of a band-aid on the ‘stock‘ item-based algorithm for the moment.
    // The reason is that in this case the estimate is, simply, the user‘s rating for one item
    // that happened to have a defined similarity. The similarity score doesn‘t matter, and that
    // seems like a bad situation.
    if (count <= 1) {
      return Float.NaN;
    }
    float estimate = (float) (preference / totalSimilarity);
    if (capper != null) {
      estimate = capper.capEstimate(estimate);
    }
    return estimate;
  }

測試程序:


    public static void userCF(DataModel dataModel) throws TasteException {
        UserSimilarity userSimilarity = RecommendFactory.userSimilarity(RecommendFactory.SIMILARITY.EUCLIDEAN, dataModel);
        UserNeighborhood userNeighborhood = RecommendFactory.userNeighborhood(RecommendFactory.NEIGHBORHOOD.NEAREST, userSimilarity, dataModel, NEIGHBORHOOD_NUM);
        RecommenderBuilder recommenderBuilder = RecommendFactory.userRecommender(userSimilarity, userNeighborhood, true);

        RecommendFactory.evaluate(RecommendFactory.EVALUATOR.AVERAGE_ABSOLUTE_DIFFERENCE, recommenderBuilder, null, dataModel, 0.7);
        RecommendFactory.statsEvaluator(recommenderBuilder, null, dataModel, 2);

        LongPrimitiveIterator iter = dataModel.getUserIDs();
        while (iter.hasNext()) {
            long uid = iter.nextLong();
            List list = recommenderBuilder.buildRecommender(dataModel).recommend(uid, RECOMMENDER_NUM);
            RecommendFactory.showItems(uid, list, true);
        }
    }

程序輸出：


AVERAGE_ABSOLUTE_DIFFERENCE Evaluater Score:1.0
Recommender IR Evaluator: [Precision:0.5,Recall:0.5]
uid:1,(104,4.333333)(106,4.000000)
uid:2,(105,4.049678)
uid:3,(103,3.512787)(102,2.747869)
uid:4,(102,3.000000)

mahout demo——本質上是基於Hadoop的分步式算法實現，比如多節點的數據合並，數據排序，網路通信的效率，節點宕機重算，數據分步式存儲

fin urn [] return uid content 3.0 stock blank 摘自：http://blog.fens.me/mahout-recommendation-api/ 測試程序：RecommenderTest.java 測試數據集：item.csv

mongodb 宕機重啟，linux

1.locate mongodb 找到mongodb的安裝目錄 /home/mongodb/bin 2.cd /home/mongodb/bin 切換到mongodb的安裝目錄 3../mongod --config /home/mongodb/conf/mongodb

Nginx+Memcache+一致性hash算法實現頁面分布式緩存（轉）

tps ons efi 策略可擴展性 master () list roo 網站響應速度優化包括集群架構中很多方面的瓶頸因素，這裏所說的將頁面靜態化、實現分布式高速緩存就是其中的一個很好的解決方案... 1）先來看看Nginx負載均衡 Nginx負載均衡依賴自帶的 ng

數據結構與算法題目集（中文）——5-13 統計工齡 (20分)——桶排序

color 單位 html out cin hit lis -s cnblogs 給定公司NN名員工的工齡，要求按工齡增序輸出每個工齡段有多少員工。輸入格式: 輸入首先給出正整數NN（\le 10^5≤10?5??），即員工總人數；隨後給出NN個整數，即每個員工的工齡

(2)Java數據結構--二叉樹 -和排序算法實現

運行至少 exceptio 子節點註釋 heapsort borde 搜索樹選擇排序 === 註釋：此人博客對很多個數據結構類都有講解-並加以實例 Java API —— ArrayList類 & Vector類 & Link

(九)數據結構之簡單排序算法實現：冒泡排序、插入排序和選擇排序

html lan 獎章 tmx 4tb wot 數據結構 lec get d59FG8075P7伊http://www.zcool.com.cn/collection/ZMTg2NTU2NjQ=.html 312V畏蝗淤ZP哦睬http://www.zcool.com.c

SVM：利用SVM算法實現手寫圖片識別(數據集50000張圖片)—Jason niu

圖片 clas 識別 fit ati ade loader test part import mnist_loader # Third-party libraries from sklearn import svm def svm_baseline():

案例1-合並2個不同文件夾中的csv文件到另外一個目錄，相同的文件名進行數據合並，不同的文件名直接移到新文件夾

$2 文件名進行 pri dir head print then color 發現在ubuntu和centos中有些命令還不一樣，比如<<<可在centos中使用，但是ubuntu中不行方法1，可在ubuntu和centos中使用 #!/bin/

數據結構——棧和隊列相關算法實現

建立分配 ron deque 限定 () 指向參考 empty 數據結構棧和隊列的基本算法實現限定性線性表——棧棧的定義棧作為一種限定性的線性表，是將線性表的插入和刪除操作限制為僅在表的一端進行。基本算法演示 /* 棧的常見操作： 1.初始化棧

JAVA 圖作業算法實現、代寫Graphs 數據結構作業

AD creates tina 線程 pat ada mach 嵌入結構 JAVA 圖作業算法實現、代寫Graphs 數據結構作業Lab Case – Algorithms and Data Structure, 2017-2018Phase 3. GraphsCurre

數據結構——樹的相關算法實現

std div 運行 data 左右子樹 blog etc 結構 post 二叉樹的基本算法包括二叉樹的遍歷（先、中、後），二叉樹的層次，二叉樹的深度，二叉樹的葉子節點數計算。相關算法思想可以看書，這裏只是給出相關算法實現。代碼實現 #include <stdio

數據結構（三）串---KMP模式匹配算法實現及優化

warn 查看技術分享方法 sign 匹配 pan 相同 span KMP算法實現 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <stdlib.h> #include

SQL 將一條記錄中多個字段的值拼接為一個字段 && 將多行數據合並成一行，並且拼接CONVERT() 、for xml path的使用

varchar start 技術分享現在 date rom 結果技術 ont 接著上篇文章的訂單表（商品編號，價格設置時間id(類似於創建時間，創建時間約早，則act_id越小) ，價格的時間段，商品價格）一、將一條記錄中多個字段的值拼接為一個字段現要求將兩個時間

一列數的規則如下: 1、1、2、3、5、8、13、21、34...... 求第30位數是多少，用遞歸算法實現。//斐波那契數列

write pub else ole 位數 return spa sta ati 1 public class MainClass 2 { 3 public static void Main() 4 { 5 Console.WriteLine(F

Hadoop入門-3.HDFS的簡單API（demo）（基於hadoop-2.7.3）

條件準備下載部署下載Hadoop-2.7.3.tar.gz包，可以去官網下載。也可以下載原始碼編譯：點選開啟連結然後部署在Linux上，可以參考點選開啟連結 win下eclipse開發配置通常習慣，

按日期統計收益，一天的收益數據合並為一條。一天一條數據

arc count output tab row name varchar col ble --統計今日金額合並為一條。一天一條數據 create proc sp_TableName @uid int, @bid int as begin S

（MYSQL學習筆記3）mysql兩行數據合並成一行

mysql使用SUM函數，加上GROUP BY人員ID就可以實現了：SELECT SUM(PZ+CPJS+BZ+GC+SB+TG+MJ+CL+CCLW+GJ+ZL+CBZZ) as count, SUM(PZ) as PZ,SUM(CPJS) as CPJS,SUM(BZ) as BZ,SUM(GC)

angular2^ typescript 將文件和Json數據合並發送到服務器（1.客戶端處理）

src ica div .html web ready 進行 form med 首先介紹下框架基本流程（web > webservice 【前端架構】） > （nodejs 【數據中轉站】） >（api 【後臺接口】） --web （htm

算法-實現each遍歷多維數組(javascript)

算法# 實現each遍歷多維數組 <script type="text/javascript"> // var arr=[1,2,3,4,[1,2,3,4]] // arr.forEach(function(item,index,array)){} var arr=[12

基於FPGA的RGB565_YCbCr_Gray算法實現

代碼 pro 三元組方便新的算法實現成功配置微博前面我們講了基於FPGA用VGA顯示一副靜態圖片，那麽接下來我們就接著前面的工程來實現我們圖像處理的基礎算法裏最簡單的一個那就是彩色圖像轉灰度的實現。將彩色圖像轉化為灰度的方法有兩種，一個是令

mahout demo——本質上是基於Hadoop的分步式算法實現，比如多節點的數據合並，數據排序，網路通信的效率，節點宕機重算，數據分步式存儲

摘自：http://blog.fens.me/mahout-recommendation-api/

測試程序：RecommenderTest.java

5. 基於用戶的協同過濾算法UserCF

相關推薦