基於hadoop的推薦演算法-mahout版

阿新 • • 發佈：2018-12-31

基於hadoop的推薦演算法，講其中mahout實現的基於專案的推薦演算法

分為4步：

1.獲得人-物使用者矩陣

輸入為所有人對物品的評價或關聯

map端輸出key為人，value為物品+傾好度

reeduce端輸出key為人，vallue為多個物品+傾好度

2.獲得物-物專案矩陣

輸入為“使用者矩陣”，講每一行人-物資料中的物品做笛卡爾積，生產成物-物的關聯

map端輸出為key為物，value為關聯度

reduce端輸出key為物，value為多個物的關聯度

（可以根據各種規則生成專案相似度矩陣表，此處演算法帶過）

修改：

求專案相似矩陣是基於專案的協同過濾演算法的核心

公式有很多種，核心是物品i和物品j相關使用者的交集與並集的商

mahout使用的公式是1.dot(i,j) = sum(Pi(u)*Pi(u))

2.norms(i) = sum(Pi(u)^2)

3.simi(i,j) = 1/(1+(norms(i)-2*dot(i,j)+noorm(i))^1/2)

mahout的實現方法是

第一個job，用物品-人的矩陣，求得norms，即物品的使用者平方和，輸出是物-norms

第二個job，Map：用人-物的矩陣，求Pi(u)*Pi(u),即相同使用者的物品的評價的乘機，輸出物-多個對端物品的Pi(u)*Pi(u)

Reduce：用物-多個對端物品的Pi(u)*Pi(u)和物-norms，求得物品的相似矩陣（因為這個時候可以彙總所有和這個物品相關的物品的dot）

第三個job，補全物品的相似矩陣

3.獲得使用者-專案相似矩陣

輸入為人-物使用者矩陣和物-物專案矩陣

Map端輸出key為物，value為類VectorOrPrefWritable，是包含物與人的傾好度，或是物與物的相似度

reduce端輸出key為物，value為類VectorAndPrefWritable,是彙總當個物品到所有人的傾好度和到所有物品的相似度

4.獲得使用者推薦矩陣

輸入為VectorAndPrefWritable

Map端輸出為key：人，value：物+係數（map端根據單個物品貢獻的係數生成推薦係數，也就是人到物品A的傾好度*物品A到其他物品的相似度）

reduce端輸出為key：人，，value：推薦專案+係數（reduce端使用自定公式，彙總所有單物品貢獻的四叔，求人到其他專案的傾好度，取topn作為當前使用者的推薦專案）

再在這裡貼幾個mahout推薦演算法分析的帖子：

http://eric-gcm.iteye.com/blog/1817822

http://eric-gcm.iteye.com/blog/1818033

http://eric-gcm.iteye.com/blog/1820060

以下是mahout程式碼：

ItemSimilarityJob類是mahout使用hadoop做推薦引擎的主要實現類，下面開始分析。

run()函式是啟動函式：

Java程式碼

public final class RecommenderJob extends AbstractJob {
public static final String BOOLEAN_DATA = "booleanData";
private static final int DEFAULT_MAX_SIMILARITIES_PER_ITEM = 100;
private static final int DEFAULT_MAX_PREFS_PER_USER = 1000;
private static final int DEFAULT_MIN_PREFS_PER_USER = 1;
@Override
public int run(String[] args) throws Exception {
//這裡原來有大一堆程式碼，都是用來載入配置項，不用管它
//第一步：準備矩陣，將原始資料轉換為一個矩陣，在PreparePreferenceMatrixJob這個類中完成
if (shouldRunNextPhase(parsedArgs, currentPhase)) {
ToolRunner.run(getConf(), new PreparePreferenceMatrixJob(), new String[]{
"--input", getInputPath().toString(),
"--output", prepPath.toString(),
"--maxPrefsPerUser", String.valueOf(maxPrefsPerUserInItemSimilarity),
"--minPrefsPerUser", String.valueOf(minPrefsPerUser),
"--booleanData", String.valueOf(booleanData),
"--tempDir", getTempPath().toString()});
numberOfUsers = HadoopUtil.readInt(new Path(prepPath, PreparePreferenceMatrixJob.NUM_USERS), getConf());
}
//第二步：計算協同矩陣
if (shouldRunNextPhase(parsedArgs, currentPhase)) {
/* special behavior if phase 1 is skipped */
if (numberOfUsers == -1) {
numberOfUsers = (int) HadoopUtil.countRecords(new Path(prepPath, PreparePreferenceMatrixJob.USER_VECTORS),
PathType.LIST, null, getConf());
}
/* Once DistributedRowMatrix uses the hadoop 0.20 API, we should refactor this call to something like
* new DistributedRowMatrix(...).rowSimilarity(...) */
//calculate the co-occurrence matrix
ToolRunner.run(getConf(), new RowSimilarityJob(), new String[]{
"--input", new Path(prepPath, PreparePreferenceMatrixJob.RATING_MATRIX).toString(),
"--output", similarityMatrixPath.toString(),
"--numberOfColumns", String.valueOf(numberOfUsers),
"--similarityClassname", similarityClassname,
"--maxSimilaritiesPerRow", String.valueOf(maxSimilaritiesPerItem),
"--excludeSelfSimilarity", String.valueOf(Boolean.TRUE),
"--threshold", String.valueOf(threshold),
"--tempDir", getTempPath().toString()});
}
//start the multiplication of the co-occurrence matrix by the user vectors
if (shouldRunNextPhase(parsedArgs, currentPhase)) {
Job prePartialMultiply1 = prepareJob(
similarityMatrixPath, prePartialMultiplyPath1, SequenceFileInputFormat.class,
SimilarityMatrixRowWrapperMapper.class, VarIntWritable.class, VectorOrPrefWritable.class,
Reducer.class, VarIntWritable.class, VectorOrPrefWritable.class,
SequenceFileOutputFormat.class);
boolean succeeded = prePartialMultiply1.waitForCompletion(true);
if (!succeeded)
return -1;
//continue the multiplication
Job prePartialMultiply2 = prepareJob(new Path(prepPath, PreparePreferenceMatrixJob.USER_VECTORS),
prePartialMultiplyPath2, SequenceFileInputFormat.class, UserVectorSplitterMapper.class, VarIntWritable.class,
VectorOrPrefWritable.class, Reducer.class, VarIntWritable.class, VectorOrPrefWritable.class,
SequenceFileOutputFormat.class);
if (usersFile != null) {
prePartialMultiply2.getConfiguration().set(UserVectorSplitterMapper.USERS_FILE, usersFile);
}
prePartialMultiply2.getConfiguration().setInt(UserVectorSplitterMapper.MAX_PREFS_PER_USER_CONSIDERED,
maxPrefsPerUser);
succeeded = prePartialMultiply2.waitForCompletion(true);
if (!succeeded)
return -1;
//finish the job
Job partialMultiply = prepareJob(
new Path(prePartialMultiplyPath1 + "," + prePartialMultiplyPath2), partialMultiplyPath,
SequenceFileInputFormat.class, Mapper.class, VarIntWritable.class, VectorOrPrefWritable.class,
ToVectorAndPrefReducer.class, VarIntWritable.class, VectorAndPrefsWritable.class,
SequenceFileOutputFormat.class);
setS3SafeCombinedInputPath(partialMultiply, getTempPath(), prePartialMultiplyPath1, prePartialMultiplyPath2);
succeeded = partialMultiply.waitForCompletion(true);
if (!succeeded)
return -1;
}
if (shouldRunNextPhase(parsedArgs, currentPhase)) {
//filter out any users we don't care about
/* convert the user/item pairs to filter if a filterfile has been specified */
if (filterFile != null) {
Job itemFiltering = prepareJob(new Path(filterFile), explicitFilterPath, TextInputFormat.class,
ItemFilterMapper.class, VarLongWritable.class, VarLongWritable.class,
ItemFilterAsVectorAndPrefsReducer.class, VarIntWritable.class, VectorAndPrefsWritable.class,
SequenceFileOutputFormat.class);
boolean succeeded = itemFiltering.waitForCompletion(true);
if (!succeeded)
return -1;
}
String aggregateAndRecommendInput = partialMultiplyPath.toString();
if (filterFile != null) {
aggregateAndRecommendInput += "," + explicitFilterPath;
}
//extract out the recommendations
Job aggregateAndRecommend = prepareJob(
new Path(aggregateAndRecommendInput), outputPath, SequenceFileInputFormat.class,
PartialMultiplyMapper.class, VarLongWritable.class, PrefAndSimilarityColumnWritable.class,
AggregateAndRecommendReducer.class, VarLongWritable.class, RecommendedItemsWritable.class,
TextOutputFormat.class);
Configuration aggregateAndRecommendConf = aggregateAndRecommend.getConfiguration();
if (itemsFile != null) {
aggregateAndRecommendConf.set(AggregateAndRecommendReducer.ITEMS_FILE, itemsFile);
}
if (filterFile != null) {
setS3SafeCombinedInputPath(aggregateAndRecommend, getTempPath(), partialMultiplyPath, explicitFilterPath);
}
setIOSort(aggregateAndRecommend);
aggregateAndRecommendConf.set(AggregateAndRecommendReducer.ITEMID_INDEX_PATH,
new Path(prepPath, PreparePreferenceMatrixJob.ITEMID_INDEX).toString());
aggregateAndRecommendConf.setInt(AggregateAndRecommendReducer.NUM_RECOMMENDATIONS, numRecommendations);
aggregateAndRecommendConf.setBoolean(BOOLEAN_DATA, booleanData);
boolean succeeded = aggregateAndRecommend.waitForCompletion(true);
if (!succeeded)
return -1;
}
return 0;
}

第二步，計算協同矩陣，主要在RowSimilarityJob 這個類中完成

Java程式碼

ToolRunner.run(getConf(), new RowSimilarityJob(), new String[]{
"--input", new Path(prepPath, PreparePreferenceMatrixJob.RATING_MATRIX).toString(),
"--output", similarityMatrixPath.toString(),
"--numberOfColumns", String.valueOf(numberOfUsers),
"--similarityClassname", similarityClassname,
"--maxSimilaritiesPerRow", String.valueOf(maxSimilaritiesPerItem),
"--excludeSelfSimilarity", String.valueOf(Boolean.TRUE),
"--threshold", String.valueOf(threshold),
"--tempDir", getTempPath().toString()});
}

可以看到這個job的輸入路徑就是上一篇中，PreparePreferenceMatrixJob中最後一個reducer的輸出路徑。

下邊詳細分析RowSimilarityJob類的實現：

Java程式碼

public class RowSimilarityJob extends AbstractJob {
@Override
public int run(String[] args) throws Exception {
//一大堆載入引數的程式碼，忽略
//第一個MapReduce
if (shouldRunNextPhase(parsedArgs, currentPhase)) {
Job normsAndTranspose = prepareJob(getInputPath(), weightsPath, VectorNormMapper.class, IntWritable.class,
VectorWritable.class, MergeVectorsReducer.class, IntWritable.class, VectorWritable.class);
normsAndTranspose.setCombinerClass(MergeVectorsCombiner.class);
Configuration normsAndTransposeConf = normsAndTranspose.getConfiguration();
normsAndTransposeConf.set(THRESHOLD, String.valueOf(threshold));
normsAndTransposeConf.set(NORMS_PATH, normsPath.toString());
normsAndTransposeConf.set(NUM_NON_ZERO_ENTRIES_PATH, numNonZeroEntriesPath.toString());
normsAndTransposeConf.set(MAXVALUES_PATH, maxValuesPath.toString());
normsAndTransposeConf.set(SIMILARITY_CLASSNAME, similarityClassname);
boolean succeeded = normsAndTranspose.waitForCompletion(true);
if (!succeeded) {
return -1;
}
}
//第二個MapReduce
if (shouldRunNextPhase(parsedArgs, currentPhase)) {
Job pairwiseSimilarity = prepareJob(weightsPath, pairwiseSimilarityPath, CooccurrencesMapper.class,
IntWritable.class, VectorWritable.class, SimilarityReducer.class, IntWritable.class, VectorWritable.class);
pairwiseSimilarity.setCombinerClass(VectorSumReducer.class);
Configuration pairwiseConf = pairwiseSimilarity.getConfiguration();
pairwiseConf.set(THRESHOLD, String.valueOf(threshold));
pairwiseConf.set(NORMS_PATH, normsPath.toString());
pairwiseConf.set(NUM_NON_ZERO_ENTRIES_PATH, numNonZeroEntriesPath.toString());
pairwiseConf.set(MAXVALUES_PATH, maxValuesPath.toString());
pairwiseConf.set(SIMILARITY_CLASSNAME, similarityClassname);
pairwiseConf.setInt(NUMBER_OF_COLUMNS, numberOfColumns);
pairwiseConf.setBoolean(EXCLUDE_SELF_SIMILARITY, excludeSelfSimilarity);
boolean succeeded = pairwiseSimilarity.waitForCompletion(true);
if (!succeeded) {
return -1;
}
}
//第三個MapReduce
if (shouldRunNextPhase(parsedArgs, currentPhase)) {
Job asMatrix = prepareJob(pairwiseSimilarityPath, getOutputPath(), UnsymmetrifyMapper.class,
IntWritable.class, VectorWritable.class, MergeToTopKSimilaritiesReducer.class, IntWritable.class,
VectorWritable.class);
asMatrix.setCombinerClass(MergeToTopKSimilaritiesReducer.class);
asMatrix.getConfiguration().setInt(MAX_SIMILARITIES_PER_ROW, maxSimilaritiesPerRow);
boolean succeeded = asMatrix.waitForCompletion(true);
if (!succeeded) {
return -1;
}
}
return 0;
}

可以看到RowSimilityJob也是分成三個MapReduce過程：

1、Mapper ：VectorNormMapper類，輸出 ( userid_index, <itemid_index, pref> )型別

基於hadoop的推薦演算法-mahout版

基於hadoop的推薦演算法，講其中mahout實現的基於專案的推薦演算法分為4步： 1.獲得人-物使用者矩陣輸入為所有人對物品的評價或關聯 map端輸出key為人，value為物品+傾好度 reed

基於內容推薦演算法詳解(比較全面的文章)

Collaborative Filtering Recommendations (協同過濾，簡稱CF) 是目前最流行的推薦方法，在研究界和工業界得到大量使用。但是，工業界真正使用的系統一般都不會只有CF推薦演算法，Content-based Recommendations

【mahout筆記】初步理解userCF（基於使用者的推薦演算法）在mahout的實現

昨天嘗試在java中搭建了一個mahout的小demo，實現的就是基於使用者的推薦演算法。程式碼如下（更多程式碼和測試資料庫）參見前一篇： public class RecommendTest { final static int NEIGHBORHOOD_NUM =

【備忘】基於Hadoop，Spark大資料技術的推薦系統演算法實戰教程

課程簡介： 2017年最新大資料推薦系統演算法實戰視訊教程，共18.1G容量。附講義、程式碼與練習資料,配套齊全,高清不加密。課程介紹：網際網路行業是大資料應用最前沿的陣地，目前主流的大資料技術，包括 ha

Mahout系列之推薦演算法-基於物品協同過濾實踐

上文已經說明了使用者的協同過濾，這篇也來談談基於物品的協同過濾。 2.基於物品的協同過濾類似的，也很容易做出一個簡單的基於物品的過濾方法。 1. 單機基本演算法實踐 public static void ItemBased() {try {//DataModel mo

Mahout系列之推薦演算法-基於使用者協同過濾

Mahout的一大特色就是包含了推薦演算法，裡面包括了多種常見的演算法，下面我們來分析分析。針對基於使用者行為資料的推薦演算法一般稱為協同過濾演算法。協同過濾演算法有基於領域(neighborhood-based)的方法，隱語義模型(latent factor model

基於hadoop生態系統的mahout推薦和聚類分析（1）

簡介 hadoop是Apache旗下的一個開源分散式計算平臺，在分散式環境下為使用者提供處理海量資料的能力。 mahout是hadoop下的一個子專案，主要用於推薦、分類和聚類分析一、推薦關於推薦的演算法有很多，本次主要介紹協同過濾演算法。（1）基於使用者的協

【mahout筆記】初步理解itemCF（基於物品的推薦演算法）在mahout的實現

之前分析了基於使用者的CF的原理。今天嘗試除錯一下基於物品的CF演算法。感謝大佬的整理為我指明方向。基於物品的CF的原理和基於使用者的CF類似，只是在計算鄰居時採用物品本身，而不是從使用者的角度，即基於使用者對物品的偏好找到相似的物品，然後根據使用者的歷史偏好，推

【九】hadoop程式設計之基於內容的推薦演算法

基於內容的協同過濾推薦演算法：給使用者推薦和他們之前喜歡的物品在內容上相似的其他物品物品特徵建模（item profile）以電影為例1表示電影具有某特徵，0表示電影不具有某特徵科幻言情喜劇動作

mahout demo——本質上是基於Hadoop的分步式算法實現，比如多節點的數據合並，數據排序，網路通信的效率，節點宕機重算，數據分步式存儲

fin urn [] return uid content 3.0 stock blank 摘自：http://blog.fens.me/mahout-recommendation-api/ 測試程序：RecommenderTest.java 測試數據集：item.csv

PersonalRank-基於圖的推薦演算法

演算法介紹在推薦系統中，使用者行為資料可以表示成圖的形式，具體來說是二部圖。使用者的行為資料集由一個個（u,i）二元組組成，表示為使用者u對物品i產生過行為。本文中我們認為使用者對他產生過行為的物品的興趣度是一樣的，也就是我們只考慮“感興趣”OR“不感興趣”。假設有下圖所示的行為資料集。

基於內容的推薦演算法的實現程式碼例項

本次例項需要三個資料檔案分別為節目及其所屬標籤型別的01矩陣；使用者--節目評分矩陣；使用者收視了的節目--標籤01矩陣。可以直接下載下來使用https://download.csdn.net/download/qq_38281438/10757266 具體程式碼如下： #

基於使用者的電視節目推薦演算法例項

# -*- coding: utf-8 -*- """ Created on Thu Nov 1 10:29:52 2018 @author: AZ """ # 程式碼說明： # 基於使用者的協同過濾演算法的具體實現 import math import numpy as np import

基於使用者的協同過濾和基於物品的協同過濾推薦演算法圖解

在協同過濾中，有兩種主流方法：基於使用者的協同過濾，和基於物品的協同過濾。具體怎麼來闡述他們的原理呢，看個圖大家就明白了基於使用者的 CF 的基本思想相當簡單，基於使用者對物品的偏好找到相鄰鄰居使用者，然後將鄰居使用者喜歡的推薦給當前使用者。計算上，就是將一個使用者對所有物品

基於物品(使用者)的推薦演算法

mapreduce 用mapreduce計算框架實現了3個小demo: wordcount、基於物品的推薦演算法(itemCF)和基於使用者的推薦演算法(userCF) 程式碼連線： https://github.com/marvelousgirl/mapreduce item

基於協同過濾演算法的推薦

基於協同過濾演算法的推薦（本實驗選用資料為真實電商脫敏資料，僅用於學習，請勿商用）資料探勘的一個經典案例就是尿布與啤酒的例子。尿布與啤酒看似毫不相關的兩種產品，但是當超市將兩種產品放到相鄰貨架銷售的時候，會大大提高兩者銷量。很多時候看似不相關的兩種產品，卻會存在這某種神祕的隱含關係，獲取這種關係將會

移動推薦演算法（二）：基於簡單規則的預測

本文為轉載文章，來源為： https://blog.csdn.net/Snoopy_Yuan/article/details/72850601 一直在探索資料探勘、資料建模的案例，百度搜到這篇文章，收穫頗豐，轉載以作記錄。前言：移動推薦演算法是阿里天池賽2015年賽題之

基於圖的推薦演算法及Python實現（PersonalRank）

使用隨機遊走演算法PersonalRank實現基於圖的推薦。二部圖在推薦系統中，使用者行為資料可以表示成圖的形式，具體來說是二部圖。使用者的行為資料集由一個個（u,i）二元組組成，表示為使用者u對物品i產生過行為。本文中我們認為使用者對他產生過行為的物品的興

Mahout推薦演算法API詳解

前言用Mahout來構建推薦系統，是一件既簡單又困難的事情。簡單是因為Mahout完整地封裝了“協同過濾”演算法，並實現了並行化，提供非常簡單的API介面；困難是因為我們不瞭解演算法細節，很難去根據業務的場景進行演算法配置和調優。本文將深入演算法API去解釋Mahout推薦演算

基於hadoop的推薦演算法-mahout版

相關推薦