【實踐】基於spark的CF實現及優化

阿新 • • 發佈：2019-01-04

最近專案中用到ItemBased Collaborative Filtering，實踐過spark mllib中的ALS，但是因為其中涉及到降維操作，大資料量的計算實在不能恭維。

所以自己實踐實現基於spark的分散式cf，已經做了部分優化。目測執行效率還不錯。以下程式碼

package model

import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{DataFrame}
import org.apache.spark.sql.hive.HiveContext

/**
  * Created by dengxing on 2017/7/18.
  */
object CF {

  /** 基於dt時間獲取原始資料來源
    *
    * @param sc    SparkContext
    * @param table 轉換的hive表
    * @param day   獲取當前日期的資料
    * @return 原始資料的dataFrame
    */
  def getResource(sc: SparkContext, table: String, day: String) = {
    val hiveContext = new HiveContext(sc)
    import hiveContext.sql
    val resource = sql("select "
      + "uid,"
      + "aid,"
      + "cnt"
      + " from " + table + " where dt ='" + day + "'")
    resource
  }

  /**
    * 分散式計算餘弦相似度
    * --------------------------------
    * user1     user2
    * item1  score11   score21 (X)
    * item2  score12   score22 (Y)
    * --------------------------------
    * sim(item1,item2) = XY / math.sqrt(XX) * math.sqrt(YY)
    * XY= score11 * score12 + score21 * score22
    * XX = score11 * score11 + score21 * score21
    * YY = score12 * score12 + score22 * score22
    *
    * @param resource
    * @return RDD[(item1,item2,sim)]
    */
  def getCosineSimilarity(resource: DataFrame): RDD[(String, (String, Double))] = {
    val rating = resource.map {
      row => {
        val uid = row.getString(0)
        val aid = row.getString(1)
        val score = row.getString(2).toDouble
        (uid, aid, score)
      }
    }
    //RDD[(uid,(aid,score))]
    val user_item_score = rating.map(f => (f._1, (f._2, f._3)))
    /*
     * 提取每個使用者有過行為的item鍵值對,即
     * RDD[((aid1,aid2),(score11,score22))]
     */
    val item_score_pair = user_item_score.join(user_item_score)
      .map(f => ((f._2._1._1, f._2._2._1), (f._2._1._2, f._2._2._2)))
    /*
     * 提取同一對item，所有的使用者評分向量的點積，即XY 及 XX 及 YY
     * RDD[((aid1,aid2),score11 * score12 + score21 * score22)]
     * 及 RDD[((aid1,aid1),score11 * score11 + score21 * score21)]
     * 及 RDD[((aid2,aid2),score12 * score12 + score22 * score22)]
     */
    val item_pair_ALL = item_score_pair.map(f => (f._1, f._2._1 * f._2._2)).reduceByKey(_ + _)
    /*
     * 提取每個item，所有使用者的自向量的點積，即XX或YY
     * RDD[((aid1,aid1),score11 * score11 + score21 * score21)]
     * 或 RDD[((aid2,aid2),score12 * score12 + score22 * score22)]
     */
    val item_pair_XX_YY = item_pair_ALL.filter(f => f._1._1 == f._1._2)
    /*
     * 提取每個item，所有使用者的非自向量的點積，即XY
     * RDD[((aid1,aid2),score11 * score12 + score21 * score22)]
     */
    val item_pair_XY = item_pair_ALL.filter(f => f._1._1 != f._1._2)
    /*
     * 提取item_pair_XX_YY中的item及XX或YY
     * RDD[(aid1,score11 * score11 + score21 * score21)]
     * 或 RDD[(aid2,score12 * score12 + score22 * score22)]
     */
    val item_XX_YY = item_pair_XX_YY.map(f => (f._1._1, f._2))
    /*
     *  轉化item_pair_XY為(aid1,((aid1,aid2,XY),XX)))
     *  RDD[(aid1,((aid1,aid2,score11 * score12 + score21 * score22),score11 * score11 + score21 * score21)))]
     */
    val item_XY_XX = item_pair_XY.map(f => (f._1._1, (f._1._1, f._1._2, f._2))).join(item_XX_YY)
    /*
     *  轉為item_XY_XX為(aid2,((aid1,aid2,XY,XX),YY))
     *  RDD[(aid2,((aid1,aid2,score11 * score12 + score21 * score22,score11 * score11 + score21 * score21),score12 * score12 + score22 * score22))]
     */
    val item_XY_XX_YY = item_XY_XX.map(f => (f._2._1._2, (f._2._1._1, f._2._1._2, f._2._1._3, f._2._2))).join(item_XX_YY)
    /*
     *  提取item_XY_XX_YY中的(aid1,aid2,XY,XX,YY))
     *  RDD[(aid1,aid2,score11 * score12 + score21 * score22,score11 * score11 + score21 * score21,score12 * score12 + score22 * score22)]
     */
    val item_pair_XY_XX_YY = item_XY_XX_YY.map(f => (f._2._1._1, f._2._1._2, f._2._1._3, f._2._1._4, f._2._2))
    /*
     *  轉化item_pair_XY_XX_YY為(aid1,aid2,XY / math.sqrt(XX * YY))
     *  RDD[(aid1,aid2,score11 * score12 + score21 * score22 / math.sqrt((score11 * score11 + score21 * score21)*(score12 * score12 + score22 * score22))]
     */
    val item_pair_sim = item_pair_XY_XX_YY.map(f => (f._1, (f._2, f._3 / math.sqrt(f._4 * f._5))))
    item_pair_sim
  }

  /**
    * 基於item相似度矩陣為user生成topN推薦列表
    *
    * @param resource
    * @param item_sim_bd
    * @param topN
    * @return RDD[(user,List[(item,score)])]
    */
  def recommend(resource: DataFrame, item_sim_bd: Broadcast[scala.collection.Map[String, List[(String, Double)]]], topN: Int = 50) = {
    val user_item_score = resource.map(
      row => {
        val uid = row.getString(0)
        val aid = row.getString(1)
        val score = row.getString(2).toDouble
        ((uid, aid), score)
      }
    )
    /*
     * 提取item_sim_user_score為((user,item2),sim * score)
     * RDD[(user,item2),sim * score]
     */
    val user_item_simscore = user_item_score.flatMap(
      f => {
        val items_sim = item_sim_bd.value.getOrElse(f._1._2, List(("0", 0.0)))
        for (w <- items_sim) yield ((f._1._1, w._1), w._2 * f._2)
      }).filter(_._2 > 0.03)

    /*
     * 聚合user_item_simscore為 (user,（item2,sim1 * score1 + sim2 * score2）)
     * 假設user觀看過兩個item,評分分別為score1和score2，item2是與user觀看過的兩個item相似的item,相似度分別為sim1，sim2
     * RDD[(user,item2),sim1 * score1 + sim2 * score2）)]
     */
    val user_item_rank = user_item_simscore.reduceByKey(_ + _, 1000)
    /*
     * 過濾使用者已看過的item,並對user_item_rank基於user聚合
     * RDD[(user,CompactBuffer((item2,rank2）,(item3,rank3)...))]
     */
    val user_items_ranks = user_item_rank.subtractByKey(user_item_score).map(f => (f._1._1, (f._1._2, f._2))).groupByKey()
    /*
     * 對user_items_ranks基於rank降序排序，並提取topN,其中包括使用者已觀看過的item
     * RDD[(user,ArrayBuffer((item2,rank2）,...,(itemN,rankN)))]
     */
    val user_items_ranks_desc = user_items_ranks.map(f => {
      val item_rank_list = f._2.toList
      val item_rank_desc = item_rank_list.sortWith((x, y) => x._2 > y._2)
      (f._1, item_rank_desc.take(topN))
    })
    user_items_ranks_desc
  }

  /**
    * json 編碼
    *
    * @param recTopN 離線推薦結果
    */
  def encodeToJson(recTopN: (String, List[(String, Double)])) = {
    val mtype = "u2a"
    val mtype_ = "\"" + "mtype" + "\"" + ":" + "\"" + mtype + "\""
    val uid = recTopN._1
    val uid_ = "\"" + "uid" + "\"" + ":" + "\"" + uid + "\""
    val aid_score = recTopN._2
    val aids_ = new StringBuilder().append("\"" + "aids" + "\"" + ":[")
    for (v <- aid_score) {
      val aid = v._1
      val score = v._2
      val aid_score = "[" + "\"" + aid + "\"" + "," + score + "]"
      aids_.append(aid_score + ",")
    }
    aids_.deleteCharAt(aids_.length - 1).append("]")
    val result = "{" + mtype_ + "," + uid_ + "," + aids_.toString() + "}"
    result
  }

  def main(args: Array[String]): Unit = {
    val table = args(0) //要處理的表
    val day = args(1) //當前日期
    val output = args(2) //cf相似矩陣輸出路徑

    val sparkConf = new SparkConf().setAppName("Wireless ItemBased Collaborative Filtering")
    val sc = new SparkContext(sparkConf)

    val resource = getResource(sc, table, day).repartition(500)
    resource.cache()

    // 1.計算item相似度矩陣
    val item_sim: RDD[(String, (String, Double))] = getCosineSimilarity(resource)
    item_sim.cache()

    // 2.儲存cf相似度矩陣到HDFS
    item_sim.saveAsTextFile(output)

    // 3.每個item提取最相近的40個item
    val item_sim_rdd = item_sim.filter(f => f._2._2 > 0.05).groupByKey().map(
      f => {
        val item = f._1
        val items_score = f._2.toList
        val items_score_desc = items_score.sortWith((x, y) => x._2 > y._2)
        (item, items_score_desc.take(40))
      }).collectAsMap()

    // 4.廣播相似度矩陣
    val item_sim_bd: Broadcast[scala.collection.Map[String, List[(String, Double)]]] = sc.broadcast(item_sim_rdd)

    // 5.為使用者生成推薦列表
    val recTopN = recommend(resource, item_sim_bd, 50)

    recTopN.map(encodeToJson(_)).take(10).foreach(println)


  }
}

說明：對於spark的程式層面的優化，強烈建議使用

【實踐】基於spark的CF實現及優化

最近專案中用到ItemBased Collaborative Filtering，實踐過spark mllib中的ALS，但是因為其中涉及到降維操作，大資料量的計算實在不能恭維。所以自己實踐實現基於spark的分散式cf，已經做了部分優化。目測執行效率還不錯。以下程式碼 p

【redis】基於redis實現分布式並發鎖

val 內容等待隊列過多具體實現 exec ret abs con 基於redis實現分布式並發鎖（註解實現）說明　　前提, 應用服務是分布式或多服務, 而這些"多"有共同的"redis"; 　　GitHub: https:

【MySQL】基於MySQL的SQL優化（三）——對子查詢進行優化

通常情況下，需要把子查詢優化成JOIN查詢。這是一個實現查詢演員名為“sandra”的表演影片片名的SQL，通過EXPLAIN關鍵字進行解析，這個查詢中包含三個子查詢，並且出現

【實踐】基於CentOS7部署Ceph叢集（版本10.2.2）

1 簡單介紹Ceph的部署模式下主要包含以下幾個型別的節點Ø Ceph OSDs: A Ceph OSD 程序主要用來儲存資料，處理資料的replication,恢復，填充，調整資源組合以及通過檢查其他OSD程序的心跳資訊提供一些監控資訊給Ceph Monitors . 當C

【laravel】基於jwt實現用戶認證

composer 基礎 ons 生成控制器 rest temp 詳解 div 安裝及基礎配置使用 composer 安裝 # 建議使用1.0以上版本 composer require tymon/jwt-auth 1.*@rc 進行一些配置有些文檔會

【MySQL】基於MySQL的SQL優化（二）——對count（）、max（）的優化

max（）：通過一條含有max（）的語句來了解一下通過索引來優化帶有max（）方法的SQL語句。 SELECT MAX(payment_date) FROM payment;

【Python爬蟲學習實踐】基於Beautiful Soup的網站解析及數據可視化

為我 enc lambda ech 和我 find weather acc 節點在上一次的學習實踐中，我們以Tencent職位信息網站為例，介紹了在爬蟲中如何分析待解析的網站結構，同時也說明了利用Xpath和lxml解析網站的一般化流程。在本節的實踐中，我們將以中國天氣網

【Caffe實踐】基於Caffe的人臉識別實現

導言深度學習深似海、尤其是在影象人臉識別領域，最近幾年的頂會和頂刊常常會出現沒有太多的理論創新的文章，但是效果擺在那邊。 DeepID是深度學習方法進行人臉識別中的一個簡單，卻高效的一個網路模型，其結構的特點可以概括為兩句話：1、訓練一個多個人臉的分類器，當訓練好之後，就

【Caffe實踐】基於Caffe的人臉關鍵點檢測實現

引言如果關注Kaggle 機器學習專案的同學，一定很熟悉人臉關鍵點檢測這個任務，在2013 年的時候，ICML舉辦一個的challgene，現在放在kaggle 上作為一種最常規kaggle入門任務而存在。本文的主要目的在於驗證深度學習模型在人臉點檢測

【Caffe實踐】基於Caffe的人臉檢測實現

0. 引言深度學習可以說是在人臉分析相關領域遍地開花，近年來在人臉識別，深度學習在人臉檢測，人臉關鍵點檢測中有很廣泛的應用，這篇文章中，初步實現了基於深度學習CNN的人臉檢測。 1. 方法討論深度學習一般沒有進行直接的檢測，現有的檢測大多都是基於分

【微信H5開發】基於html2canvas實現（圖文組合）圖片長按即可儲存（簡單處理）

鑑於當前開發的功能比較簡單所以這裡只涉及html5的canvas來實現功能，所以沒有涉及很深的功能開發 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <meta http-eq

【Java原始碼】基於陣列實現的ArrayList（上）

眾所周知，Java中ArrayList是基於陣列實現的咱們先看其基本屬性： private static final int DEFAULT_CAPACITY = 10; private static final Object[

【原創】基於NodeJS Express框架開發的一個VIP視訊網站專案及原始碼分享

專案名稱：視訊網站專案開發語言：HTML，CSS（前端），JavaScript，NODEJS（expres）（後臺）資料庫：MySQL 開發環境：Win7，Webstorm 上線部署環境：Linux伺服器主要功能我們先來看一下最終的效果：使用者主頁的搭建：實現了主頁輪播圖的顯示和切換，使用者可以從

【MyCat】通過mycat實現mysql資料庫的分庫分表及sql防火牆配置

前言:隨著業務的不斷髮展,不論你怎麼優化程式碼和負載均衡,都不得不面對資料庫效能的瓶頸,為了讓資料庫的效能得到極大改善,除了優化Mysql本身的配置,以及SQL語句和索引等優化,更重要的就是對現有資料庫進行合理拆分,然後分佈在不同的伺服器上,以減輕單個伺服器的IO壓力,本篇就

【Java】基於jsoup爬蟲實現（從智聯獲取工作資訊）

這幾天在學習Java解析xml，突然想到Dom能不能解析html，結果試了半天行不通，然後就去查了一些資料，發現很多人都在用Jsoup解析html檔案，然後研究了一下，寫了一個簡單的例項，感覺還有很多地方需要潤色，在這裡分享一下我的例項，歡迎交流指教！後續想通過Java把資料匯入到Excel或者

Android沉浸式狀態列與EditText問題【沉浸式狀態列實現及遇到的坑】

Android4.4以前的版本，狀態列都是一塊黑色的，個人認為還是比較醜的。自4.4開始，Android已經支援透明狀態列了（俗稱沉浸式狀態列）。個人認為支援沉浸式狀態列的app逼格還是比較高的，為了緊跟潮流，我們專案中也準備加入沉浸式狀態列。在實現沉浸式狀態列的過程中踩了不

【機器學習實踐】用Python實現樸素貝葉斯分類器

閱讀學習了《機器學習》第7章的貝葉斯分類器後，為了加深理解和加強python的程式碼能力，因此嘗試使用Python實現樸素貝葉斯分類器，由於初學Python的緣故，程式碼的一些實現方法可能比較繁瑣，可閱讀性有待提高。程式碼如下： #import numpy a

【規劃】基於Frenet優化軌跡的無人車動作規劃方法

動作規劃動作在無人車規劃模組的最底層，它負責根據當前配置和目標配置生成一序列的動作，我們前面討論的三次樣條插值實際上只是一個簡單的路徑，而非我們最終能夠執行的軌跡，本文介紹一種基於Frenet座標系的優化軌跡動作規劃方法，該方法在高速情況下的高階車道保持和無人駕駛都

【移動端】基於rem實現手機端頁面自適應--動態改變dpr和font-size

這兩天還是在寫手機端的那個表單頁面，我好苦惱啊。明明在chrome上除錯的時候都是可以的，但是真的用手機去掃碼看的時候，就出現問題了。蘋果手機麼有問題，都是根據dpr來設定meta標籤，動態設定font-size，顯示的跟預期的一樣。用三星手機掃也是可以的，

【資訊科技】【2009】基於線上維特比優化和隨機建模的多目標跟蹤

本文為瑞典隆德大學（作者：HÅKANARDÖ）的博士論文，共170頁。 1 引言 1.1 本文符號表示列表 1.2 前景/背景分割 1.3 目標跟蹤 1.4 交通監視 1.5 討論 1.6 本文研究貢獻 2 基於相關的影象塊匹配 2.1 引言 2.2 相關係數 2.3 實驗 2.4

【實踐】基於spark的CF實現及優化

相關推薦