1. 程式人生 > >推薦系統:MovivLens20M資料集解析

推薦系統:MovivLens20M資料集解析

          MovieLens 是歷史最悠久的推薦系統。它由美國 Minnesota 大學電腦科學與工程學院的 GroupLens 專案組創辦,是一個非商業性質的、以研究為目的的實驗性站點。MovieLens 主要使用 Collaborative Filtering 和 Association Rules 相結合的技術,向用戶推薦他們感興趣的電影。 

          This dataset (ml-20m) describes 5-star rating and free-text tagging activity from [MovieLens](http://movielens.org), a movie recommendation service. It contains 20000263 ratings and 465564 tag applications across 27278 movies. These data were created by 138493 users between January 09, 1995 and March 31, 2015. This dataset was generated on March 31, 2015, and updated on October 17, 2016 to update links.csv and add genome-* files.

        Users were selected at random for inclusion. All selected users had rated at least 20 movies. No demographic information is included. Each user is represented by an id, and no other information is provided.

        The data are contained in six files, `genome-scores.csv`, `genome-tags.csv`, `links.csv`, `movies.csv`, `ratings.csv` and `tags.csv`. More details about the contents and use of all these files follows.

         This and other GroupLens data sets are publicly available for download at <http://grouplens.org/datasets/>.

   此資料集描述了5星之內的電影不受限制的標記,用於給出使用者推薦。資料集包含了138493個使用者對27278個電影的20000263個評分和465564個標籤。此評價收集於19951月到20153月之間,並在20161017日更新為csv格式。

   使用者為隨機選取,每個選取的使用者至少評分20個電影。沒有人口統計資訊。每個使用者只給出一個ID,且不涉及其他私人資訊。

資料格式

      movieLens20M使用了CSV格式儲存資料列表,代替了10M1M100KDAT格式,可以直接視覺化分析。

      檔案列表:genome_scores.csv、genome-tags.csvlinks.csvmovies.csvratings.csvtags.csv

      movies.csvMovieId+title+geners。以此表示電影ID、電影名稱、電影流派/種類。其中電影流派具有多個標籤,即可以表示電影的多個屬性。

      用以生成電影屬性矩陣。

      Rating.csvuserId+movieId+rating+timestamp。分別表示使用者ID、電影ID、評分,以及截至時間戳。給出了使用者對電影的評分列表。

      用以生成使用者-電影評分矩陣。

      Trgs.csv: userId+ movieId+tag+timestamp。分別表示使用者ID、電影ID、使用者對電影的標籤、時間戳。給出了使用者對電影的標籤列表。

      用以生成使用者-電影標籤矩陣。??

      Links.csv:moviesId+imdeId+tmdbIdIMDB為網際網路電影資料庫。tMDB為電影資料集。給出了電影ID和兩個資料標記ID的對應關係。

      genome_tags.csv:電影標籤 DNA標記,唯一識別符號。

      genome_scores.csv: movieId+tagId+relevance。分別表示電影ID、電影標籤ID、官方標籤相關性。給出了電影的官方標籤。

      用以生成電影的標籤相關性矩陣。