1. 程式人生 > >【推薦系統】推薦系統常用資料集

【推薦系統】推薦系統常用資料集

最近在做融合評論資訊的推薦系統,找到了許多資料集,就在這裡總結一下吧。

Retailrocket 商品評論和推薦資料

The dataset consists of three files: a file with behaviour data (events.csv), a file with item properties (item_properties.csv) and a file, which describes category tree (category_tree.csv). The data has been collected from a real-world ecommerce website. It is raw data, i.e. without any content transformations, however, all values are hashed due to confidential issues. The purpose of publishing is to motivate researches in the field of recommender systems with implicit feedback.


主要適用於隱式反饋推薦系統

下載地址:https://www.kaggle.com/retailrocket/ecommerce-dataset

Million Songs Dataset 百萬音樂資料集

The Million Song Dataset is also a cluster of complementary datasets contributed by the community:

包含多種型別的音樂資料集,適用於帶標籤的推薦系統

下載地址https://labrosa.ee.columbia.edu/millionsong/

Yelp 點評網站官方公開資料

包含470萬評論和15.6萬商家資訊,以及相應的商品圖片,適用於加入評論元素的推薦系統

下載地址:https://www.yelp.com/dataset

Amazon product data

資料集包含了亞馬遜各類商品的資料,分為只有評分的資料集和即有評論也有評分的資料集

適用於加入評論元素的推薦系統

下載地址:http://jmcauley.ucsd.edu/data/amazon/

Epinions Dataset

包括使用者trust關係、使用者對item的打分資訊、評論資訊

下載地址:http://www.trustlet.org/epinions.html

HetRec2011 Dataset

包括了movielens-2k、delicious-2k和last.fm-2k。

在movielens-2k中,電影的資訊更加豐富了,有IMDB和Rotten Tomatoes的資訊,具體還有電影對應的genre、director、actor、發行的國家、拍攝的地點、tag資訊,當然還有打分資訊。

在delicious-2k中,是使用者對bookmark(書籤)的tag資訊。具體包括使用者之間的relation、書籤的title和url、使用者對書籤使用的tag。這個資料集適用於tag的推薦。

在last.fm-2k中,是使用者收聽音樂的資訊。具體包括雙向的朋友關係、藝術家、使用者收聽藝術家資訊(有weight)、使用者對藝術家的tag資訊、藝術家tag資訊。

適用於加入標籤的推薦系統

下載地址:https://grouplens.org/datasets/hetrec-2011/

sugar~