1. 程式人生 > >16個推薦系統開放公共資料集整理分享

16個推薦系統開放公共資料集整理分享

(本文由深度學習與NLP編譯)

本文主要整理了一些與推薦系統相關的高質量的資料集。整理自Stack Overflow、一些文章、推薦站點和學術實驗。其中,大多數資料集都是免費、開放的,但有些不是,需要獲得許可或引用作者的工作才能使用。此外,其中也包含一些預處理資料,可用於學術實驗。連結和資料集描述。

Book

· 1. Book Crossing

BookCrossing(BX)資料集由Cai-Nicolas花了的4周(2004年8月/ 9月)從Book-Crossing社群中爬取得到的。

電子商務

· 2. Amazon

該資料集包括自1996年5月至2014年7月,來自亞馬遜上的1.428億產品的評論和metadata。

· 3. Retailrocket推薦系統資料集

該資料集由三個檔案組成:一個行為資料集(events.csv),一個屬性資料集(item_properties.сsv)和一個類目樹資料集(category_tree.сsv)。該資料來自現實世界的電子商務網站。

音樂

· 4. Amazon Music

該數字音樂資料集包含來自亞馬遜的評論和元資料

· 5. Yahoo Music

該資料集是一個快照,收集了音樂社群對各種音樂藝術家的偏好。

· 6. LastFM(Implicit)

該資料集收集了Last.fm網站上2千名使用者的社交網路、tagging和music artist listening資訊。

· 7. Milion Song Dataset

Million Song資料集是一個免費的資料集,提供了一百萬條當代流行音樂曲目相關的的audio features和metadata。

電影

· 8. MovieLens

GroupLens Research已經從他們的電影網站收集整理的rating資料集。

· 9. Yahoo Movies

該資料集包含從兩個不同來源收集的歌曲的rating資料集。第一個來源是使用者在與Yahoo上使用音樂服務是產生的rating資料。

· 10. CiaoDVD

CiaoDVD是2013年12月從

http://dvd.ciao.co.uk網站上抓取的DVD類別資料集。

·11. FilmTrust

FilmTrust是2011年6月從整個FilmTrust網站上抓取的一個小型資料集。

· 12. Netflix

這是Netflix獎競賽中使用的官方資料集。

遊戲

· 13. Steam Video Games

這是一個使用者行資料集,包含:user-id,game-title,behavior-name,value。包括“purchase”和“play”資料集。購買了,puchase的值為1,而“play”的值表示使用者播放音樂的時長。

Jokes

· 14. Jester

該笑話資料集包含來自73,496個使用者,關於100個笑話的410萬連續rating資料(-10.00到+10.00)

餐飲

·15. Chicago Entree

該資料集包含使用者與Entree Chicago餐廳推薦系統互動的記錄資料。

動漫

·16. 動漫推薦資料庫

該資料集包含來自12,294個動漫的73,516個使用者的使用者偏好資料。每個使用者都可以將動畫新增到已完成的列表中併為其評分,該資料集把這些評級整理起來。

其他資料集

· GroupLens資料集

· LibRec資料集

· Yahoo Research資料集

· 斯坦福大型網路資料集彙編

相關推薦

16推薦系統開放公共資料整理分享

(本文由深度學習與NLP編譯) 本文主要整理了一些與推薦系統相關的高質量的資料集。整理自Stack Overflow、一些文章、推薦站點和學術實驗。其中,大多數資料集都是免費、開放的,但有些不是,需要獲得許可或引用作者的工作才能使用。此外,其中也包含一些預處理資料,可用於學

最強資料集合:50最佳機器學習公共資料丨資源

原作 mlmemoirs 郭一璞 編譯 量子位 報道 | 公眾號 QbitAI 外國自媒體mlmemoirs根據github、福布斯、CMU官網等資訊,整理了一張50個最佳機器學習公共資料集的榜單,量子位為大家分享一下~ 提前說兩個須知: 尋找資料集の奧義

推薦系統:MovivLens20M資料解析

          MovieLens 是歷史最悠久的推薦系統。它由美國 Minnesota 大學電腦科學與工程學院的 GroupLens 專案組創辦,是一個非商業性質的、以研究為目的的實驗性站點。MovieLens 主要使用 Collaborative Filtering

最強資料50最佳機器學習公共資料,可以幫你驗證idea!

1.  尋找資料集の奧義 根據CMU的說法,尋找一個好用的資料集需要注意一下幾點: 資料集不混亂,否則要花費大量時間來清理資料。 資料集不應包含太多行或列,否則會難以使用。 資料越乾淨越好,清理大型資料集可能非常耗時。 應該預設一個有趣的問題,而這個問題又可以用資料來

推薦系統蒐集分析資料

前言  本文主要介紹推薦系統如何蒐集,分析資料,通過必要的推薦演算法,使推薦結果符合使用者的個人口味。 一.利用使用者行為資料 目錄 什麼叫做使用者行為資料 為什麼利用使用者

最佳機器學習公共資料

一、去哪裡找資料集 Kaggle:愛競賽的盆友們應該很熟悉了,Kaggle上有各種有趣的資料集,拉麵評級、籃球資料、甚至西雅圖的寵物許可證。 https://www.kaggle.com/ UCI機器學習庫:最古老的資料集源之一,是尋找有趣資料集的第一站。雖然

樹莓派Ubuntu 16.04 MATA系統 修改使用者資料夾名後,提示configure it with blueman-service

    自從修改了樹莓派的Ubuntu 16.04 MATA 系統的 /home/ 下的使用者資料夾名後,使用vncserver遠端操作,看到桌面每次都提示 Configured directory for incoming files does not exist  &n

從0構建AI推薦系統demo(資料準備)

前言 推薦系統一直以來都是人工智慧領域中較為火熱的研究方向之一,最近公司需要構建常見的資訊類推薦系統,本人也從無到有、從0開始構建AI推薦系統demo版。此篇主要講述最基本的資料準備中,最最最最基本的常用操作。 一、資料準備 記得之前看到過一句話,大致意思是說:資料和特

資料——從推薦策略演算法到推薦系統,到資料架構,再到產品設計

01 推薦策略以及演算法的百花齊放 承上,我們講了最基礎的基於內容屬性本身的相似關係進行鍼對物品的推薦,再到基於使用者的興趣屬性進行推薦,再過渡到基於協同關係進行推薦,其實這些都算是推薦的策略,說的更技術點就是推薦的演算法。 而推薦策略的想象力其實無限的,並不侷限於某

深度學習對話系統理論篇--資料和評價指標介紹

對話系統常用評價指標 當前對話系統之所以還沒有取得突破性的進展,很大程度上是因為沒有一個可以準確表示回答效果好壞的評價標準。對話系統中大都使用機器翻譯、摘要生成領域提出來的評價指標,但是很明顯對話系統的場景和需求與他們是存在差別的,這也是當前模型效果不是很好的

【乾貨】二十五深度學習相關公開資料

https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/

助力中文文字識別突破,美團公開首真實場景招牌影象資料

浪費了“黃金五年”的Java程式設計師,還有救嗎? >>>   

第三篇:基於深度學習的人臉特徵點檢測 - 資料整理

https://yinguobing.com/facial-landmark-localization-by-deep-learning-data-collate/ 在上一篇博文中,我們已經下載到了包括300-W、LFPW、HELEN、AFW、IBUG和300-VW在內的6個數據集,初步估算有2

資料整理】人體行為識別和影象識別

原連結:https://blog.csdn.net/liuxiao214/article/details/78889662 謝謝博主的整理,轉載一下以便查閱。   一共12個人體行為識別的資料集,基於視訊的; 6個影象識別的,有關物體識別、行人識別、年齡識別和人頭檢測的,基

資料整理

轉:https://blog.csdn.net/liuxiao214/article/details/78889662 一共12個人體行為識別的資料集,基於視訊的; 6個影象識別的,有關物體識別、行人識別、年齡識別和人頭檢測的,基於影象,影象識別資料集參考於部落格:http://blog.c

【活體檢測】人臉活體檢測、紅外人臉資料整理

此篇部落格主要整理人臉活體檢測的資料集。 目前人臉活體攻擊的方式主要有:照片列印、視訊回放攻擊、3D人臉面具等。因此資料集也是根據這些攻擊方式製作的。 一共整理了11個活體檢測的資料集。此外還整理了6個紅外人臉資料集。 活體檢測資料集 紅外資料: IDIAP:mssp

霧天影象資料整理

D-hazy資料集 介紹瞭如何用深度圖生成霧天 使用了以下室內資料集 middlebury http://vision.middlebury.edu/stereo/data/scenes2014/ 2.NYU2 Depth https://cs.nyu.edu/~s

目前開源資料整理

Attention! 我的Dr.Sure專案正式上線了,主旨在分享學習Tensorflow以及DeepLearning中的一些想法。期間隨時更新我的論文心得以及想法。 Images Analysis 資料集 介紹 備註

公開資料整理

2016年10月1日 為了促進計算機視覺技術的進步,谷歌釋出了Open Images,大約900萬URL的已經標註影象資料集,橫跨6000個分類。 2016年8月20日 機器學習的一個數據庫 2016年8月2日 清華大學唐傑老師課題

轉發--目前開源資料整理

--------------------- 本文來自 忘情擺渡 的CSDN 部落格 ,全文地址請點選:https://blog.csdn.net/wangqingbaidu/article/details/80635618?utm_source=copy  Atten