1. 程式人生 > >論文淺嘗 | 打通推薦系統與知識圖譜: 第一個公開的大規模連結資料集合

論文淺嘗 | 打通推薦系統與知識圖譜: 第一個公開的大規模連結資料集合

本文轉載自:RUC智慧情報站,知乎專欄連結:https://zhuanlan.zhihu.com/RucAIBox

640?wx_fmt=jpeg

前言:近年來,知識圖譜(KB)被廣泛應用於推薦系統(RS),但尚未有公開將推薦系統物品連結到知識圖譜實體的資料集。本文結合SIGIR2018論文《Improving Sequential Recommendation with Knowledge-Enhanced Memory Networks》所用資料集 [1],公佈了相關連結資料集 [2],希望能對大家有所幫助。

一、動機/引介

近年來,學術界和工業界都致力於利用結構化的知識資訊和相關領域的已知事實來提升各項應用。在眾多資料形式中,知識圖譜高度結構化,能夠有效組織和關聯相關實體,被廣泛運用到各個領域。推薦任務中利用知識圖譜提升推薦的質量和可解釋性,相關的推薦系統被稱為knowledge-aware recommender systems。

為了適應推薦系統和知識圖譜相關研究需求,本工作啟發式地將推薦資料中的物品連結到大型知識圖譜中的實體,為推薦系統的物品提供蘊含豐富語義的結構化知識資訊。本工作將其整理,釋出為公開的推薦系統-知識圖譜連結資料集KB4Rec v1.0。

二、資料集概況

KB4Rec v1.0資料集,構建了推薦系統資料集物品(RS item)到知識圖譜實體(KB entity)的連結。在推薦系統方面,選取了三個得到廣泛使用的資料集:MovieLens 20M [3]、LFM-1b [4]、Amazon book [5],分別對應電影、音樂和書籍三個領域;在知識圖譜方面,選取了研究者常用的Freebase [6]。

KB4Rec v1.0資料集由連結的ID對組成,包括推薦系統的物品ID和Freebase中的實體ID。連結檔案片段(電影資料集合MovieLens 20M)如下所示:

     25991	m.09pglcq
     25993	m.0cjwhb
     25994	m.0k443
     25995	m.0b7kj8

通過此連結,能夠找到部分推薦系統中物品在知識圖譜內對應的實體,並通過讀取與該實體相關的三元組,獲取相應的屬性。舉個例子,電影“阿凡達”通過連結找到相應實體,讀出與之相關的三元組能夠在知識圖譜中找到相應的演員、導演等屬性。

連結資料集(三個領域)的資料統計見下表:

640?wx_fmt=jpeg

三、連結分析

可以看到不是所有推薦系統中的物品都能夠在Freebase中找到對應的實體。對於各領域連結比例(linkage ratio),本工作參照各推薦領域內物品流行度做了相關分析,其中物品流行度由推薦資料中與物品有互動記錄的使用者數代表。首先,將推薦系統中的物品按流行度升序排序,等分到5個桶(bin)中,展示相應部分連結比例。如下圖,可以發現:流行度高的物品更傾向於被Freebase所包含。

640?wx_fmt=jpeg

針對MovieLens 20M資料集,還對電影的釋出時間與連結比例做了分析。對所有電影按釋出時間升序排序,等分到10桶(bin)中,展示相應連結比例。如下圖所示,可以發現:越早釋出的電影越傾向於被Freebase所包含。

640?wx_fmt=jpeg

四、資料獲取

本工作將相關專案部署在github上,資料的獲取和使用需遵照相關證書(license)。更多連結和資料集構建的細節請參照我們的相關論文 [2]。


五、相關論文

[1] Jin Huang, Wayne Xin Zhao, Hong-Jian Dou, Ji-Rong Wen, Edward Y. Chang : Improving Sequential Recommendation with Knowledge-Enhanced Memory Networks. SIGIR 2018: 505-514

[2]  Wayne Xin Zhao, Gaole He, Hongjian Dou, Jin Huang, Siqi Ouyang and Ji-Rong Wen : KB4Rec: A Dataset for Linking Knowledge Bases with Recommender Systems. Arxiv 1807.11141.

[3] F. Maxwell Harper, Joseph A. Konstan : The MovieLens Datasets: History and Context. TiiS 5(4): 19:1-19:19 (2016)

[4] Markus Schedl : The LFM-1b Dataset for Music Retrieval and Recommendation. ICMR 2016: 103-110

[5] Ruining He, Julian McAuley : Ups and Downs: Modeling the Visual Evolution of Fashion Trends with One-Class Collaborative Filtering. WWW 2016: 507-517

[6] Google : 2016. Freebase Data Dumps. developers.google.com/f data.

本文作者:何高樂,2018級研究生,目前研究方向為網路表示學習、深度學習,來自中國人民大學大資料管理與分析方法研究北京市重點實驗室。

RUC 智慧情報站由中國人民大學資訊學院的趙鑫副教授 (微博 @趙鑫RUC) 所帶領的研究小組維護。關注的領域是資料探勘、社會計算和機器學習。該專欄會定期會分享相關學術內容,歡迎各位來郵件進行交流,也歡迎大家向該專欄投稿精品文章。知乎賬號聯絡人為 竇洪健,負責資訊、投稿、宣傳以及一切賬號相關問題,郵箱為[email protected];企業和轉載合作需求請致謝趙鑫老師,郵箱為 [email protected]。趙鑫老師個人情況詳見個人主頁 http://playbigdata.com/batmanfly 和 http://info.ruc.edu.cn/academic_professor.php?teacher_id=55 。

OpenKG.CN

中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜資料的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

640?wx_fmt=jpeg

點選閱讀原文,進入 OpenKG 部落格。

相關推薦

論文 | 打通推薦系統知識圖譜: 第一公開大規模連結資料集合

本文轉載自:RUC智慧情報站,知乎專欄連結:https://zhuanlan.zhihu.com

論文 | 神經網路非神經網路簡單知識問答方法的強基線分析

來源:NAACL 2018連結:http://aclweb.org/anthology/N18-

論文 | 基於知識圖譜的子圖匹配回答自然語言問題

本文轉載自公眾號:珞珈大資料。        本次論文講解的是胡森  鄒磊   於

論文 | 知識圖譜的單樣本關係學習

連結:http://cn.arxiv.org/pdf/1808.09040動機如今的知識圖譜規模

論文 | 基於常識知識圖譜感知和圖注意力機制的對話生成

OpenKG 祝各位讀者中秋快樂!連結:http://coai.cs.tsinghua.edu.

大數據入門第十九天——推薦系統mahout(一)入門概述

tps font 解決 技術分享 tar nbsp mage cnblogs clas 一、推薦系統概述   為了解決信息過載和用戶無明確需求的問題,找到用戶感興趣的物品,才有了個性化推薦系統。其實,解決信息過載的問題,代表性的解決方案是分類目錄和搜索引擎,如hao123

推薦系統LSTM、GRU

最近在看深度學習與神經系統方面的文章,發現深度學習對推薦系統有很大的影響,特此進行下總結,為自己接下來的閱讀總結做參考。如今,深度學習技術應用到推薦系統的主要分為以下5類:1、自編碼器AE:通過一個編碼和一個解碼過程來重構輸入資料,學習資料的隱層表示。多用於:評分預測、文字推

論文 | 通過多原型實體指稱向量關聯文字和實體

Cao Y,Huang L, Ji H, et al. Bridge Text and Know

《深入淺出Python機器學習(段小手)》PDF代碼+《推薦系統深度學習》PDF及代碼+《自然語言處理理論實戰(唐聃)》PDF代碼源程序

數學分析 tar 認知 愛好者 代碼 pdf ima 收獲 c++ prime 《深入淺出Python機器學習》PDF,280頁,帶書簽目錄,文字可以復制;配套源代碼。 作者:段小手 下載: https://pan.baidu.com/s/1XUs-94n0qKR1F9

屠龍少年變成惡龍?聊聊推薦系統資訊繭房

大家好,今天和大家聊聊推薦系統中的資訊繭房。 說到資訊繭房大家都很有危機感,之前在知乎當中還有人提問,如何對抗推薦系統,避免陷入資訊繭房當中。那麼究竟什麼是資訊繭房,它又是怎麼出現的呢?我們的未來真的會被推薦系統操控接觸不到外界的新事物嗎? 在回答這些問題之前,我們先來資訊繭房出現的原因。 馬太效應與資訊繭房

談XXE漏洞攻擊防禦——本質上就是注入,盜取資料

淺談XXE漏洞攻擊與防禦 from:https://thief.one/2017/06/20/1/ XML基礎 在介紹xxe漏洞前,先學習溫顧一下XML的基礎知識。XML被設計為傳輸和儲存資料,其焦點是資料的內容,其把資料從HTML分離,是獨立於軟體和硬體的資訊傳輸工具。 XML文件結

推薦系統實踐》第六章 利用社交網路資料

6.1 獲取社交網路資料的途徑 6.1.1 電子郵件 我們可以通過分析使用者的聯絡人列表瞭解使用者的好友資訊,而且可以進一步通過研究兩個使用者之間的郵件往來頻繁程度度量兩個使用者的熟悉程度。 如果我們獲得了使用者的郵箱,也可以通過郵箱字尾得到一定的社交關係資訊。很多社交網站都在使用者註冊

推薦系統實踐》第四章 利用使用者標籤資料

目前流行的推薦系統基本上通過3種方式聯絡使用者興趣和物品。 第一種方式是利用使用者喜歡過的物品,給使用者推薦與他喜歡過的物品相似的物品,這就是前面提到的基於物品的演算法。 第二種方式是利用和使用者興趣相似的其他使用者,給使用者推薦那些和他們興趣愛好相似的其他使用者喜歡的物品,這是前面提到的基

[Keras深度學習]實戰五·使用DNN自編碼器實現聚類操作資料降維

[Keras深度學習淺嘗]實戰五·使用DNN自編碼器實現聚類操作資料降維 程式碼部分 # TensorFlow and tf.keras import tensorflow as tf from tensorflow import keras # Helper libraries

推薦系統實踐---第四章:利用使用者標籤資料

下面簡單介紹書中提到的問題以及有哪些解決辦法,方便大家對正本書有個整體的把握,同時我也會上傳這本書的高清PDF版,本來想不用積分下載,但是系統最少2個,要是哪位沒有積分,可以私信我。下載連結如下: 其他章節內容 前面介紹的CF演算法,利用的是使用者的行為資

推薦系統實踐---第六章:利用社交網路資料

下面簡單介紹書中提到的問題以及有哪些解決辦法,方便大家對正本書有個整體的把握,同時我也會上傳這本書的高清PDF版,本來想不用積分下載,但是系統最少2個,要是哪位沒有積分,可以私信我。下載連結如下: 其他章節內容 美國著名的第三方調查機構尼爾森調查了影響使用

雲原生時代|分散式系統設計知識圖譜(內含 22 知識點)

我們身處於一個充斥著分散式系統解決方案的計算機時代,無論是支付寶、微信這樣頂級流量產品、還是區塊鏈、IOT等熱門概念、抑或如火如荼的容器生態技術如Kubernetes,其背後的技術架構核心都離不開分散式系統。 為什麼要懂分散式架構 系統學習分散式架構設計對於技術人的成長非常關鍵,對於雲原生開發者而言如何

python大法好——python的下載安裝、第一程序

src 結果 這就是 anaconda text image 分享圖片 百度 .com 吃夠了java的苦,所以python好。 打今天起,要走python了。 首先呢,學習python需要python環境、和一款得心應手的集成開發環境。 python環境下載:htt

資料結構演算法學習筆記之 適合大規模資料排序

前言   在資料排序的演算法中,不同資料規模應當使用合適的排序演算法才能達到最好的效果,如小規模的資料排序,可以使用氣泡排序、插入排序,選擇排序,他們的時間複雜度都為O(n2),大規模的資料排序就可以使用歸併排序和快速排序,時間複雜度為O(nlogn)。今天我們就來看一下歸併排序和快速排序。 正文   

LeetCode(初級演算法)排序搜尋篇---第一錯誤的版本

第一個錯誤的版本 題目 你是產品經理,目前正在帶領一個團隊開發新的產品。不幸的是,你的產品的最新版本沒有通過質量檢測。由於每個版本都是基於之前的版本開發的,所以錯誤的版本之後的所有版本都是錯的。 假設你有 n 個版本 [1, 2, ..., n],你想