1. 程式人生 > >論文閱讀13:ENHANCING COLLABORATIVE FILTERING MUSIC RECOMMENDATION BY BALANCING EXPLORATION AND EXPLOITAT

論文閱讀13:ENHANCING COLLABORATIVE FILTERING MUSIC RECOMMENDATION BY BALANCING EXPLORATION AND EXPLOITAT

參考論文:ENHANCING COLLABORATIVE FILTERING MUSIC RECOMMENDATION BY BALANCING EXPLORATION AND EXPLOITATION

知乎同文連結:https://zhuanlan.zhihu.com/p/41068720

通過平衡探索和開發,增強協同過濾音樂推薦

ABSTRACT

協同過濾技術在音樂推薦應用中取得了巨大的成功。然而,傳統的協作過濾音樂推薦演算法以greedy方式工作,總是推薦使用者評分最高的歌曲。這種只有exploit的策略可能導致長期表現不佳。利用強化學習方法,我們將explore引入到CF中,並試圖在exploit和explore之間找到平衡。

為了瞭解使用者的音樂品味,我們使用了考慮CF潛在因素和推薦新事物的貝葉斯圖形模型。此外,我們設計了一種貝葉斯推理演算法來有效地估計後驗等級分佈。在以往的音樂推薦中,這是第一次嘗試去彌補CF的貪婪本性。模擬實驗和使用者研究的結果表明,我們提出的方法顯著提高了推薦效能。

(本筆記只針對強化學習的引入)

INTRODUCTION

在音樂推薦領域,基於內容的方法和協作過濾(CF)方法是流行的推薦策略。基於內容的演算法分析使用者過去評價較高的歌曲的聲學特徵,只推薦具有較高聲學相似性的歌曲。另一方面,協同過濾(CF)演算法認為,根據與其有相似偏好的鄰居得到好的建議。

兩個傳統的推薦方法弱點是

以一種貪婪的方式工作,他們總是通過選擇具有最高預期使用者評級的歌曲來產生“safe”推薦。這種純粹的exploitative策略可能會由於缺乏exploring而導致在一段長時間內會表現不佳。原因是使用者偏好的估計僅基於推薦系統中現有的知識。因此,不確定性現象總是存在於預測的使用者評級中,並可能導致一些非貪婪方法被認為幾乎和貪婪方法一樣好,但實際上它們比貪婪選項更好。然而,沒有exploring,我們永遠不會知道哪個更好。通過適當的exploring,推薦系統可以在exploit之前獲得更多使用者真實偏好知識。

我們之前的工作試圖緩解基於內容的音樂推薦中的貪心問題,但是沒有在CF上解決這個問題。因此,我們打算開發一種基於cf的音樂推薦演算法,在探索和開發之間取得平衡,提高長期的推薦效能。為此,我們探索引入協同過濾推薦問題通過制定音樂強化學習任務稱為多臂老虎機問題。提出了一種考慮協同過濾潛在因素和推薦新穎性的貝葉斯圖形模型來學習使用者偏好。然而,當我們採用現成的馬爾可夫鏈蒙特卡羅(MCMC)抽樣演算法進行貝葉斯後驗估計時,效率的缺乏成為一個主要的挑戰。因此,我們為貝葉斯推理設計一個更快的取樣演算法。我們進行了模擬實驗和使用者研究,以證明該方法的有效性和有效性。本文的貢獻總結如下:

1、音樂推薦中第一個用強化學習方法研究探索-開發權衡來緩和CF貪婪性質

2、與現成的 MCMC algorithm相比,提出更有效的抽樣演算法加速貝葉斯後驗估計。

3、實驗結果表明,我們提出的方法顯著提高了CF-based音樂推薦的效能。

RELATEDWORK

基於人們傾向於從具有相似偏好的人那裡得到好的推薦的假設,協同過濾(CF)技術分為兩類:基於近鄰的CF和基於模型的CF。基於記憶體的CF演算法[3,8]首先搜尋與目標使用者有相似評級歷史的鄰居。然後,目標使用者的評級可以根據鄰居的評級進行預測。基於模型的CF演算法[7,14]使用各種模型和機器學習技術來發現潛在的因素來解釋觀察到的評級。

我們以前的工作[12]提出了強化學習的方法來平衡explore&exploit進行音樂推薦。然而,這項工作利用基於內容的方法。個性化使用者評級模型的一個主要缺點是使用低層次的音訊特性來表示歌曲的內容。這種純粹基於內容的方法並不令人滿意,因為低階音訊特性和高階使用者首選項之間存在語義差異。此外,很難確定哪些潛在的聲學特性在音樂推薦場景中是有效的,因為這些特性最初不是為音樂推薦而設計的。另一個缺點是,基於內容的方法推薦的歌曲往往缺乏多樣性,因為它們在聲學上彼此相似。理想情況下,應該向使用者提供一系列的型別,而不是一個同構的集合。

雖然沒有人試圖在音樂推薦中解決CF方法的貪心問題,Karimi等人試圖在其他推薦應用中進行研究[4,5]。然而,他們的主動學習方法僅僅是在預先確定的測試集[4]上探索專案以優化預測精度,並沒有重視explore&exploit的權衡問題不。在他們的其他工作中,推薦過程被分為兩個步驟[5]。在explore步驟中,他們選擇對使用者引數有最大改變的item,然後在exploit步驟中,他們根據當前引數選擇item。這項工作考慮到了探索和開發的平衡,但只是以一種臨時的方式。此外,他們的方法僅使用離線和預先確定的資料集進行評估。最後,由於其演算法效率較低,在線上推薦系統中應用不實用。

PROPOSED APPROACH

我們首先提出一個簡單的矩陣分解模型的協同過濾(CF)音樂推薦。然後,我們指出傳統CF演算法的侷限性,最後詳細描述我們建議的方法。

3.1 Matrix Factorization for Collaborative Filtering

假設在音樂推薦系統中有m個使用者和n首歌曲。讓R 表示使用者-歌曲評級矩陣,其中每個元素rij表示使用者i給出的歌曲j的評級。矩陣分解通過潛在因素的向量來描述使用者和歌曲。每個使用者都都有一個特徵向量ui,每首歌都有一個特徵向量vj。對於給定的歌曲j, vj衡量的是歌曲包含潛在因素的程度。對於給定的使用者i, ui度量他喜歡這些潛在因素的程度。因此,使用者評分可以用這兩個向量的內積來近似:

為了學習潛在的特徵向量,系統最小化了訓練集上的正規化平方誤差:

這裡I是指陣列所有已知的評級,λ正則化引數,努伊評級由使用者的數量,和歌曲j nvj評級的數量。我們使用交替最小二乘(ALS)[14]技術來最小化Eq。

傳統CF推薦方法有兩個主要的缺點。(一)缺乏推薦新穎性。對於使用者來說,歌曲的新奇感會隨著每次聆聽而改變。(II)貪婪性質,總是推薦具有最高預期平均收視率的歌曲,而更好的方法可能是積極探索使用者興趣,而不是僅僅利用現有的評分資訊[12]。針對這些不足,我們提出了一種基於cf的音樂推薦的強化學習方法。

3.2 A Reinforcement Learning Approach

音樂推薦是一個互動的過程。系統在n首不同的歌曲中反覆選擇推薦。在每次推薦之後,它會從一個未知的概率分佈中得到一個評價反饋(或獎勵),它的目標是最大化使用者滿意度,即從長遠來看,預期的總回報。類似地,強化學習探索一個環境並採取行動最大化累積回報。因此,將音樂推薦作為強化學習任務,稱為n-armed bandit是非常合適的。

n-armed bandit問題假定老虎機有n個槓桿,拉動一個槓桿產生的回報來自於未知概率分佈。目標是在給定數量的動作選擇(比如超過1000個動作)的基礎上,使期望的總回報最大化。

3.2.1 Modeling User Rating,使用者評分建模

為了解決傳統推薦系統的第一個缺點,我們假設音樂評分受兩個因素的影響:CF score(使用者對歌曲的喜愛程度取決於每個CF潛在因素)和novelty score(一首歌動態變化的新穎程度)

根據使用者評分公式,我們定義CF score ; θ是使用者對於不同CF潛在特徵的喜愛程度

定義novelty score : t表示最後一次聽到這首歌的據當前的時間,s代表使用者對於這首歌記憶的相對強度,e指數表示遺忘曲線

公式表示一首歌的新奇性當聽過後會隨著時間的推移立即減少。我們將這兩個分數結合起來,對終端使用者評分進行建模:

5

考慮到音樂偏好和記憶強度的變化,每個使用者都有一對從使用者評級歷史中學到的引數Ω= (θ;s)。更多的技術細節將在第3.2.2節中解釋。

由於預測使用者評分總是伴隨著不確定性,我們假設他們是隨機變數,而不是固定的數字。讓R.j表示目標使用者給出的歌曲j的評級,R.j遵循一個未知的概率分佈。我們假定U.j是R.j的期望。因此,預期的歌曲評級j可以估

6

傳統的推薦策略首先獲取系統中每首歌曲的vj和tj,利用Eq.(6)計算期望評級,然後推薦期望評級最高的歌曲。因為該系統利用當前使用者評級的資訊,我們稱此為貪婪的推薦。通過選擇一個非貪婪的推薦和收集更多的使用者反饋,系統進一步探索和獲得更多關於使用者偏好的知識。

在當前迭代中,貪婪推薦可能會使預期的回報最大化,但從長期來看會導致效能不佳。這是因為一些非貪婪的建議可能一樣好,但有大量的方差(或不確定性),因此可能其中的一些實際上比貪婪推薦更好。然而,沒有探索,我們永遠不會知道它們是什麼。

因此,應對CF(缺點II)的貪婪的本性,我們將explore引入到音樂推薦中。為此,我們採用了一種最先進的演算法,稱為貝葉斯上置信度界(Bayes-UCB)[6]。在Bayes-UCB中,預期報酬Uj是一個隨機變數,而不是一個固定值。考慮到目標使用者的評級歷史D,Uj的後驗分佈表示為p(Uj|D),需要估計。然後向目標使用者推薦p(Uj|D)數值最高的歌曲。

3.2.2 Bayesian Graphical Model

為了估計U的後驗分佈,我們採用[12]中使用的貝葉斯模型(圖1)。對應的概率分佈關係定義如下:

當前在當前第h+1次迭代中,我們收集了前h次觀察到的推薦歷史Dh。模型中的每個使用者都被描述為Ω= (θ;s),根據貝葉斯定理:

11

那麼,音樂j的評分的期望值Uj的後驗概率密度函式(PDF)可以估計為:

12

由於Eq.(11)沒有相近的形式解,我們無法直接估計Eq.(12)中的後驗概率密度函式。因此,我們使用馬爾可夫鏈蒙特卡洛(MCMC)演算法來充分地取樣引數Ω= (θ,s),然後將每個引數樣本代入Eq.(6)得到一個Uj的樣本。最後,PDF可以用直方圖近似得到Uj。估計每首歌的後驗PDF的預期評級,我們遵循Bayes-UCB方法最大化分位數函式,推薦歌曲j*

13

虛擬碼:

3.3沒看

4. EVALUATION

4.1 Dataset

在“Million Song Dataset Challenge”中使用的Taste Profile Subset有超過4800萬的(使用者、歌曲、計數)三元資訊描述了超過100萬用戶和38萬首歌曲的聽力歷史。我們選擇了2萬首收聽次數最多的歌曲,收聽歌曲最多的10萬用戶。由於聽力歷史的收集是隱式反饋資料的一種形式,我們使用[11]中提出的方法進行負取樣。最終資料集的詳細統計資料如表1所示