1. 程式人生 > >論文閱讀-Attention-based Transactional Context Embedding for Next-Item Recommendation

論文閱讀-Attention-based Transactional Context Embedding for Next-Item Recommendation

Paper Reading —— Attention-based Transactional Context Embedding for Next-Item Recommendation

基於注意力的事務上下文嵌入下一項推薦

Abstract

在電商交易環境中向user推薦下一個item,這樣的應用非常實用但是具有挑戰性。Transactional context 是指在交易記錄中的observed items。
大多數現有的推薦系統,主要是考慮recently occurring items 而不是 all the ones observed in the current context,這些演算法通常假設交易中的items之間存在嚴格的順序,但是這並不總是起作用,a long transaction(一個比較長的交易範圍)通常包含許多對下一個選擇的item沒有關聯或者說是沒有用的item資訊,這往往會overwhelm一些真正相關的item的影響。

舉個栗子~
讓我們舉一個例子來說明上述問題。
使用者首先將三個專案{milk,apple,orange}放入購物車中,
然後將{bread}新增到同一購物車中。
隨後,交易被確定為{milk,apple,orange,bread}。
如果我們將前三個專案作為上下文而最後一個專案作為推薦的目標,
現有方法可能會建議{vegetables},如{green salad},
因為最近的上下文專案(orange和apple)。
但是,目標物品麵包的選擇可能取決於第一個專案(milk)。
在這種情況下,推薦系統應該更多地關注milk而不是orange和apple,
因為milk可能與下一個選擇的bread更相關。
此示例顯示了下一項建議的重要性,這可能會被交易中的無關項誤導。
此外,真實世界的交易資料通常僅指示那些專案與專案之間的訂單
(例如,專案時間戳)共同出現在交易中。
因此,推薦具有嚴格訂單的交易專案可能是不可能和現實的。

作者提出一個推薦演算法,這個演算法不僅考慮當前交易中所有的observed items,而且還要用不同的relevance(相關性)對它們進行加權,以建立一個attentive context(注意力上下文),以高概率輸出正確的下一個專案。模型——基於注意的事務嵌入模型(ATEM),用於上下文嵌入,以在不假定順序的情況下對每個觀察到的專案進行加權。對交易資料集的實證研究證明,ATEM在準確性和新穎性方面都顯著優於最先進的方法。

Main Algorithm

問題描述與定義

推薦基於購物車序列( built onshoppingbasket-basedtransactiondata)

給定transactional dataset :

T = { t 1 , t 2 , . . . , t | T | }

給定每個transaction :

t = { i 1 , i 2 , . . . , i | t | }

所有交易中發生的所有專案構成整個item集 I :

I = { i 1 , i 2 , . . . , i | I | }

每個transaction是itemset的子集,且t裡的並不是嚴格的交易順序。

給定(target item)目標 i s t ,除了item i s ,所有屬於 t 的items統稱為context c ,其中 c = i s t

特別地,attentive context意味著上下文中的專案對下一專案推薦的上下文嵌入有不同的貢獻。

給定context c ,本文的ATEM模型可以構建並訓練為 item i s 在 set t i s 出現的條件概率 P ( i s | c ) , 通過每次拾取每個instance作為目標專案,為每個事務t構建總共|t|個訓練例項。

因此,TBRS被歸結為根據給定上下文中的條件概率對所有候選項進行排名。

在預測階段,基於上下文c的attentive embedding來計算條件概率。 這種嵌入是建立在c中包含的所有上下文專案的基礎上,利用 注意力機制 (attention mechanism)來學習每個上下文專案的權重。

模型建立&模型學習

attention-model

總的來說,從下到上,提出的ATEM模型包括輸入層,項嵌入層,上下文嵌入層,輸出層,以及項和上下文嵌入層之間的attention層,如上圖所示。從輸入到輸出逐層解釋模型的工作機制。

Item Embedding
給輸入層提供上下文項集 c ,底部的輸入單元構成一個獨熱編碼向量,其中只有位置 i j , ( i j c ) 的所在單元被設定為1而所有其他單元被設定為0。每個獨熱編碼vector長 | I | context c 一共有 | t | 個獨熱編碼構成。

由稀疏的單熱向量傳遞的資訊是有限的。 在ATEM中,我們建立了一個嵌入機制,將這些向量對映到項嵌入層中的資訊性和低維向量表示,其中K維實值向量

Motivation

推薦系統(RS)發揮著重要作用,特別是在商業領域。然而,大多數現有的RS理論面臨各種問題,例如傾向於重複與使用者可能已經選擇的類似的專案。

在現實資料場景中,使用者可能更喜歡新穎且與手頭上現有的不同的專案。為了解決這個問題,需要在交易上下文中進行新的推薦,即在交易中已經選擇的內容中挖掘。一方面,分析基於RS交易序列,通過分析交易間耦合關係,產生更合理和可靠的新交易建議,例如下一個購物車(basket)和下一專案(item)建議。這些與基於user profile和item profile構建的典型RS方法完全不同。

然而,當一個items集合被放入一個transaction時,仍然不清楚應該下一個專案應該推薦什麼。這產生了通過分析事務內依賴性來推薦事務上下文下的下一項的需要。

(transactional context:用於推薦下一個專案的上下文是指對應的專案相關交易,例如,由多個所選專案組成的購物籃記錄)

瞭解transaction context中items之間的相關性和轉換非常具有挑戰性。在TBRS中,一個普遍的挑戰是建立一個注意力(attention)的背景,以高概率輸出真正的下一個選擇。

一些現有方法旨在通過將transaction as the context來生成推薦。然而,大多數現有TBRS利用具有排序假設的部分上下文。

順序模式挖掘(2012)用於使用具有嚴格順序假設的items之間的關聯來預測下一項。但是,上下文中的項可能是任意的,這可能無法匹配任何已挖掘的模式。

馬爾可夫鏈(MC)(2012)是建模順序資料的另一種方法。然而,MC只捕獲從一個專案到下一個專案的轉換,而不是從上下文序列中捕獲,即,它只能捕獲第一次轉換。

最近,基於矩陣隱式因子分解(MF)的方法(2016)將轉移概率的矩陣從然而,由於現實世界中的冪律分佈資料,MF很容易受到稀疏性問題的困擾(2016)。

受Deep Learning的巨大成功的啟發(2015),應用深度遞迴神經網路(RNN)來模擬順序資料的事務,但由複雜結構引起的高計算成本阻止了其應用於大資料。

此外,MC,MF和RNN最初是為具有嚴格自然順序的時間序列資料而設計的,因此它們不具有無序的交易。

(例如,或麵包是否首先放入購物車中沒有區別。另外,現有方法不能有效地加權上下文中的專案,即更多地關注那些相關專案。這種注意區分非常重要,特別是對於長期交易而言,這些交易往往包含許多與下一個選擇無關的專案。)

最近,受心理認知方案的啟發,注意機制在上下文學習相關方面顯示出驚人的潛力。 通過搜尋影象中與答案相關的區域,呈現用於影象問題回答的堆疊注意網路(SAN)。 另一個新模型在人類關注的指導下學習句子表徵(Shaonan,Jiajun和Chengqing 2017)。 鑑於CV和NLP中的上下文學習注意機制的巨大成功,我們結合了一些想法並提出ATEM來模擬下一個專案推薦的注意上下文。

Contribution

本文通過提出一種基於注意力的交易嵌入模型(ATEM)來解決需求。 ATEM通過識別與下一個選擇具有高度相關性的上下文項,在交易中的所有觀察專案的嵌入(Embedding)上構建了一個關注的上下文(attention context)。構建了一個淺寬的廣泛網路(wide-in-wide-out network)(Goth 2016),以減少時間和空間成本。具體而言,作者將注意機制(Shaonan,Jiajun和Chengqing 2017)納入淺層網路,以在沒有嚴格排序假設的情況下在事務中構建所有觀察專案(observed items)的注意上下文(attention context)。由於注意機制,所提出的模型能夠更多地關注更相關的items,而更少關注不太相關的items。因此,ATEM更有效,更強大,可以預測具有較少約束的事務中的下一個item。這項工作的主要貢獻如下:

  • 基於注意力的模型學習一種注意力的上下文嵌入,強化了相關專案但忽略了與下一個選擇無關的專案。 我們的方法不涉及對事務中專案的嚴格排序假設。

  • 淺寬的寬廣網路實現了ATEM,它對於大量專案的學習和預測更有效和高效。

  • 實證研究表明

    ATEM在準確性和新穎性方面明顯優於兩個真實資料集上的最新TBRS;

    通過比較有無注意機制的方法,注意機制對TBRS產生顯著差異。

Summary