1. 程式人生 > >推薦系統之評測指標

推薦系統之評測指標

一、什麼是推薦系統

資訊量過載問題存在已久,對於資訊消費者,從大量的資訊中找到自己感興趣的資訊顯然是一件非常困難的事情;對於資訊生產者,讓自己生產的資訊能夠準確的命中受用人群,也是一件非常困難的事情。推薦系統能夠很好地解決資訊生產者和消費者這一資訊不對稱的情況。推薦系統是通過分析使用者行為日誌對使用者興趣建模,挖掘出使用者可能感興趣的資訊並推送給使用者,滿足使用者對資訊的需求。推薦系統和搜尋引擎不同,推薦系統不需要使用者提供明確的資訊需求(即搜尋引擎的一個查詢式),推薦系統往往在使用者瀏覽本網站的時候,就能在網頁的某一區域顯示一個符合使用者興趣的推薦列表,而這個推薦列表是推薦系統通過分析使用者的歷史資料得到的。推薦系統對於我們大多數人來說並不陌生,如百度搜索結果頁右側的相關物品推薦(圖1

是在百度搜索“推薦系統”結果頁右側區域截圖)、

 

亞馬遜的個性化推薦列表(圖2)、

 

噹噹網的猜你喜歡(圖3),


還有社交網站的好友推薦、視訊網站的視訊推薦、個性化廣告投放、個性化閱讀等。

為什麼推薦系統如此重要,看看下面的資料就明白了。亞馬遜的前科學家Greg Linden在曾他的部落格說過,在他離開亞馬遜的時候,亞馬遜至少有20%(之後的一篇博文則變為35%)的銷售來自推薦演算法。此外,亞馬遜的前首席科學家Andreas Weigend在斯坦福的曾辦過一次推薦系統的演講,就聽他講座的同學透露,亞馬遜有20%-30%的銷售來自推薦系統。而國外視訊網站Netflix在其宣傳資料中宣稱,有60%的使用者是通過推薦系統找到自己感興趣的電影和視訊的。著名新聞閱讀網站

Digg在使用了推薦系統後,使用者的digg總數提高了40%,使用者的好友數平均增加24%,評論數增加了11%

二、評測指標

1、預測準確度。

預測準確度是最重要的離線評測指標,它是度量一個推薦系統或推薦演算法預測使用者行為的能力。根據研究方向的不同,預測準確度的具體指標也不同。

  •  評分預測準確度

該指標是衡量推薦演算法預測的評分和使用者實際評分的相近程度。推薦系統通過收集使用者對物品的歷史的評分資料建立興趣模型,從而預測使用者對將來看到的一個沒有評過分的物品時會給這個物品多少分。評分預測準確度一般通過均方差(RMSE)和平均絕對誤差(MAE)計算。

 

u,i分別表示測試集中的一個使用者u和物品i,rui表示使用者u

對物品i的實際評分,ȓui是推薦系統給的評分。

  • 分類準確度

分類準確度指標衡量的是推薦系統能夠正確預測使用者喜歡或者不喜歡某個商品的能力。這個指標常被用來做TopN推薦,即網站給使用者提供服務時一般是給使用者一個個性化列表,這種推薦叫做TopN推薦。度量分類準確度最常用的指標有準確率(Precision)和召回率(Recall)。

              

R(u)是根據使用者在訓練集上的行為給使用者作出的推薦列表,而T(u)是使用者在測試集上的行為列表。

  • 排序準確度

排序準確度指標度量推薦演算法得到的有序推薦列表和使用者對商品排序的統一程度。如在

比較兩個推薦演算法的時候,兩個演算法在推薦的5個商品中都有1個是使用者感興趣的,於是他們的推薦精確性都為0.2。但是演算法A將使用者喜歡的商品排在第1位,而演算法B將使用者喜歡的商品排在第5位,顯然演算法A更優越。可以使用平均排序分(average rank score)來度量推薦系統的排序準確度。對於某一使用者u來說,商品α的排序分定義如下:

 

 Lu等於使用者u未選擇過的商品數目,luα為待預測商品α在使用者u的推薦列表中的排名。舉例來說,如果有1 000部影片是使用者u沒有選擇過的,其中使用者喜歡的電影《金陵十三釵》出現在使用者u推薦列表的第10位,那麼對於使用者u而言電影《金陵十三釵》的排序分為

RSuα=10/1 000=0.01。將所有使用者的排序分求平均即得到系統的排序分RS。排序分值越小,說明系統越趨向於把使用者喜歡的商品排在前面。反之,則說明系統把使用者喜歡的商品排在了後面。

2、使用者滿意度

使用者作為推薦系統的參與者,其滿意度是評測推薦系統最重要的指標之一。一般使用者滿意度通過使用者調查或線上實驗獲得。在一定程度上,我們可以根據使用者的購買率、點選率、使用者停留時間、下載等指標度量使用者的滿意度。

3、覆蓋率(coverage

覆蓋率是指一個推薦系統向所有使用者推薦的物品佔所有物品的比例。同時該指標也描述了一個推薦系統對物品長尾的發掘能力。簡單的覆蓋率計算公式如下:

U為系統的使用者集合,R(u)推薦系統給每個使用者推薦一個長度為N的物品列表

4、多樣性

在實際應用中,即使一個準確率很高的推薦系統,也很難保證能夠滿足使用者的廣泛的興趣。一個好的推薦系統應該向使用者推薦準確率高並且又有用的商品。在推薦系統中,多樣性體現在以下兩個層次,使用者間的多樣性(inter-user diversity),衡量推薦系統對不同使用者推薦不同商品的能力;另一個是使用者內的多樣性(intra-user diversity),衡量推薦系統對一個使用者推薦商品的多樣性。對於使用者,可以用漢明距離(hamming distance)來衡量這兩個使用者推薦列表的不同程度,具體定義為:

    

Qul(L)表示使用者推薦列表中相同商品的個數。如果兩個推薦列表是完全一致的,那麼Hul(L)=0,,反之如果兩個推薦列表沒有任何重疊的商品則Hul=1。所有的使用者對的漢明距離的平均值即是整個系統的漢明距離H(L)

使用者內的多樣性(intra-user diversity)可以用如下定義:

 

s(α,β)表示商品α 和 β 的相似度,系統的Intra-user diversity即是所有使用者的平均值。I u越小,表明系統為使用者推薦的商品的多樣性越高,系統的多樣性也就越大。

5、其他指標

新穎性、驚喜度、信任度、實時性、健壯性、商業目標。

參考文獻

[1] 朱鬱筱,呂琳媛.推薦系統評價指標綜述[J].電子科技大學學報,2012.

[2] 項亮.推薦系統實踐.人民郵電出版社,2012.

相關推薦

no