推薦系統老司機的十條經驗節選

原文地址：http://geek.csdn.net/news/detail/124262

作者：陳開江@刑無刀，金融科技公司天農科技CTO，曾任新浪微博資深推薦演算法工程師，考拉FM演算法主管，先後負責微博反垃圾、基礎資料探勘、智慧客服平臺、個性化推薦等產品的後端演算法研發，為考拉FM從零構建了個性化音訊推薦系統。

文章對Xavier Amatriain在Recsys2016上的分享做出解讀

一、隱式反饋比顯式反饋要爽

所謂隱式反饋，就是使用者發出這些行為時並不是為了表達興趣/態度，只是在正常使用產品而已，反之，顯式反饋就是使用者在做這個操作時就是要表達自己的態度，如評分，投贊成/反對票。

Xavier Amatriain列舉了隱式反饋的以下好處：

資料比顯式反饋更加稠密。誠然，評分資料總體來說是很稀疏的，之前netflix的百萬美元挑戰賽給出的資料稀疏度大概是1.2%，畢竟評分資料是要消耗更多注意力的資料。
隱式反饋更代表使用者的真實想法，比如你不是很贊成川普的觀點，但是還是想經常看到他的內容（以便吐槽他），這是顯式反饋無法捕捉的。而人們在Quora上投出一些贊成票也許只是為了鼓勵一下作者，或者表達一些作者的同情，甚至只是因為政治正確而投，實際上對內容很難說真正感興趣。
隱式反饋常常和模型的目標函式關聯更密切，也因此通常更容易在AB測試中和測試指標掛鉤。這個好理解，比如CTR預估當然關注的是點選這個隱式反饋。

二、深刻理解資料

三、為模型定義好學習任務

一個機器學習模型有三個因素構成：

訓練資料（隱式反饋或者顯式反饋）
目標函式（比如使用者閱讀一篇回答的概率）
衡量指標（比如準確率或者召回率）

Quora的首頁是結合了多個使用者隱式反饋的排序模型，給每一種使用者行為建立一個預測模型，預測它發生的概率，結合每一種行為帶來的長期價值大小，然後加權，即期望價值。這個例子裡面的三元素也可定義清楚：

訓練資料：使用者的顯式反饋和隱式反饋
目標函式：一個story的展示價值，量化定義為使用者行為的期望價值
衡量指標：任何排序模型指標都可以

四、推薦可解釋比精準更有意義

這裡其實就是說推薦要展示出理由給使用者，讓使用者知道每一項推薦的專案是怎麼得到的。

五、矩陣分解大法好

Xavier Amatriain很推崇Matrix Factorization，因為它既有監督學習，又有無監督學習

兩種學習方法就這樣結合在一個演算法裡：

它可以用來降維，這部分通常是PCA這樣的無監督學習演算法承擔的，矩陣分解得到的隱因子就是降維後的特徵，可以直接作為其他學習演算法的輸入；
它還可以做聚類，比如Non-negative Matrix Factorization就常常用來做聚類；
SVD就是一種迴歸，標準的監督學習。

矩陣分解還有一些變種：ALS（交替最小二乘），SVD++（結合特徵的SVD），FM（因子機），TF（張量分解）。

總之，在推薦系統裡，使勁壓榨矩陣分解的效果。

六、萬能的整合方法

Netflix的冠軍模型，那可是100多種演算法整合在一起的，真是應了那句話：比你效果好的模型還比你更努力。

實際上任何推薦系統也不可能是單一演算法在起作用，而是多種演算法整合在一起。整合方法理論上不會比你其中那個最好的演算法差。在推薦系統中，你至少可以整合基於內容推薦和協同過濾兩種。

本質上，整合演算法是把某個模型的輸出變成另一個模型的特徵。如果你很難決策到底用哪個演算法時，千萬不要糾結，所有的都用，然後整合之。

整合還有一個好處就是：某個推薦演算法可能更適合某個場景下，這樣被整合的演算法就可以各自handle各自擅長的場景，最後集大成。

具體整合方法可選的很多，如logistic regression，GBDT，Random Forest，ANN

基於內容的推薦演算法（推薦系統）（二）

距離上次更新已經不知道有多久了，因為過幾日就是中期答辯了，為了不太監開始堅持把這個專案往後做一做。這次我們要做的是什麼呢，要先搭建整個開發環境，目前用到的如下：mysql,idea,IKAnalyzer2012_u6(一個開源的分詞包，完全夠用了) 這次我計劃先完成最簡單

R語言實現關聯規則與推薦演算法(學習筆記)

R語言實現關聯規則筆者前言：以前在網上遇到很多很好的關聯規則的案例，最近看到一個更好的，於是便學習一下，寫個學習筆記。推薦演算法中物品-物品用關聯規則；人物-物品用協同過濾；人-人用社會網路分析；特徵-

基於內容的推薦演算法（推薦系統）（三）

因為要報賬，趕著做出來一個用來展示的網站，用來申請軟體著作權然後拿到發票趕緊報銷去。所以用了幾個小時的時間弄出來一個醜不拉幾的網站，還好之前web作業做過一部分。現在的話是這樣弄得：整體架構如下用了IDEA開發，基於Java EE，tomcat和MySQL（

ALS推薦演算法學習總結

在完成基於大資料平臺的圖書館推薦系統後，最近把學習的中心放在機器學習上面。在接下來的幾個月中，希望自己能弄明白常見機器學習演算法的原理，並且能在spark平臺上進行實踐。在我的機器學習學習和實踐之路的一個本書是《Spark機器學習》，這本書雖然比較舊，但是寫的還是比較好。書裡講了各種常見的

基於圖模型的智慧推薦演算法學習筆記（含知識圖譜/圖神經網路，不止於智慧推薦）

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[握手][握手] 【再囉嗦一下】如果你對智慧推薦感興趣，歡迎先瀏覽我的另一篇隨筆：智慧推薦演算法演變及學習筆記【最後再說一下】本文只對智慧推薦演算法中的基於圖模型的智慧推薦進行具體介紹！一、基於知識圖

基於Spark實現推薦演算法-1:推薦演算法簡介

個性化推薦系統簡介個性化推薦系統的定義在 1997 年由 Resnick 和 Varian 提出:利用網際網路向用戶提供信息和建議，幫助使用者選擇產品，或模擬售貨員幫助使用者完成購買行為的系統。通常推薦由三個要素組成:推薦演算法、使用者、候選推薦專案。

購物網站的推薦演算法-個性化推薦演算法中如何處理買了還推

1. 引言目前在工業界推薦中廣泛使用的協同過濾演算法(Collaborative Filtering)主要分為user-based和item-based兩種型別，user-based多用於挖掘那些有共同興趣的小團體；而item-based側重於挖掘item之間

[機器學習]推薦系統之協同過濾演算法

在現今的推薦技術和演算法中，最被大家廣泛認可和採用的就是基於協同過濾的推薦方法。本文將帶你深入瞭解協同過濾的祕密。下面直接進入正題. 1. 什麼是推薦演算法推薦演算法最早在1992年就提出來了，但是火起來實際上是最近這些年的事情，因為網際網路的爆發，有了更大的資料量可以供我們使用，推薦演算法才有了很大的用武

資料科學個人筆記：推薦系統之推薦演算法（基於內容+標籤+半監督學習模型）

一、基於內容的模型（一）推薦系統冷啟動問題使用者冷啟動：給新使用者推薦物品冷啟動：新物品被推薦系統冷啟動：為新開發的網站（還沒有使用者和使用者行為，只有一些物品資訊）設計推薦系統冷啟動問題的一些解決方案：1.推薦熱門；2.用註冊資訊進行粗粒度的個性化；3.

機器學習->推薦系統->基於圖的推薦演算法(PersonalRank)

本博文將介紹PersonalRank演算法，以及該演算法在推薦系統上的應用。將使用者行為資料用二分圖表示，例如使用者資料是由一系列的二元組組成，其中每個元組(u,i)表示使用者u對物品i產生過行為。將個性化推薦放在二分圖模型中，那麼給使用者u推薦物品

主要推薦系統演算法總結及Youtube深度學習推薦演算法例項概括

現如今，許多公司使用大資料來做超級相關推薦，並以此來增加收益。在海量推薦演算法中，資料科學家需要根據商業限制以及需求來選擇最佳演算法。為使其簡單化，Statsbot 團隊為現有的主要推薦系統演算法準備了一份概述。協同過濾協同過濾（CF）及其變式是最常用的推薦演算法之一。即使是資料科學的初學者，

老司機淺談linux系統學習技巧

windowsLinux起源於20世紀70年代，是一種優秀的操作系統系統。初次接觸到linux這個系統是在大學期間，這樣才發現除了windows外的另外一個有趣系統。開始抱著好奇的心態去了解，隨著深入學習，筆者被它獨有的魅力所吸引。即使它的可視化窗口操作模式並不如Windows操作系統那樣完美，可是它的可維護

幹貨 | 從菜鳥到老司機_數據科學的 17 個必用數據集推薦

產品整理每天人類標記 blog 影響 lan 零售業原文鏈接摘要： ◆ ◆ ◆ 菜鳥入門 1. Iris 數據集在模式識別文獻中，Iris 數據集恐怕是最通用也是最簡單的數據集了。要學習分類技術，Iris 數據集絕對是最方便的途徑。如果你之前從未接觸過數據科學

吳恩達機器學習 - 推薦系統吳恩達機器學習 - 推薦系統

原吳恩達機器學習 - 推薦系統 2018年06月25日 22:26:51 離殤灬孤狼閱讀數：187

機器學習-推薦系統中基於深度學習的混合協同過濾模型

近些年，深度學習在語音識別、影象處理、自然語言處理等領域都取得了很大的突破與成就。相對來說，深度學習在推薦系統領域的研究與應用還處於早期階段。攜程在深度學習與推薦系統結合的領域也進行了相關的研究與應用，並在國際人工智慧頂級會議AAAI 2017上發表了相應的研究成果《A Hy

「珍藏」老司機為你推薦10個炫酷的開源庫，看完的人都收藏了

前言技術群裡面經常有人問到一些炫酷的UI效果實現方法，有時候我都是給一個相同或者相似效果的Github連結，有同學私信給我說，大佬，怎麼這些效果你都能找到？你是怎麼搜尋的，或者有其他什麼祕方？會利用Google、百度等搜尋工具搜尋是一方面，另一個重要的方面是：記錄蒐藏，當看到一個炫酷的效果的時候，記得

推薦演算法學習-推薦系統老司機的十條經驗