推薦系統架構-(附ppt&代碼)
Part1.樂視網視頻推薦系統
推薦系統:和傳統的推薦系統架構無異(基礎建模+規則)
數據模塊特點:用戶反饋服務數據-》kv 緩存-》log存儲
行為日誌-》解析/聚合-》session log-》cf/用戶模型
系統推薦流程:
召回:聚類算法;tensorflow(topN);分類,top個性化標簽(微軟lda);cf/als;人工幹預
排序:時效+相似度+gbdt/ LR
過濾
策略調整:分類多樣性
調優—提升較明顯的組合:
1.分類+標簽倒排排序
2.itemcf+als召回+分類多樣性
3.itemcf召回優化排序+此召回的用戶反饋調權占比40%
4.item召回打分引入曝光
短視頻冷啟動:排序未點擊的會馬上落下
Part2.RoadMap of YouTube isrecommendation System(Ke Wang)PPT
Youtube推薦系統的發展歷程:
1.get tags:user共現圖/pagerank思想 && 引用視頻相關視頻中top tags
2.基於user興趣推薦多級相關視頻
3.視頻排序:質量,多樣性,多頻道源
4.相關視頻推薦優化:避免cf缺點(cf缺點:新鮮性 and 長尾)
1)retrieval with weighted topic(短期內觀看視頻中大眾類型標簽推薦計算)
2)防止(1),learning topic transitions
用戶行為去擬合topic的權重大小
5.優化應用:deep learning
召回建模中的策略:
deep learning輸入embedding:歷史搜索+觀看+用戶特征,最後輸出概率;
顯性反饋沒有隱含反饋重要;
用戶最近100條興趣 better than 最近100天用戶的興趣;
feed流中:放棄序列輸入 防止過擬合用戶模塊
新用戶的興趣挖掘:時序行為挖掘 better 隨機行為
ranking 建模:(用戶觀看時長為指標)
dnn架構和召回類似。
dnn輸入:視頻,視頻均值,用戶語言,視頻語言,距離上次觀看時間開方,原值,平方;先前的印象原值,開方,平方;等embedding
輸出:加權lr(正樣本評估加權)
Part3 58同城智能推薦系統的演進和實踐 詹坤林
評價指標:推薦點擊占比,推薦轉化比,點擊率,轉化率,覆蓋率(評價長尾)
特點:用戶標簽和帖子標簽很完善
用戶標簽挖掘:
標簽會有分類:購房偏好,租房偏好,購車偏好,通用屬性(時間,質量分,關鍵詞,圖片),動態屬性(pv、uv、閱讀時長)等
召回:
興趣召回(基於興趣標簽檢索),熱門召回(統計ctr,平滑處理),地域召回,關聯規則,協同過濾(實時itemCF),SVD(效果一般),DNN
召回融合:
1)分級先後順序融合
2)調制融合(比例融合)
排序模型:
單一模型LR/XGBoost/FM
融合模型:XGBoost+LR/FM
深度模型:FNN(提升2%) / Wide deep/CNN
多目標優化(多權):
點擊率,轉化率,停留時長預估(回歸,分類)
學習平臺:
深度學習在kubernets中融合tensorflow,caffe,Distribute tensor flow
機器學習:Yarn融合MLib,DMc
深度學習和機器學習平臺通過hdfs打通
規則叠代(AB test):
去重策略/打散列表/產品邏輯/頁面展示叠代
A/Btest(有web操作頁面,可供全公司配置實驗)
請求分流/數據監控
A/B多層實驗架構
系統優點:
耦合性低,擴展性佳;協同開發,快速叠代;
關鍵技術
58自研RPC框架SCF
系統立體監控:
業務總體監控/關鍵模塊監控(請求量,失敗量,平均延時,最大值,最小值)+告警閾值
數據監控:
推薦埋點設計:每一次曝光seqNo,進入點擊click標誌鏈式關聯;溝通時長決定是否打上埋點commucate
埋點開發測試流程:
埋點文檔沈澱+EtL抽取文檔
效果數據統計:
hive上用Kylin(多維數據)做可視化,郵件報警和監控
推薦效果:
推薦占比20%~30%,流量2億,響應30ms
Part4 58個性化推薦push系統
推送的作用:
服務用戶,提高日活和留存,活動運營和推廣
推送點擊率預估&效果數據監控
原策略bug:條數限制,先來先推,精準度差,幹擾性大
推送控制系統:
機制化推送+運營推送—》通用推送平臺—〉消息總線—》推送平臺
推送點擊率預估:樣本(推送點擊1;推送未點擊0);特征工程(用戶行為特征,推送上下文環境特征:周幾,推送信息特征:軟文);模型算法:xgboost(分布式版)
模型離線評價:批次召回率 整體召回率
推薦系統架構-(附ppt&代碼)