1. 程式人生 > >推薦系統架構-(附ppt&代碼)

推薦系統架構-(附ppt&代碼)

用戶標簽 als kubernets nbsp ted 軟文 embed 歷程 快速叠代

Part1.樂視網視頻推薦系統

推薦系統:和傳統的推薦系統架構無異(基礎建模+規則)

數據模塊特點:用戶反饋服務數據-》kv 緩存-》log存儲

行為日誌-》解析/聚合-》session log-》cf/用戶模型

系統推薦流程:

召回:聚類算法;tensorflow(topN);分類,top個性化標簽(微軟lda);cf/als;人工幹預

排序:時效+相似度+gbdt/ LR

過濾

策略調整:分類多樣性

調優—提升較明顯的組合:

1.分類+標簽倒排排序

2.itemcf+als召回+分類多樣性

3.itemcf召回優化排序+此召回的用戶反饋調權占比40%

4.item召回打分引入曝光

短視頻冷啟動:排序未點擊的會馬上落下

Part2.RoadMap of YouTube isrecommendation System(Ke Wang)PPT

Youtube推薦系統的發展歷程:

1.get tags:user共現圖/pagerank思想 && 引用視頻相關視頻中top tags

2.基於user興趣推薦多級相關視頻

3.視頻排序:質量,多樣性,多頻道源

4.相關視頻推薦優化:避免cf缺點(cf缺點:新鮮性 and 長尾)

1)retrieval with weighted topic(短期內觀看視頻中大眾類型標簽推薦計算)

2)防止(1),learning topic transitions

用戶行為去擬合topic的權重大小

5.優化應用:deep learning

召回建模中的策略:

deep learning輸入embedding:歷史搜索+觀看+用戶特征,最後輸出概率;

顯性反饋沒有隱含反饋重要;

用戶最近100條興趣 better than 最近100天用戶的興趣;

feed流中:放棄序列輸入 防止過擬合用戶模塊

新用戶的興趣挖掘:時序行為挖掘 better 隨機行為

ranking 建模:(用戶觀看時長為指標)

dnn架構和召回類似。

dnn輸入:視頻,視頻均值,用戶語言,視頻語言,距離上次觀看時間開方,原值,平方;先前的印象原值,開方,平方;等embedding

輸出:加權lr(正樣本評估加權)

Part3 58同城智能推薦系統的演進和實踐 詹坤林

評價指標:推薦點擊占比,推薦轉化比,點擊率,轉化率,覆蓋率(評價長尾)

特點:用戶標簽和帖子標簽很完善

用戶標簽挖掘:

標簽會有分類:購房偏好,租房偏好,購車偏好,通用屬性(時間,質量分,關鍵詞,圖片),動態屬性(pv、uv、閱讀時長)等

召回:

興趣召回(基於興趣標簽檢索),熱門召回(統計ctr,平滑處理),地域召回,關聯規則,協同過濾(實時itemCF),SVD(效果一般),DNN

召回融合:

1)分級先後順序融合

2)調制融合(比例融合)

排序模型:

單一模型LR/XGBoost/FM

融合模型:XGBoost+LR/FM

深度模型:FNN(提升2%) / Wide deep/CNN

多目標優化(多權):

點擊率,轉化率,停留時長預估(回歸,分類)

學習平臺:

深度學習在kubernets中融合tensorflow,caffe,Distribute tensor flow

機器學習:Yarn融合MLib,DMc

深度學習和機器學習平臺通過hdfs打通

規則叠代(AB test):

去重策略/打散列表/產品邏輯/頁面展示叠代

A/Btest(有web操作頁面,可供全公司配置實驗)

請求分流/數據監控

A/B多層實驗架構

系統優點:

耦合性低,擴展性佳;協同開發,快速叠代;

關鍵技術

58自研RPC框架SCF

系統立體監控:

業務總體監控/關鍵模塊監控(請求量,失敗量,平均延時,最大值,最小值)+告警閾值

數據監控:

推薦埋點設計:每一次曝光seqNo,進入點擊click標誌鏈式關聯;溝通時長決定是否打上埋點commucate

埋點開發測試流程:

埋點文檔沈澱+EtL抽取文檔

效果數據統計:

hive上用Kylin(多維數據)做可視化,郵件報警和監控

推薦效果:

推薦占比20%~30%,流量2億,響應30ms

Part4 58個性化推薦push系統

推送的作用:

服務用戶,提高日活和留存,活動運營和推廣

推送點擊率預估&效果數據監控

原策略bug:條數限制,先來先推,精準度差,幹擾性大

推送控制系統:

機制化推送+運營推送—》通用推送平臺—〉消息總線—》推送平臺

推送點擊率預估:樣本(推送點擊1;推送未點擊0);特征工程(用戶行為特征,推送上下文環境特征:周幾,推送信息特征:軟文);模型算法:xgboost(分布式版)

模型離線評價:批次召回率 整體召回率

推薦系統架構-(附ppt&代碼)