1. 程式人生 > >大資料應用之騰訊精準推薦

大資料應用之騰訊精準推薦

基於騰訊8億級使用者畫像,百億級訪問流量,百億級的社交網路關係鏈等資料,在考慮使用者體驗的同時如何發揮大資料的價值?個性化推薦是一個不錯的應用方向。本次演講來自騰訊資料中心資料探勘研究員肖磊,內容包括:騰訊精準推薦及其在社交廣告,電商推薦,視訊推薦等場景中的應用,面臨的問題和挑戰,以及嘗試的解決方案。

【面臨的問題和挑戰】

騰訊的大資料現狀:
- 800 mil | 8億活躍使用者
- 100 bn | 1000億使用者關係鏈
- 100 PB | 資料倉庫儲存100PB+
- ...…

騰訊精準推薦:視訊推薦、電商推薦、廣告推薦

推薦中的 3P:使用者、ITEM、場景
1. 使用者:
- 點選資料非常稀疏:大部分使用者,一個月內都沒有點選;平均1000次曝光,點選 1~8。
- 曝光資料偏態(以某個廣告位為例):40%的使用者,一天內,曝光 = 1;80%的使用者,一天內,曝光 < 3
2. ITEM(廣告):

- 素材內容對點選影響很大(如圖:兩個廣告展示的點選率相差8倍)


- 新廣告的冷啟動:每天新增幾十萬新廣告,沒有使用者反饋資訊,自身資訊匱乏。
3. 場景(廣告位 )
- 上下文較少:沒有明顯的意圖帶入;沒有固定的頁面內容
- 廣告位眾多:網頁、客戶端、手機等

挑戰:
- 50 ms | 使用者體驗,響應時延<50毫秒
- 10 bn | 100億推薦請求
- 3~9 | 廣告生命週期僅有3-9天左右
- 99% | 99%以上曝光無點選
- 1‰ | FACEBOOK平均點選率小於1‰

【解決之道】

解決之道3S:資料、演算法、系統

1. 資料
使用者畫像

ITEM的影象特徵
- 影象特徵:亮度、飽和度、色彩度、對比度、尖銳度等
- 影象相似度:Item_id vs img_id

示例:廣告圖片相似度

2. 演算法 - 運用之妙 知行合一

示例:泰囧的推薦結果

3. 系統 - 流式計算,實時計算

【兩大核心資料平臺】

1. 騰訊分散式資料倉庫(TDW)
- 基於開源hadoop和hive進行大量優化和改造
- 單叢集4400臺(業界頂級規模),儲存容量100PB

關鍵技術
- Hadoop Master(NN/JT)節點實現並行擴充套件,支援災難時自動熱切

- Hive&Pig功能豐富,支援傳統資料庫的標準語法,提供視覺化整合開發環境


- Lhotse一站式任務管理,每天支撐10 HADOOP萬級任務排程,可平行擴充套件
2. 實時推薦平臺(APOLLO)
- 泛平臺支撐,滿足騰訊各類個性化推薦需求
- 海量資料線上處理,日推薦請求300億,實時計算30000億
- 演算法精準,平臺高效,毫秒級響應

關鍵技術
- 多種演算法模型靈活適配,LR、RDT、 SVD等
- 簡單高效的擴充套件能力,資料動態伸 縮,上層無感知

- 多副本資料容災,服務可用度 99.995%以上


- 多級快取技術,有效解決分散式計算 的資料CoLocation問題
--
講師簡介:肖磊,騰訊資料中心資料探勘研究員。2004年畢業入職騰訊,一直從事資料相關的工作;關注大資料環境下的資料探勘,個性化精準推薦相關領域。

最後附上小編送給講師肖磊的課堂筆記。也請關注小編的微信公眾號:@shenzhenware