1. 程式人生 > >百度網盟內容匹配廣告和展示廣告相關技術

百度網盟內容匹配廣告和展示廣告相關技術

背景

 涉及四方:網民(Users) + 網站主 (Publishers) + 廣告主(Advertisers) + 網盟 (AdNetwork/Matcher)
 廣告計費
      計費方式
           CPC 按點選收費
           CPM 按展示收費
           CPC+CPM 混合收費
      廣義二階價格拍賣 (Generalized second price)

網盟廣告檢索系統
廣告系統整體架構
這裡寫圖片描述
廣告系統相關技術
這裡寫圖片描述

應用技術 - 分層實驗框架

 AB-Test
 使用者實驗/頁面實驗/隨機實驗
 通過分層流量複用提高實驗併發率
 Reference: Overlapping Experiment Infrastructure: More, Better, Faster Experimentation (Google KDD 2010)

應用技術 - 使用者識別

 瀏覽器外掛/客戶端軟體/HTTP Cookie/Flash Cookie/本地使用者資料(如everCookie)/IP+UA/登陸帳號
 使用者識別技術新動向 - CookieMatching

應用技術 - 高效能檢索

計算模型
這裡寫圖片描述

 觸發策略->過濾策略->初選策略->精選策略 (廣告量減少, 計算量增加)

網路模型
這裡寫圖片描述

 同步模型, 半非同步模型, 全非同步模型
 慢Query對系統吞吐量影響
      產生原因: 攻擊行為, 實驗引入, 服務bug, 網路抖動, 機器異常
      監控處理: 比例波動檢測以確定原因;自我保護,超過閾值則終端; Cache結果; 簡化演算法犧牲效果, 直接丟棄

索引模型
廣告庫的邏輯結構
帳戶->計劃->推廣組->廣告
技術要求
實時性更新: 1s內生效, 高併發讀寫
高查詢效能: 查詢qps達到每秒100萬 - 1000萬
技術方案需要
無鎖的併發模型
全記憶體的資料模型
無鎖的併發模型
COW(Copy on Write) 讀寫分離
延遲銷燬

索引擴充套件

 劃分: 資料均勻, 計算均勻, 計算重複, 資料重複,頻寬增長

這裡寫圖片描述
整體索引系統框架
這裡寫圖片描述

系統要求

 高時效性; 高容錯性 (實時檢索服務, 特徵儲存服務, 資料推送服務); 高實驗性; 高一致性; 高擴充套件性; 高可用性

網盟廣告匹配演算法

廣告投放

 按廣告主表達方式分類
      1. 關鍵詞 (輸入)
      2. 標籤(選擇)
      3. 規則(輸入/選擇)
 按建模物件分類
      1. 使用者維度 - 以Cookie為建模物件
      2. 流量維度 - 以當前URL為建模物件
 其他分類維度
      1. 時空維度:當前/歷史,長期/短期,地域
      2. 優化目標:品牌,展現,點選,轉化
      3. 資料來源:搜尋、瀏覽

廣告特點

 1. 低點選率
 2. 低margin
 3. ROI難量化
 4.使用者體驗難量化

廣告檢索

廣告檢索漏斗模型

 1. 片段觸發; 2. 相關性排序; 3. 業務過濾; 4. CPM排序;5. 機制調整
 效果與效能的折中

片段觸發

 片段來源: 1. 當前網頁; 2. 使用者歷史行為
 片段型別: 1. 關鍵詞;  2. 使用者/流量標籤; 3. 規則模板

相關性排序

 衡量匹配度: 1. Term Match; 2. Topic Match; 3. Category Match
 相關性排序
      綜合考慮各個匹配度的迴歸模型
      1. 人工語料標註
      2. 模型訓練
      3. 隨著語料規模的增加, 更多離散特徵
      4. 人工輔助規則(行業矩陣)

業務過濾

 地域過濾,時間過濾,預算過濾,IP過濾,站點過濾,創意優選

CPM排序

 eCPM排序
      eCPM = bid * Q
      price_i = (bid_(i+1) * Q_(i+1)) / Q_i

機制調整

 過展現控制
 Hidden Cost
      廣告對使用者/站點體驗的傷害
      對排名CPM調整 CPM = (Bid - HC) * Q
      對計費進行調整 Price = CPM(next) / Q + HC

頁面特徵提取

 基礎特徵提取

      頁面結構特徵
      Refer Query提詞
      站點頻道提詞
      流量質量劃分
      頁面主題分類
 Term賦權

      統計維度:基本的TF*IDF賦權方式
      結構維度:網頁結構角度,主要是Term的位置
      語義維度:從語義角度理解網頁,利用篇章主題校驗
      廣告庫維度:關鍵詞的購買資訊

使用者特徵提取

 歷史Query特徵

      拍賣詞包含匹配演算法
      切詞/專名邊界校驗
      語義相關性校驗
      Query分類
 歷史瀏覽特徵

      網頁關鍵詞提取
      網頁分類特徵
      歷史廣告點選
      歷史瀏覽頁面模板
 使用者分類特徵

      特徵提取
           Query關鍵詞
           Query分類
           站點
           頁面標題,目錄,主要區域
           頁面分類
           廣告點選,廣告分類
           頻次,組合,時間衰減
      規則模型
           特徵挖掘
           人工評估
           決策樹
      機器學習模型
           語料淨化(先驗語料,廣告點選語料)
           特徵選擇
           模型構建(分類模型,lookalike,推薦模型)
           效果評估
 時效性

 使用者體驗

      使用者體驗
           單調性(連續展現)
           醒目度(多媒體多廣告位)
           敏感性(涉及敏感行業關鍵詞)
      使用者反饋
           興趣
           廣告
 Session特徵分析 (連續使用者行為)

      關鍵詞提取修正:如:魔獸寶寶->寶寶
      意圖識別: 購買/維修/查詢
      語義擴充套件

廣告特徵提取

 拍賣詞特徵

      結構分析
      Term賦權
 創意特徵

      文字創意 - 飄紅, 關鍵詞,長度
      多媒體創意 - 顏色,形狀,大小,語義
 到達頁特徵

      網頁分析
      頁面主題
      轉化頁/諮詢頁

 廣告特徵應用

      廣告分類 - 行業,敏感,欺詐
      不相關提詞挖掘
      相關性匹配

廣告CTR預估問題

CTR預估要解決的問題
這裡寫圖片描述

CTR預估問題的挑戰

 挑戰1 - 資料
      海量資料
           訓練樣本:每天上億級別的訪問量
           特徵型別複雜:廣告,使用者,流量,季節,節假日等
      點選率偏低
      噪音資料多
      問題:海量資料,高維特徵,類別極端不平衡,噪音大

 挑戰2 - 時效性
      CTR隨時間改變 - 季節,興趣
      bad case快速下線  新廣告, 新網站迭代調優
      方法
           線上演算法
           移動時間視窗的Batch演算法

 挑戰3 - Exploration
      CTR預估決定未來訓練樣本中的廣告
      Exploration/Exploitation trade-off
      長期收益 vs 短期收益

從機器學習角度看CTR預估問題
這裡寫圖片描述

CTR預估問題的訓練流程

這裡寫圖片描述
CTR預估問題的機器學習演算法

特徵

 1. 主要特徵
      使用者,流量廣告
 2. 特徵型別
      類別型特徵 categorical features
      連續值特徵
 3. 特徵表示
      使用one-hot編碼
      使用特徵外積表示特徵組合
      特徵維數表示類別個數和,特徵個數海量

特徵選擇

 1. Filter類
      單特徵AUC, 單特徵AUC上界, gini指數,資訊熵,點選直方圖
 2. Wrapper類
      AUC, AUC上界,MAE, WMAE, 似然Loss, 預估CTR均值,預估CTR方差
 3. embedding類
      L1正則化 Grafting分 Foba分

資料

 資料來源
      展現日誌,點選日誌, 使用者搜尋日誌等
 資料處理
      日誌拼接,不全日誌刪除
 資料淨化
      異常資料過濾 (去除噪音, 比如作弊資料)
      不可見日誌刪除

模型

 線性邏輯迴歸模型

這裡寫圖片描述

 引數估計
      最大似然
      基於擬牛頓迭代計算

模型訓練

 分散式平行計算
      MPI (Message Passing Interface) 基於程序通訊的計算模型, 適合模型訓練
      Hadoop: 基於Map-Reduce超大資料量併發計算, 適合資料預處理
 模型更新
      每過一定週期,重新訓練模型
      模型線上實時更新

評估系統

 線上評估
      通過流量對比,觀察收入各項指標的影響,包括CTR, CPM, ACP, 到達, 二跳
 線下評估
      類別不平衡
           模型排序能力: AUC
           模型擬合能力: 對數擬然

大規模分散式機器學習演算法

 特徵編碼及選擇
 資料淨化
 大規模分散式訓練
 線上線下效果評估