CTR預估模型演變及學習筆記

阿新 • • 發佈：2020-05-10

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[握手][握手]

【再囉嗦一下】如果你對智慧推薦感興趣，歡迎先瀏覽我的另一篇隨筆：智慧推薦演算法演變及學習筆記

【最後再說一下】本文只對智慧推薦演算法中的CTR預估模型演變進行具體介紹！

一、傳統CTR預估模型演變

1. LR

即邏輯迴歸。LR模型先求得各特徵的加權和，再新增sigmoid函式。

使用各特徵的加權和，是為了考慮不同特徵的重要程度
使用sigmoid函式，是為了將值對映到 [0, 1] 區間

LR模型的優點在於：

易於並行化、模型簡單、訓練開銷小
可解釋性強、可拓展性強

LR模型的缺點在於：

只使用單一特徵，無法利用高維資訊，表達能力有限
特徵工程需要耗費大量的精力

2. POLY2

POLY2對所有特徵進行“暴力”組合（即兩兩交叉），並對所有的特徵組合賦予了權重。

一定程度上解決了LR缺乏特徵組合的問題，但是“暴力行為”帶來了一些問題：

特徵維度爆炸，特徵資料過於稀疏，特徵權重不易收斂

3. FM

相比於POLY2，FM為每個特徵學習了一個隱權重向量 w。在特徵交叉時，使用兩個特徵隱向量w的內積作為交叉特徵的權重。

將原先n^2級別的權重數量降低到n*k（k為隱向量w的維度，n>>k），極大降低了訓練開銷。

4. FFM

在FM模型基礎上，FFM模型引入了Field-aware。在特徵交叉時，使用特徵在對方特徵域上的隱向量內積作為交叉特徵的權重。

FFM模型的權重數量共n*k*f個，計算複雜度上升到k*n^2，遠遠大於FM模型的k*n。

5. GBDT/xgboost/lightgbm

直接使用機器學習演算法中的整合學習方法。

6. GBDT+LR/FM/FFM

利用GBDT自動進行特徵篩選和組合，進而生成新的離散特徵向量，再把該特徵向量當作LR模型的輸入。

7. MLR

在LR的基礎上採用分而治之的思路，先對樣本進行分片，再在樣本分片中應用LR進行CTR預估。

以上1-7部分可以總結為傳統的CTR預估模型演變，這裡分享一下大佬的關係圖譜：

二、引入深度學習的CTR預估模型演變

1. Deep Crossing

通過加入embedding層將稀疏特徵轉化為低維稠密特徵，用stacking層連線分段的特徵向量，再通過多層神經網路完成特徵組合/轉換。

跟經典DNN有所不同的是，Deep crossing採用的multilayer perceptron是由殘差網路組成的。

2. FNN

相比於Deep Crossing，FNN使用FM的隱層向量作為user和item的Embedding，從而避免了完全從隨機狀態訓練Embedding。

3. Wide & Deep

把單輸入層的Wide部分和經過多層感知機的Deep部分連線起來，一起輸入最終的輸出層。

wide部分：高維特徵+特徵組合的LR
deep部分：deep learning

4. DeepFM

DeepFM對Wide & Deep的改進之處在於，用FM替換掉了原來的Wide部分，加強了淺層網路部分特徵組合的能力。

5. Deep & Cross (DCN)

使用Cross網路替代了原來的Wide部分。Cross網路使用多層cross layer對輸入向量進行特徵交叉，增加特徵之間的互動。

6. NFM

相對於DeepFM和DCN對於Wide&Deep Wide部分的改進，NFM可以看作是對Deep部分的改進。

NFM用一個帶Bi-interaction Pooling層的DNN替換了FM的特徵交叉部分。

7. Deep Interest Network (DIN)

在模型的embedding layer和concatenate layer之間加入了attention unit，使模型能夠根據候選商品的不同，調整不同特徵的權重。

以上1-7部分可以總結為引入深度學習的CTR預估模型演變，這裡分享一下大佬的關係圖譜：

三、深度學習推薦模型的上線問題

對於深度學習推薦模型的離線訓練自然不是問題，一般可以採用比較成熟的離線並行訓練環境。

對於深度學習推薦模型的上線問題，其線上時效性至關重要。

1. “特徵實時性”

這裡分享一下大佬畫的智慧推薦系統主流技術架構圖，博主認知有限，就不展開介紹了。

2. “模型實時性”

與“特徵實時性”相比，推薦系統模型的實時性往往是從更全域性的角度考慮問題，博主認知有限，就不展開介紹了。

3. “服務實時性”：雙塔模型

很多公司採用“複雜網路離線訓練，生成embedding存入記憶體資料庫，線上實現LR或淺層NN等輕量級模型擬合優化目標”的上線方式。

以百度的雙塔模型舉例說明：

（1）分別用複雜網路對“使用者特徵”和“廣告特徵”進行embedding，這就形成了兩個獨立的“塔”，因此稱為雙塔模型。

（2）在完成雙塔模型的訓練後，可以把最終的使用者embedding和廣告embedding存入記憶體資料庫。

（3）線上推理時，只需要實現最後一層的邏輯，從記憶體資料庫中取出使用者/廣告的embedding，通過簡單計算即可得到預估結果。

最後感嘆一句，深度學習CTR模型的發展實在是太迅速了，很多新模型就不繼續介紹了，要保持學習啊！

本文參考了大佬的知乎專欄：https://zhuanlan.zhihu.com/p/51117616

如果你對智慧推薦感興趣，歡迎先瀏覽我的另一篇隨筆：智慧推薦演算法演變及學習筆記

如果您對資料探勘感興趣，歡迎瀏覽我的另一篇部落格：資料探勘比賽/專案全流程介紹

如果您對人工智慧演算法感興趣，歡迎瀏覽我的另一篇部落格：人工智慧新手入門學習路線和學習資源合集（含AI綜述/python/機器學習/深度學習/tensorflow）

如果你是計算機專業的應屆畢業生，歡迎瀏覽我的另外一篇部落格：如果你是一個計算機領域的應屆生，你如何準備求職面試？

如果你是計算機專業的本科生，歡迎瀏覽我的另外一篇部落格：如果你是一個計算機領域的本科生，你可以選擇學習什麼？

如果你是計算機專業的研究生，歡迎瀏覽我的另外一篇部落格：如果你是一個計算機領域的研究生，你可以選擇學習什麼？

如果你對金融科技感興趣，歡迎瀏覽我的另一篇部落格：如果你想了解金融科技，不妨先了解金融科技有哪些可能？

之後博主將持續分享各大演算法的學習思路和學習筆記：hello world: 我的部落格寫作

CTR預估模型演變及學習筆記

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[握手][握手] 【再囉嗦一下】如果你對智慧推薦感興趣，歡迎先瀏覽我的另一篇隨筆：智慧推薦演算法演變及學習筆記【最後再說一下】本文只對智慧推薦演算法中的CTR預估模型演變進行具體介紹！一、傳統CTR預

深度學習中的序列模型演變及學習筆記（含RNN/LSTM/GRU/Seq2Seq/Attention機制）

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[認真看圖][認真看圖] 【補充說明】深度學習中的序列模型已經廣泛應用於自然語言處理（例如機器翻譯等）、語音識別、序列生成、序列分析等眾多領域！【再說一句】本文主要介紹深度學習中序列模型的演變路徑，和往

人工智慧中小樣本問題相關的系列模型演變及學習筆記（一）：元學習、小樣本學習

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[握手][握手] 【再囉嗦一下】本來只想記一下GAN的筆記，沒想到發現了一個大宇宙，很多個人並不擅長，主要是整理歸納！一、Meta Learning 元學習綜述 Meta Learning，又稱為 l

人工智慧中小樣本問題相關的系列模型演變及學習筆記（三）：遷移學習、深度遷移學習

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[握手][握手] 【再囉嗦一下】本文銜接上兩個隨筆：人工智慧中小樣本問題相關的系列模型演變及學習筆記（一）：元學習、小樣本學習【再囉嗦一下】本文銜接上兩個隨筆：人工智慧中小樣本問題相關的系列模型演變及學

人工智慧中小樣本問題相關的系列模型演變及學習筆記（四）：知識蒸餾、增量學習

PaddlePaddle分散式訓練及CTR預估模型應用

　　前言：我在github上建立了一個新的repo：PaddleAI, 準備用Paddle做的一系列有趣又實用的案例，所有的案例都會上傳資料程式碼和預訓練模型，下載後可以在30s內上手，跑demo出結果，讓大家儘快看到訓練結果，用小批量資料除錯，再用全量資料跑模型，當然，也可以基於我上傳的預訓練模型進行遷移學

深度長文 | 從FM推演各深度CTR預估模型（附開原始碼）

作者丨龍心塵 & 寒小陽研究方向丨機器學習，資料探勘題記：多年以後，當資深演算法專家們看

從FM推演各深度CTR預估模型(附程式碼)

機器學習中的聚類演算法演變及學習筆記

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[認真看圖][認真看圖] 【補充說明】聚類演算法可以作為獨立方法將資料聚成不同簇，也可以作為資料探勘任務（例如分類、關聯規則等）的預處理！【補充說明】聚類演算法與分類演算法的主要區別在於訓練時的樣本有無

異常檢測演算法演變及學習筆記

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[認真看圖][認真看圖] 【補充說明】異常檢測，又稱離群點檢測，有著廣泛應用。例如金融反欺詐、工業損毀檢測、電網竊電行為等！一、基於時間序列分析關於時間序列分析的介紹，歡迎瀏覽我的另一篇部

深度學習在CTR預估中的應用

搜索前言 deep 帶來 python 2017年進入訓練信息歡迎大家前往騰訊雲+社區，獲取更多騰訊海量技術實踐幹貨哦~ 本文由鵝廠優文發表於雲+社區專欄一、前言二、深度學習模型 1. Factorization-machine（FM） FM = LR

深度學習在CTR預估的應用

深度學習在各個領域的成功深度學習在影象和音訊等方向比傳統方向有大的提升，導致很多產品能快速落地第一行三張圖片代表圖片和音訊方向相比傳統提升30%-50%，第二行第一張代表深度學習在自然語言處理方面方向的應用(相比傳統學習方法有提升，但是提升效果有限)，後兩張代表生成式模型(生成圖片

基於深度學習的廣告CTR預估演算法

數十款阿里雲產品限時折扣中，趕緊點選這裡，領劵開始雲上實踐吧！演講嘉賓簡介：朱小強，花名懷人，阿里媽媽高階演算法專家，領導了核心的排序演算法與機器學習平臺團隊，負責阿里精準展示廣告的CTR/CVR預估系統/演算法

用機器學習對CTR預估建模（一）

資料集介紹： train - Training set. 10 days of click-through data, ordered chronologically. Non-clicks and clicks are subsampled acco

（讀論文）推薦系統之ctr預估-DeepFM模型解析

今天第二篇（最近更新的都是Deep模型，傳統的線性模型會後面找個時間更新的哈）。本篇介紹華為的DeepFM模型 (2017年)，此模型在 Wide&Deep 的基礎上進行改進，成功解決了一些問題，具體的話下面一起來看下吧。原文：Deepfm: a factorization-machine base

GBDT與LR融合提升廣告點擊率預估模型

所有預測其中參考 ans 工作方案隨機適合 1GBDT和LR融合 LR模型是線性的，處理能力有限，所以要想處理大規模問題，需要大量人力進行特征工程，組合相似的特征，例如user和Ad維度的特征進行組合。 GDBT天然適合做特征提取，因為GBD

facebook:gbdt+lr在ctr預估中的應用

span ctr .com 關聯 auc left under mar 結構背景 facebook上的廣告並不是與query關聯的，而是與用戶的興趣及其人口信息相關，所以相比於搜索其候選廣告的體量要大的多；級聯模型：解決上述大量候選集合的問題，逐級增大計算復雜度；

CTR預估中GBDT與LR融合方案

1、背景 CTR預估（Click-Through Rate Prediction）是網際網路計算廣告中的關鍵環節，預估準確性直接影響公司廣告收入。CTR預估中用的最多的模型是LR（Logistic Regression）[1]，LR是廣義線性模型，與傳統線性模

聊聊CTR預估演算法DeepFM

DeepFM這種演算法是一種基於分解機的神經網路，該演算法由哈爾濱工業大學深圳研究生院聯合華為諾亞方舟實驗室於2017年提出的。這種演算法是一種端到端的學習模型，不僅考慮了低階的特徵融合，也考慮了高階的特徵融合。該演算法利用深度學習來學習特徵，利用分解機做推薦。

ArcGIS js 模型飛行瀏覽學習筆記

在現有的arcgis js api 4.x中沒有現成的飛行瀏覽介面，需要我們自己使用view.goTo()函式實現。通過查詢相關資料，本文利用goTo（）函式，實現了arcgis js中的飛行瀏覽模擬功能。首先建立一個三維檢視使用arcgis js中的sce

CTR預估模型演變及學習筆記

一、傳統CTR預估模型演變

1. LR

2. POLY2

3. FM

4. FFM

5. GBDT/xgboost/lightgbm

6. GBDT+LR/FM/FFM

7. MLR

二、引入深度學習的CTR預估模型演變

1. Deep Crossing

2. FNN

3. Wide & Deep

4. DeepFM

5. Deep & Cross (DCN)

6. NFM

7. Deep Interest Network (DIN)

三、深度學習推薦模型的上線問題

1. “特徵實時性”

2. “模型實時性”

3. “服務實時性”：雙塔模型

相關推薦