wide&deep模型演化

推薦系統模型演化

LR-->GBDT+LR

FM-->FFM-->GBDT+FM|FFM

FTRL-->GBDT+FTRL

Wide&DeepModel (Deep learning era)

將從以下4各方面進行模型分析：

1.why（模型設計背後的原理）

2.how（具體怎麼設計，如何應用）

3.discussion（模型討論）

Wide&Deep

why

Memorization 和 Generalization

假如你設計了一個外賣推薦系統gugu，使用者睡覺醒來需要點個外賣，推薦系統推薦給使用者了一個烤肉飯，使用者如果購買了就標記為1，否則為0（說明不是一個好的推薦）。點選率預估就是衡量推薦系統的一個線下指標。

wide（memorization)

那如何對使用者合適的商品呢，我們需要記住使用者的愛好。所以，你設計了幾個相關的特徵，用一個簡單的線性模型學習這些特徵的權重組合，模型會預測對特定產品的點選概率, gugu2.0上線了。一段時間後，使用者吃膩了，需要換個口味，但是模型只記住了特定的模式。對一些訓練集中未出現的組合特徵，由於模型沒有見過，記憶中沒有關於這個特徵的資訊，導致模型單一，使用者就會不滿意。

deep(generalization)

為了推薦一些新的食物而且和使用者之前點的食物相關，但是要口味不一樣。模型需要能都捕捉到食物之間的內在聯絡，普通的離散特徵無法滿足這一要求，embedding引入了低維稠密向量表示離散特徵的方法，相似的食物在embedding的一些維度上可能是一樣的。比如口水雞和椒麻雞，經過embedding用4個維度[雞肉，辣，麻，甜]表示

[0.52,0.23,0.312,0.002] [0.52,0.23,0.45,0.002]

使用embedding後的稠密向量，可以充分挖掘不同食物的相似性，可以做出新的合理的推薦，使用前饋神經網路進行學習，對於沒有見過的特徵，由於深度學習的泛化能力，模型也可以做出不錯的預測。但是你發現模型會過度泛化，當用戶的行為比較稀疏時，gugu會推薦一些相關性較小的食物。

wide+deep

為什麼不同時進行memorization和generalization呢？Wide&Deep聯合線性模型和深度模型，利用兩個模型的優點進行聯合訓練。

how

input

wide: 包括sparse型別的特徵以及cross型別的特徵等。原始輸入特徵和手動交叉特徵

deep: 稠密特徵，包括real value型別的特徵以及embedding後特徵

training

wide: $y=wx+b$

deep: $a^{(l+1)}=f(w^{(l)}a^{(l)}+b^{(l)})$

joint: $P(Y=1 | \mathbf{x})=\sigma\left(\mathbf{w}_{w i d e}^{T}[\mathbf{x}, \phi(\mathbf{x})]+\mathbf{w}_{d e e p}^{T} a_{f}^{\left(l_{f}\right)}+b\right)$

Wide部分用FTRL+L1來訓練；Deep部分用AdaGrad來訓練。使用BP演算法採用joint train的方式訓練。

discussion

1.利用wide和deep組合，wide手動交叉特徵，deep對離散進行embedding

2.對wide部分進行改進，自動化交叉特徵，DeepFM，DCN

3.embedding線上訓練得到，可否離線預訓練

4.deep部分進行改進，AFM

DCN

why

FM可以自動組合特徵，但也僅限於二階叉乘。告別人工組合特徵，並且自動學習高階的特徵組合呢

$x1x2x3$

how

擬合殘差
\[ \mathbf{x}_{l+1}=\mathbf{x}_{0} \mathbf{x}_{l}^{T} \mathbf{w}_{l}+\mathbf{b}_{l}+\mathbf{x}_{l}=f\left(\mathbf{x}_{l}, \mathbf{w}_{l}, \mathbf{b}_{l}\right)+\mathbf{x}_{l} \]

discussion

顯示的高階特徵組合，特徵組合階數隨著網路深度增加而增加
複雜度線性增長，相比DNN更快
利用最後的高階組合特徵，實際高層特徵組合已經包含了低層的組合，考慮單層的組合引入最後的計算
特徵互動還是bit-wise，對模型記憶能力提升是否有幫助
是否真的學到了高階特徵互動？輸出是輸入的標量乘積

xDeepFm

why

傳統特徵工程缺點：

1.好的特徵需要專家知識

2.大資料量下無法無法手動交叉特徵

3.手動交叉特徵的無法泛化

FM對所有特徵組合，引入噪聲；FNN、PNN聚焦於高階特徵，忽略了低階特徵；

DNN學習高階特徵互動，但是學習到特徵互動是隱含的，bit-wise級的，那麼DNN是否真的有效在高階特徵處理上？CIN被設計在vector-wise級進行學習高階特徵

embedding: 不同樣本的長度不同，但embedding維度是一樣的

隱式高階特徵：bit-wise

顯示高階特徵互動： DCN，輸出受限於和x0的互動、bit-wise

CIN(Compressed Interaction Network(CIN))

CIN沒有有效的學習到高階特徵互動，輸出是x0的標量乘積
\[ \begin{aligned} \mathrm{x}_{i+1} &=\mathrm{x}_{0} \mathrm{x}_{i}^{T} \mathrm{w}_{i+1}+\mathrm{x}_{i} \\ &=\mathrm{x}_{0}\left(\left(\alpha^{i} \mathrm{x}_{0}\right)^{T} \mathrm{w}_{i+1}\right)+\alpha^{i} \mathrm{x}_{0} \\ &=\alpha^{i+1} \mathrm{x}_{0} \end{aligned} \]
但是標量並不意味著線性！！！

how

bit-wise到vector-wise

顯示互動

複雜度非指數級增長
\[ \mathrm{X}_{h, *}^{k}=\sum_{i=1}^{H_{k-1}} \sum_{j=1}^{m} \mathrm{W}_{i j}^{k, h}\left(\mathrm{X}_{i, *}^{k-1} \circ \mathrm{X}_{j, *}^{0}\right) \]

取前一層 $\bm{X}^{k-1} \in \mathbb{R}^{H_{k-1}*D}$ 中的 $H_{k-1}$ 個vector，與輸入層 $\bm{X}^{0} \in \mathbb{R}^{m*D}$ 中的 $m$ 個vector，進行兩兩Hadamard乘積運算，得到 $H_{k-1}*m$ 個 vector，然後加權求和

第 $k$ 層的不同vector區別在於，對這 $H_{k-1}*m$ 個 vector 求和的權重矩陣不同。 $H_k$ 即對應有多少個不同的權重矩陣 $\bm{W}^k$

1.為什麼做Hadamard積

保持維度不變

2.vector-wise互動

網路的每一層計算是以embedding向量的方式進行哈達瑪積，保持embedding的結構

3.每一層的輸出由當前輸入和隱狀態共同決定，類RNN

4.類CNN（裝飾）

sum pooling 有效性：$p_{i}^{k}=\sum_{j=1}^{D} \mathrm{X}_{i, j}^{k}$

當只有一層，sum pooling就是兩兩向量的內積之和，降為FM

組合

\[ \hat{y}=\sigma\left(\mathbf{w}_{\text {linear}}^{T} \mathbf{a}+\mathbf{w}_{d n n}^{T} \mathbf{x}_{d n n}^{k}+\mathbf{w}_{\operatorname{cin}}^{T} \mathbf{p}^{+}+b\right) \]
線性單元、DNN、CIN；記憶、泛化、記憶+泛化

1.CIN如何顯示的執行特徵互動

2.必須組合顯示和隱式表達嗎

3.xDeepFm引數設定影響

discussion

1.特徵交叉利用稠密向量進行，是否存在一個網路進行離散高階向量級特徵互動

2.互動深度改進，殘差，全域性資訊觀

3.identify啟用函式，線性？

bit-wise VS vector-wise

假設隱向量的維度為3維，如果兩個特徵(對應的向量分別為(a1,b1,c1)和(a2,b2,c2)的話）在進行互動時，互動的形式類似於f(w1 * a1 * a2,w2 * b1 * b2 ,w3 * c1 * c2)的話，此時我們認為特徵互動是發生在元素級（bit-wise）上。如果特徵互動形式類似於 f(w * (a1 * a2 ,b1 * b2,c1 * c2))的話，那麼我們認為特徵互動是發生在特徵向量級（vector-wise）。

explicitly VS implicitly

顯式的特徵互動和隱式的特徵互動。以兩個特徵為例xi和xj，在經過一系列變換後，我們可以表示成 wij * (xi * xj)的形式，就可以認為是顯式特徵互動，否則的話，是隱式的特徵互動。

wide&deep模型演化

基於深度學習模型Wide&Deep的推薦

Wide & Deep Learning for Recommender Systems 模型實踐

CTR學習筆記&程式碼實現2-深度ctr模型 MLP->Wide&Deep

巨經典論文！推薦系統經典模型Wide & Deep

論文筆記-Wide & Deep Learning for Recommender Systems

深度學習（十二）wide&deep model

TensorFlow Wide And Deep 模型詳解與應用

DL課程：MLP、DNN、Wide&deep model及相關案例程式碼

Wide & Deep Learning for Recommender Systems 論文閱讀總結

構建並用 TensorFlow Serving 部署 Wide & Deep 模型

wide & deep模型

POJ 3280 Cheapest Palindrome ( 區間DP && 經典模型 )

【轉】HTTP學習---圖解HTTP[三次握手&&ISO模型]

Python資料處理之（九）Numpy copy & deep copy

資料庫系統概論01-基本概念&特點& 三級模型結構&二級映像

Cuda程式設計系列-Cuda程式設計基本概念&程式設計模型

文字樣式設定&盒子模型

【機器學習_3】常見術語區別(人工智慧&資料探勘&機器學習&統計模型等)

CSS初識- 選擇器 &背景& 浮動& 盒子模型

wide&deep模型演化

相關推薦