1. 程式人生 > >點選率預測演算法:FTRL

點選率預測演算法:FTRL

1、邏輯迴歸

FTRL本質上是邏輯迴歸的一個變種,因此先簡單介紹一下邏輯迴歸的內容。

1.1 sigmoid函式

由於二分類結果是1或者0,這與數學的階躍函式很類似,但是階躍函式在x=0的位置會發生突變,這個突變在數學上很難處理。所以一般使用sigmoid函式來擬合:

g(z)=11+ez(1)

具體應用到邏輯迴歸演算法中:

z=ω0+ω1x1+ω2x2+......+ωnxn=i=0nωixiωTX(2)

其中xi表示樣本屬性(對於我們而言,就是標籤IP)的值, ωi表示這個屬性對應的係數(也就是演算法需要計算的內容)。注意這裡將x0ω0也代入了上述公式,其中前者恆為1。於是問題就變成了在訓練樣本中,已知屬性x與最終分類結果y(1或者0)時,如何求得這些係數 ω

i,使得損失最小。

1.2 極大似然估計MLE與損失函式

在機器學習理論中,損失函式(loss function)是用來衡量模型的預測值f(x)與真實值Y的不一致程度,它是一個非負實值函式,損失函式越小,模型越優(還需考慮過擬合等問題)。損失函式是經驗風險函式的核心部分,也是結構風險函式重要組成部分。模型的結構風險函式包括了經驗風險項和正則項,通常可以表示成如下式子

ω=argminω1mi=1mL(yi,f(xi;ω))+λΦ(ω)(3)

其中m表示樣本的數量。對於邏輯迴歸,其loss function是log損失,這可以通過極大似然估計進行推導得到。

首先,給定一個樣本x

,可以使用一個線性函式對自變數進行線性組合,即上述的(2)式子:

z=ω0+ω1x1+ω2x2+......+ωnxn=i=0nωixiωTX(4)

根據sigmoid函式,我們可以得出預測函式的表示式為:

hω(x)=g(ωTx)=11+eωTx(5)
上式表示y=1的預測函式為hω(x)。在這裡,假設因變數y服從伯努利分佈,取值為01,那麼可以得到下列兩個式子:
p(y=1|x)=hω(x)(6)
p(y=0|x)=1hω(x)(7)
而對於上面的兩個表示式,通過觀察,我們發現,可以將其合併為以下表達式:
p(y|x)=hω(x)y(1hω(x))1

相關推薦

預測演算法FTRL

1、邏輯迴歸 FTRL本質上是邏輯迴歸的一個變種,因此先簡單介紹一下邏輯迴歸的內容。 1.1 sigmoid函式 由於二分類結果是1或者0,這與數學的階躍函式很類似,但是階躍函式在x=0的位置會發生突變,這個突變在數學上很難處理。所以一般

Ftrl演算法和FFM演算法 廣告預測

http://blog.csdn.net/jediael_lu/article/details/77772542      FTRL演算法詳解 http://blog.csdn.net/jediael_lu/article/details/77772565   FFM演算

預測綜述

  對於計算廣告系統,一個可以攜帶廣告請求的使用者流量到達後臺時,系統需要在較短時間(一般要求不超過 100ms)內返回一個或多個排序好的廣告列表;在廣告系統中,一般最後一步的排序 score=bid*pctralpha;其中 alpha 引數控制排序傾向,如果 alpha<1,則傾向於 pctr,否則

廣告預測 [離線部分]

         Note:1. 上圖只是舉個例子,實現的時候,最好不要把User Info中的User ID在合併的時候去掉,否則在你的欄位配置檔案會有困難。2. 用Hadoop實現的時候,一定要考慮key skew的問題,否則會出現out of memory的問題。3. 要考慮Join的時候有多個Key

使用GBDT+LR作預測

主要內容來源於facebook的論文:Practical Lessons from Predicting Clicks on Ads at Facebook》 1、基本思路 使用GBDT根據使用者特徵轉換生成新的特徵,每棵樹的每個葉子均作為一個特徵,然後將這些特徵代入LR。

分享Spark MLlib訓練的廣告預測模型

2015年,全球網際網路廣告營收接近600億美元,比2014年增長了近20%。多家網際網路巨頭都依賴於廣告營收,如谷歌,百度,Facebook,網際網路新貴們也都開始試水廣告業,如Snapchat, Pinterest, Spotify. 作為網際網路廣告的老大哥,谷歌花

預估演算法FM與FFM

點選率預估演算法:FFM @(計算廣告)[計算廣告] 1、FM 1.1 背景 1.1.1 線性模型 常見的線性模型,比如線性迴歸、邏輯迴歸等,它只考慮了每個特徵對結果的單獨影響,而沒有考慮特徵間的組合對結果的影響。 對於一個有n

廣告預測(CTR) —— 在線學習算法FTRL的應用

實現 自適應調整 idt google http lan png 工程師 href FTRL由google工程師提出,在13的paper中給出了偽代碼和實現細節,paper地址:http://www.eecs.tufts.edu/~dsculley/papers/ad-cl

百度推廣技巧如何提高網站

對於任何的百度推廣技巧,理論上都有一個共同的目標,那就是吸引使用者點選你的推廣內容,當然,我們可以通過各種渠道,吸引使用者的點選,比如:社交媒體營銷、SEM付費推廣、新聞軟文傳播等。 但對於SEO人員而言,通常採用的策略仍然是利用搜索引擎自然排名。 那麼,如何利用SE

預估中的FM演算法&FFM演算法

轉載請註明出處:https://blog.csdn.net/gamer_gyt/article/details/81038913Github:https://github.com/thinkgamer特徵決定了所有演算法效果的上限,而不同的演算法只是離這個上限的距離不同而已C

讓你的部落格迅速提高(轉)

一、 推薦部落格到各大搜索引擎。 1、把自己的部落格推薦到百度、Google等主要搜尋引擎。     如果不把你的部落格提交到各大搜索引擎中,它們一般是不會收錄你的部落格的,你可以先嚐試一下看看能不能在百度搜到你的部落格吧。   如果搜不到的話說明

預估界的“神運算元”是如何煉成的?

阿里妹導讀:響應時間直接決定線上響應系統的效果和使用者體驗。比如線上展示廣告系統中,針對一個使用者,需要在幾ms內,對上百個候選廣告的點選率進行預估。因此,如何在嚴苛的響應時間內,提高模型的線上預測效果,是工業介面臨的一個巨大問題。今天我們一起來看看,阿里工程師怎麼做。 作者

預估

kaggle-2014-criteo-3 Idiots 資料集有13維數值型特徵和26維hash編碼的類別型特徵。評價指標是logloss,取得了0.444的成績。主要使用了GBDT和FFM。 步驟: 為GBDT準備特徵。包括13維數值型特徵,以及對26維類別型特徵做特徵

幾篇總過10萬的帖子,以及最近的幾思考

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

經驗

FFM參考文件: https://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html 資料不均衡即是正負樣本的比例相差很大,對於資料不均衡有一些解決方法和經驗: 1.決策樹在樣本不均衡的問題上會表

【阿里2017】利用分片線性模型實現大規模資料預估

==定期更新,獲取更多,歡迎star。另外歡迎關注計算廣告實驗,我會總結一些實現。== 一、論文基本描述。 CTR預估由於是針對大規模非線性資料的機器學習存在很多的困難。 本論文提出了一個新型的模型(LS-PLM)。 利用$L_1$和$L_{2,1}$正則來解決學習問題,將會導致非凸和非光滑的優化問題。因

程式化廣告交易中的預估

指標   廣告點選率預估是程式化廣告交易框架的非常重要的元件,點選率預估主要有兩個層次的指標:      1. 排序指標。排序指標是最基本的指標,它決定了我們有沒有能力把最合適的廣告找出來去呈現給最合適的使用者。這個是變現的基礎,從技術上,我們用AUC來度量。    

中科慧數招商產業園區未來發展趨勢解讀與分析

2018年4月,中共中央、國務院批覆了《河北雄安新區規劃綱要》。《河北雄安新區規劃綱要》指出,在黨中央堅強領導下,河北省、京津冀協同發展領導小組辦公室會同中央和國家機關有關部委、專家諮詢委員會等方面,深入學習貫徹習近平新時代中國特色社會主義思想和黨的十九大精神,

廣告常用模型的優點和缺點

LR 優點: 1. 是一個很好的baseline,效果不錯,當然因為效果不錯,所以後續的版本想超過它,真的還是很難的。 2. 實現簡單,有開源的工具可以直接用來訓練,線上的程式碼也寫起來也比較容易 缺點: 1. 因為是線性模型,所以有選擇交叉特徵的工作,這部

中科本週數訊習近平向第五屆網際網路大會致賀信;大資料讀本進入貴陽小學課堂

1.印媒:貴州已成為一個具有世界水平的大資料中心 據《印度時報》網站11月5日報道,貴州省已成為一個具有世界水平的大資料中心。當地政府出臺了各種刺激措施,以推動外國企業在當地設立辦事處。印度政府也希望加強該國在貴州的存在,因為在IT領域加強合作是減少印度同中國之間不斷增加的