來者如臨高山，往者以觀逝水--天貓品牌推薦演算法比賽總結

阿新 • • 發佈：2019-01-07

四個月的比賽總算是落下帷幕了，作為單執行緒的動物，沒有辦法邊寫總結報告（其實就是拖延症）。比賽結束，總算可以靜下心來想一些東西。

我是從年級的群裡知道阿里的這個比賽的，一直都推薦挺感興趣的，那段時間又剛好看了一些推薦方面的書籍，就拿準備拿這個機會練練手，在第一賽季的時候比賽特別瘋狂，第一次提交成績是在3月26號，F1成績是0.17%，當天排名在1428名，印象中是用的協同過濾演算法，根據使用者購買過的物品來做協同過濾，所有的點選，收藏和加購物車的資訊全部都沒有用，沒過幾天，阿里來到我們學校做宣傳，突然間發現各種經典的推薦演算法在這個比賽中都不怎麼適用，就開始使用規則，比如說對於在日期半個月以前的使用者點選這個物品多少次以上推薦購買，使用者購買過多少次以上的推薦購買，使用者在最近幾天內點選多少次的推薦購買。用簡單的規則來猜測使用者的購買行為，

F1成績大概在6.5%左右，鑑於比賽太過凶殘，基本上每天不提交就能掉個幾十名。後期也嘗試過貝葉斯，lr來做，那個時候對於特徵的理解並不深，感覺成績並不是很好。那段時間基本上都是每天早上兩點多自然醒的看成績，最後第一賽季以7.07%的成績進入第二賽季。

第一賽季在簡單規則上遲到了甜頭之後，第二賽季一開始也是用sql大概寫了下第一賽季規則的思路，成績漲到4.6%左右（用了大概十天），開始和善善用lr來做，第一賽季我們倆都沒有用過lr，所以，一直在嘗試，比如說我們用最簡單的點選來當做特徵，做預測，熟悉了下lr的流程。然後，還嘗試過用一個星期內有互動的ub對的點選值做歸一化處理後做訓練，四個月所有互動的

ub對的所有點選值做歸一化做預測，得到效果竟然不錯，現在看來那個時候也真的是各種腦洞大開。我們也嘗試了抽取LR特徵，和其他隊伍交流，才發現我們的差距，他們已經嘗試了所有的演算法，我們還在LR上面打轉，連提取特徵的方法都是暴力的提取，才有了時間片的概念，開始使用mr提取特徵，估計剛剛開始用mr來寫，特徵經常寫錯，陷入了大概有十幾天都沒有進步的情況，每天晚上和善善在實驗室寫程式碼寫到樓下的人來催，然後一路上很開心的設想：哎呀，明天馬上就要上5了，怎麼辦，要進首頁了，好緊張好激動。但是每天早上起床，總是一臉鬱悶，沒有一次是能夠實現的。到了二十三號的晚上做融合的時候，寫了三個版本，寫完之後一直在算概率，感覺進步的希望不大，就推倒所有的思路，把我們現有的可以提交的版本分成長期預測以及短期預測，長期預測一般都是使用者比較穩定會購買的品牌，短期預測是使用者最近的需求，然後對所有分到長期預測的結果取交集，對所有短期預測的資料也一樣取交集，在把兩個合併。當天的成績是達到了

5.31%。當天排名是25，第一次進入到了第二版面。

第二賽季的第一個月結束後，又開始進入了一段蟄伏期，長期不進步，主要是有了幾個坑，首先，我們都是通過兩個月的資料預測第三月的，比如說比賽有四個月的資料，我們用了第一二月做特徵，第三個月做y值，來做訓練，然後第二三月做特徵，進行線下預測，與用第四個月的購買情況來做評估。第三四月份直接用線下訓練的模型做預測。後面改成，重新訓練二三月份的資料，成績大概提升了0.2%，其二，把兩個月的資料換成三個月的資料，成績也是相應的有提升。後來，根據這段時間的各種特徵的嘗試，寫了第一個版本比較完整的特徵，對於品牌特徵主要從四個方面進行思考（品牌屬性，品牌熱度，最近行為，一些比值），使用者特徵也是主要從四個方面進行思考（購買能力，使用者屬性，最近行為，一些比值），對於ub互動資訊主要是劃分時間片，提取的都是簡單的特徵。演算法也從rf逐步轉移到gbrt，後面幾天穩步提升，到了第二個月的24號，F1成績是5.82%。

第二賽季的最後一個月再次大換血的重新整理一份特徵，這次特徵的思考方式主要是想到衡量標準，所有的衡量標準只能想到個數，天數，品牌數，使用者數，次數（不同品牌不同天），行為有點選，購買，收藏，加購物車，操作，按照這些量，加上時間片，組合了一份我覺得基本特徵都包含在內的大雜燴特徵。大雜燴特徵第一次測是用的rf，成績是5.69%，一度心碎，估計一下子加的特徵太多了。本來想要拋棄的，第二天因為也沒有其他東西可以交，就跑了一份gbrt交了，得到的成績是5.88%，後面發現裡面有部分特徵是寫錯的，估計gbrt對特徵的容錯性比較強。然後在此基礎上有加入了一些極值，單份成績沒有變，但是兩份的融合結果漲到了5.92%，再然後，就是經常改改特徵，基本上都是單份沒有提高，融合慢慢提高，在20名左右徘徊，換資料前的最終F1值是5.98%

換資料之後，跑之前的最後成績單份變成了5.99%，融合卻不怎麼能夠提高，再加上最後一個星期的某次提交我還給失誤了。最後的成績在6.02%，幸好還在前三十。

這算是這次比賽四個月的一個流水賬吧，有同學說走到現在，基本上很傻的方法都能做到這個成績，我覺得這可能是因為做到了所以才這麼說，如果說這僅僅是最傻的方法，我們也用了四個月才走到現在。在這個過程當中，對於很多演算法，特徵的抽取，正負樣本的處理，取樣方式，各種調參，特徵的處理，y值處理，融合的方式都有了一個不一樣的理解。這四個月，熬夜跑程式，早上四點起床看成績，其中還經歷連續感冒，胃鏡，拔牙，各種身體上的折磨，最後竟然身殘志堅的堅持下來了，真是佩服我自己！

第一賽季感謝主公，第二賽季感謝親愛的好隊友善善！

其他的一些總結與教訓：

1、記錄還是很有必要的，在記錄的過程中經常會有很多的思路，這一點善善做的很好，向你學習。

2、有想法的時候，儘快實現，要不靈光一閃，經常就給閃沒了。

3、多於其他隊伍進行交流，從幾次比較重要的提升都是因為和其他隊的交流，才知道我們的缺陷。

4、在與其他隊伍交流後能夠多思考，思考其中影響的本質是什麼，從中可以觸類旁通，應用到其他方面。

來者如臨高山，往者以觀逝水--天貓品牌推薦演算法比賽總結

四個月的比賽總算是落下帷幕了，作為單執行緒的動物，沒有辦法邊寫總結報告（其實就是拖延症）。比賽結束，總算可以靜下心來想一些東西。我是從年級的群裡知道阿里的這個比賽的，一直都推薦挺感興趣的，那段時間又剛好看了一些推薦方面的書籍，就拿準備拿這個機會練練手，在第一賽季的時候比賽

生如逆旅，一葦以航

寫在前面心心念的五一假期終於到了，考慮再三，我去了騰格裡沙漠，畢竟去過兩次庫不齊沙漠，還沒去過騰格里，就當是一種新的體驗了。騰格裡沙漠徒步，主要圍繞五湖展開，下面是依次經過的五湖：太陽湖 --月亮湖-- 星星湖--敖包湖--金沙湖，蒙語中對五湖這樣叫法

U盤落家裏了，先用這個寫兩天, 3月3日考試總結

機智輸入 code display 深搜神奇復制農場 isp title: 3月3日考試總結 data: 2018-3-3 20:18:40 tags: 線段樹圖論最短路 Floyd 二分答案倍增貪心 description: 第一道題目是線段樹維護區間

技術和商業的碰撞，談阿裏雲與天貓雙11這十年

優酷然而人工智虛擬機升級可能 ssd shadow 智能推薦摘要： 2009年，發生了兩件看似不起眼的事。初春剛過，阿裏雲在北京一棟沒有暖氣的寫字樓寫下了飛天第一行代碼。同年11月11日，淘寶商城啟動了一個叫做雙11的促銷活動。誰也沒想到，多年以後他們會是

往者不可諫，來者猶可追

問題給定整數m以及n各數字A1,A2,..An，將數列A中所有元素兩兩異或，共能得到n(n-1)/2個結果，請求出這些結果中大於m的有多少個。輸入描述: 第一行包含兩個整數n,m. 第二行給出n個整數A1，A2，…，An。資料範圍對於30

古者以黑土為墨，故字從黑土

古者以黑土為墨故字從黑土明?李時珍曰：古者以黑土為墨，故字從黑土。許慎《說文》雲：墨，煙煤所成，土之類也，故從黑土。劉熙《釋名》雲：墨者，晦也。《集解》宗奭曰：墨，松之煙也。世有以粟草灰偽為者，不可用；須松煙墨方可入藥，唯遠煙細者為佳，粗者不可用。今高麗國所墨於中國，不知何物合，不宜入藥。延有石油，其煙甚濃，

演算法：從鍵盤輸入一定金額(以元為單位，如345.78)，然後顯示支付該金額的各人民幣數量

從鍵盤輸入一定金額(以元為單位，如345.78)，然後顯示支付該金額的各人民幣數量，要求顯示100元、50元、10元、5元、2元、1元、5角、1角、5分、1分各多少(輸出面額最大值：比如 345.78 = 100×3 + 10×4 + 5×1 + 0.5×1 +

Ubuntu插上行動硬碟後只能讀檔案不能往硬碟上寫，怎麼辦？以讀寫掛載就OK

Ubuntu系統以讀寫方式掛載行動硬碟在使用Linux系統的時候，有時候我們常常困擾於插上我們的硬碟或者U盤，發現只能讀不能寫，很氣人，覺得Linux怎麼可以這樣，其實不是那樣的，只需要幾條命令就可以解決 1. 先把自己的硬碟插上 2. 找到自己的硬碟分

計算機網路: IP地址，子網掩碼，網段表示法，預設閘道器，DNS伺服器詳解楔子：　　以Windows系統中IP地址設定介面為參考(如圖1)， IP地址, 子網掩碼, 預設閘道器和 DNS伺服器,

楔子：　　以Windows系統中IP地址設定介面為參考(如圖1)， IP地址, 子網掩碼, 預設閘道器和 DNS伺服器, 這些都是什麼意思呢？　　　　　　學習IP地址的相關知識時還會遇到網路地址,廣播地址,子網等概念,這些又是什麼意思呢？一 IP地址概述計算機要實現網路通訊，就必須要有

2015-03-12---外觀模式，建造者模式(附代碼)，觀察者模式(附代碼)，boost庫應用

思想 err map 函數成功 each clu all 說我今天白天主要看了boost庫的應用，主要是經常使用的一些庫，array,bind,function,regex,thread,unordered,ref,smartpointers庫，晚上看了看設計模式。

致全體51CTO博主：洛陽親友如相問，就說你在手機裏

51cto博客 h5 移動站各位51CTO的博主們，在近期我們優化了博客的H5移動站，可以支持在手機上便捷瀏覽博客主頁、博文頁面，還可以支持用戶在文章下面評論互動。移動時代，我們的博客也加快了移動化的步伐，“洛陽親友如相問”，就說你在手機裏。具體說明如下：一、你的博客主頁

7，裝飾者模式（Decorator Pattern）動態的給一個對象添加一些額外的職責。就增加功能來說，此模式比生成子類更為靈活。繼承關系的一個替換方案。

做到活性 splay .com 重新裝飾 run play 情況裝飾（ Decorator ）模式又叫做包裝模式。通過一種對客戶端透明的方式來擴展對象的功能，是繼承關系的一個替換方案。裝飾模式就是把要添加的附加功能分別放在單獨的類中，並讓這個

JQ 移動端返回頂部，往下滑動時顯示返回按鈕，往上滑動時隱藏返回按鈕

hid 獲取 scroll var 返回向上區域手勢默認 returnTop:function(){ //預定義返回頂部的html代碼，它的css樣式默認為不顯示 var gotoTop_html = ‘<div class

心如蘭酒，真正的洞藏美酒

好酒車間決定制造協調般的價值作用完成什麽叫洞藏酒？洞藏酒的好處是什麽呢？白酒的儲藏是白酒制造的過程中必不可少的一道工序，白酒在釀造之後都要儲藏一年以上才能飲用。眾所周知，酒時間越長越好，但是這種觀念是片面的，決定酒品質的儲藏工藝有三大要素：時間、容器、環境

C#操作mysql數據庫，往mysql讀取或者寫入數據

mysql 需要 details 發的開發 sdn detail sql get 最近在開發的一個項目，需要將數據存貯在mysql數據庫中，於是需要寫一個操作mysql的幫助類，我采用的是官方的，還是先給出一個鏈接，後面有時間的話，繼續更新。 http://blog.

設計模式4（代理模式，觀察者模式）

代理 bject body border 策略解決設計模式 server 觀察者代理模式本質是控制對主題對象的訪問功能目的代理模式但是代理對象則提供與目標對象相同的接口控制對象的訪問適配器模式解決接口

java算法面試題：編寫一個截取字符串的函數，輸入為一個字符串和字節數，輸出為按字節截取的字符串，但要保證漢字不被截取半個，如“我ABC”，4，應該截取“我AB”，輸入“我ABC漢DEF”，6，應該輸出“我ABC”，而不是“我ABC+漢的半個”。

構造 pack n) -- com post nts throw ... package com.swift; import java.util.Scanner; public class Hanzi_jiequ { public static void m

來者如臨高山，往者以觀逝水--天貓品牌推薦演算法比賽總結

來者如臨高山，往者以觀逝水--天貓品牌推薦演算法比賽總結

生如逆旅，一葦以航

U盤落家裏了，先用這個寫兩天, 3月3日考試總結

技術和商業的碰撞，談阿裏雲與天貓雙11這十年

往者不可諫，來者猶可追

古者以黑土為墨，故字從黑土

演算法：從鍵盤輸入一定金額(以元為單位，如345.78)，然後顯示支付該金額的各人民幣數量

Ubuntu插上行動硬碟後只能讀檔案不能往硬碟上寫，怎麼辦？以讀寫掛載就OK

計算機網路: IP地址，子網掩碼，網段表示法，預設閘道器，DNS伺服器詳解楔子：　　以Windows系統中IP地址設定介面為參考(如圖1)， IP地址, 子網掩碼, 預設閘道器和 DNS伺服器,

2015-03-12---外觀模式，建造者模式(附代碼)，觀察者模式(附代碼)，boost庫應用

致全體51CTO博主：洛陽親友如相問，就說你在手機裏

7，裝飾者模式（Decorator Pattern）動態的給一個對象添加一些額外的職責。就增加功能來說，此模式比生成子類更為靈活。繼承關系的一個替換方案。

JQ 移動端返回頂部，往下滑動時顯示返回按鈕，往上滑動時隱藏返回按鈕

心如蘭酒，真正的洞藏美酒

C#操作mysql數據庫，往mysql讀取或者寫入數據

設計模式4（代理模式，觀察者模式）

你不知道的幣圈江湖，ETH（以太坊）VS比特幣，V神看不上中本聰

設計模式- 創建型模式，建造者模式(2)

設計模式-行為型模式，觀察者模式（13）

來者如臨高山，往者以觀逝水--天貓品牌推薦演算法比賽總結

相關推薦