【開車了】9個大資料競賽思路分享

阿新 • • 發佈：2019-02-01

本次分享主要從筆者過去一年和今年上半年的參賽經驗來做講解

後續將會針對目前天池開放的幾個新人挑戰賽推出手把手教你進首頁系列文章

包括賽題詳細思路講解，demo程式碼講解。

開始今天的分享是將之前的比賽做一個壓縮，每個比賽兩頁搞定。

首先介紹下這一年半的戰績，主要參加了9個比賽，有7次進入top10。

成績不好的就沒放上來了哈，主要廣東交通那兩個沒時間去搞，當時在弄穿衣搭配。

從如下幾個方面來做賽題分析，資料，問題，建模，優化。

阿里移動推薦演算法

需要我們根據前一個月使用者的行為資料來預測明天哪些使用者將會購買哪些商品

那麼我們可以順著題意來建模，需要我們預測後一天使用者會買什麼，也就明確了我們的預測目標是這一天的購買情況；

那麼我們可以將target-2當天的購買資料作為訓練集標籤，之前的資料區間提取特徵；

target-1當天的購買資料作為線下驗證集標籤，之前的資料區間提取特徵。需要注意時間區間長度得一致，如果訓練集用的30天，那麼測試集也得用30天的資料

線上就順推一天，target之前的資料區間提取特徵，預測target當天的購買情況。

至於優化問題，就是你和前幾名之間的差距，大體思路大家都差不多，都是一些細節問題。

比如如何選取訓練資料，當時平臺賽線上有將近60E的資料，是不可能全部拿來提取特徵的，需要做一定的抽樣

通過資料觀測可以發現，越靠近target日期的商品越容易被購買，所以可以選擇最近一週出現的商品來構建模型

如何構建有效的線下測評使得不依賴線上結果，有的選手會選擇線下18號打標構建模型，那麼怎麼準確模擬線上的測評機制呢？所以一般是線下17號打標做訓練集，18號做驗證集。19號做線上測試集。

資金流入流出預測

需要根據過去餘額寶使用者一年的資金流動情況來預測後面一個月每天的資金流動情況，需要注意預測的是每天整個餘額寶的資金流動

可以看到餘額寶的資金流動在上升階段之後處於一個平穩階段，所以我們可以選擇平穩階段來建模

一般方法是迴歸和時序分解

特徵中的工作日和節假日是重點

新浪微博互動預測

這個比賽初賽能做到第6完全是運氣(換資料前第4)，有點小trick成分

因為博文有權重，所以可以利用評分公式來做一個迭代計算，找出讓得分最大的預測值，也就是最能擬合過去的預測值，相當於一個簡單規則，簡單山寨可依賴，分分鐘出結果

複賽資料量上來了，規則也只能勉強保住前50，主要從使用者特徵和博文特徵入手做一個多分類模型。

淘寶穿衣搭配演算法

這個賽題是15年比較有意思的比賽，不能算是預測問題吧，應該是知識提取和排序問題

所以這個比賽是規則橫行啊，規則吊打模型

後續文章我會詳細解釋每一個規則，並放出demo程式碼(有的規則是全域性搜尋，有點考驗機器配置)，供大家參考去挑戰baseline

DC微額借款人品預測，拍拍貸風控演算法

這兩個類似kaggle型比賽，所有特徵已經給出，莫非就是傳說中的調參大賽？

當然不僅僅是調參，還有很多細節優化的地方，這兩個比賽的詳細解決方案在之前的部落格裡都有過分享

另外程式碼也開源了，所以這裡就不再羅嗦

IJCAI-2016

這個比賽相當於推薦演算法，需要考慮冷啟動和熱啟動問題，規則就可以搞定(之前幾條簡單規則也保持過top3好幾天。。。)，因為資料量的問題，規則可能不如模型擬合的更好

想要做的更好，必須上模型(主要是分類演算法)

至於菜鳥賽和音樂賽這裡就先不分享了，十分抱歉，因為還沒答辯的。

每參加一次比賽，都有不同的收穫，我個人收穫最大的不是知識，而是認識了一大群很厲害的朋友，從他們身上還能學到更多知識。

另外競賽和實際專案也是有一定的差別，競賽需要追求高分，不可避免的存在過擬合排行榜

而且解決方案一般都比較複雜，實際專案更多的是需要應用起來簡單，穩定，有效就ok

在資料處理方面實際專案可能更加複雜多樣化。

【開車了】9個大資料競賽思路分享

本次分享主要從筆者過去一年和今年上半年的參賽經驗來做講解後續將會針對目前天池開放的幾個新人挑戰賽推出手把手教你進首頁系列文章包括賽題詳細思路講解，demo程式碼講解。開始今天的分享是將之前的比賽做一個壓縮，每個比賽兩頁搞定。首先介紹下這一年半的戰績，主要參加了9

【參賽日記】參加天池大資料競賽

之前做的“猜拳神器”，還是以後要做的“揮手拍照”和“歡迎回家”。雖然很好玩，但畢竟是個人專案，感覺上不了檯面，簡歷也不好寫。這次的ICPR MTWI 2018，共有三個賽事，分別是網路影象的文字識別、網路影象的文字檢測、網路影象的端到端文字檢測和識別，屬於場景文字識別領域。鑑

【開車了】大資料競賽技術分享

本次分享為筆者在一年半時間裡的關於資料探勘技術在學習和實踐方面的經驗由於準備時間倉促和水平有限，有誤之處請多多指教過去的參賽成績一般從如下4個方面來做深入分析一套全自動的資料探勘工具應該是所有挖掘者的夢想 git上有人開發了一套自動的流程參考：https

福利來了：39個大資料視覺化工具

資料視覺化無處不在，而且比以前任何時候都重要。無論是在行政演示中為資料點建立一個視覺化程序，還是用視覺化概念來細分客戶，資料視覺化都顯得尤為重要。以前的工具的基本不能處理大資料。本文將推薦39個可用於處理大資料的視覺化工具(排名不分先後)。其中許多工具是開源的，能夠共同使用或嵌入已經設計好的應用程式

【文彬】區塊鏈 + 大資料：EOS儲存

原文連結：https://www.cnblogs.com/Evsward/p/storage.html 談到區塊鏈的儲存，我們很容易聯想到它的鏈式儲存結構，然而區塊鏈從比特幣發展到今日當紅的EOS，技術形態已經演化了10年之久。目前的EOS的儲存除了確認結構的鏈式儲存以外，在狀態

【線上直播】《政務大資料治理》

分享講師：馬玉璽講師簡介：大資料業務專家。現任職深圳華傲資料高階專案負責人，高階技術經理，負責大資料專案管理及大資料業務架構。近8年大資料開發經驗，5年大資料專案管理經驗。對Spark、hadoop等有很深的研究以及豐富的實戰經驗。分享大綱

【參會地點】魔方大資料系列圓桌論壇22，之 “資料智慧助力產業升級“ 暨國內首個大資料微應用實驗室落戶上海超級計算中心簽約儀式...

大資料技術已經深入應用到各個垂直產業，逐步成為助力產業轉型升級的重要推動力。依託海量資料、秒級運

【福利】送Spark大資料平臺視訊學習資料

沒有套路真的是送！！大家都知道，大資料行業spark很重要，那話我就不多說了，貼心的大叔給你找了份spark的資料。多囉嗦兩句，一個好的程式猿的基本素養是學習能力和自驅力。視訊給了你們，能不能堅持下來學習，就只能靠自己了，另外大叔每週會不定期更新《每日五分鐘搞定

【問答語錄】為什麼各大公司請敏捷開發諮詢顧問，都偏向專案管理，是不是偏了？沒有核心技術思想，管理能解決實質問題？

提問：為什麼各大公司請敏捷開發諮詢顧問，都偏向專案管理，是不是偏了？沒有核心技術思想，管理能解決實質問題？老布回答首先，這個問題沒有清晰說出公司的實質問題是什麼，所以有點難回答。其次，從提問者的問題來看，似乎他看到的這些諮詢顧問只是對管理流程上比較熟悉，對技術實踐層面上，包括一些技術能力方面

zookeeper-分散式鎖的程式碼實現-【每日五分鐘搞定大資料】

本文涉及到幾個zookeeper簡單的知識點，永久節點、有序節點、watch機制。比較基礎，熟悉的就別看了跳過這篇吧每個執行緒在/locks節點下建立一個臨時有序節點test_lock_0000000040 獲得/locks節點下所有子節點A、B、C，排序獲得最小值若當前節點B為最小值則獲得鎖，執

你必須要了解的九個大資料技術

Hadoop是大資料領域最流行的技術，但也並不是唯一。還有很多其他技術可用於解決大資料問題。除了Apache Hadoop外，另外9個大資料技術也是必須要了解的。 1.Apache Flink 是一個高效、分散式、基於Java實現的通用大資料分析引擎，它具

【深度學習】2個經典的練手CNN原始碼與MNIST資料集測試結果

對剛入門深度學習的童鞋，這2個簡單的工程可快速入門。建議手敲一遍，可快速熟悉程式碼和CNN的實現流程。 #1、匯入相關庫 import numpy as np import tensorflow as tf import matplotlib.pyplot as plt import inp

【創業日記1】智慧旅遊大資料服務平臺專案-開始

萬事開頭難，終於決定出來搏一搏，選擇了一條更艱難的路…… 　　幾年前，就想做網際網路+旅遊，O2O模式，類似攜程，去哪兒等大型線上旅遊網站。但是心有餘而力不足。現在覺得當時自己的胃口太大。　由於生長在海南，見證海南旅遊業的發展，自己也是個愛旅遊的人，所以內

【大資料】以航空大資料為例，一窺企業資料架構規劃和治理之道

作者介紹劉慶會，主要負責普元大資料治理產品的實施，十年大型企業資訊資料治理架構設計與建設經驗，為

【工業大資料】《工業大資料創新競賽白皮書（2017）》釋出！首屆工業大資料創新競賽成果釋出

來源：中國資訊通訊研究院CAICT在工業和資訊化部資訊化和軟體服務業司、工業網際網路產業聯盟指導

【入門必讀】40個機器學習/資料科學創業公司的面試問題

本文提到的40個問題需三思而後答，它將直接檢驗你在機器學習/資料科學方面的基礎功。 BigQuant 人工智慧量化投資平臺涵蓋眾多機器學習深度續學習優質資源帖，集成了眾多深度學習/機器學習開源框架，是一站式的python+機器學習+量化投資平臺，更多內容可以前往BigQu

【ASP.NET】9.解決百度富文字編輯器UEditor往後臺傳資料寫入資料庫時，出現錯誤：檢測到有潛在危險的Request

解決方法：把傳資料的方式換一下，在函式上面新增[ValidateInput(false)]，如果是winform頁面，在aspx頁面裡新增ValidateRequest="false"%@ Page V

都昌資訊袁永福：利用電子病歷賦能框架，為健康醫療大資料打好基礎【電子病歷和健康醫療大資料系列】

隨著國家健康醫療大資料政策的推行，電子病歷作為其中的基礎資料庫之一，在醫院的資訊系統中的地位不斷攀升。針對電子病歷在健康醫療大資料的發展問題，動脈網專訪了國內最具代表性的幾家電子病歷企業的專家。南京都昌資訊科技有限公司是一家新興的技術型軟體開發企業。公司雖然年輕，但成員卻是長期從事於電子病歷行業的專家。團

【java併發】多個執行緒間共享資料

先看一個多執行緒間共享資料的問題：設計四個執行緒，其中兩個執行緒每次對data增加1，另外兩個執行緒每次對data減少1。　　從問題來看，很明顯涉及到了執行緒間通資料的共享，四個執行

【天池大資料競賽】FashionAI全球挑戰賽—服飾屬性標籤識別【決賽第21名解決方案】

折騰了兩個月的比賽終於結束了，名次出乎了最初的預料但是也有些許不甘，畢竟前20都有獎勵，尷尬的21名想想有接近3000支隊伍參賽，好像又心理平衡了不少比賽其實就是一個分類問題，給定衣服的圖片然後分類到對應的標籤上

【開車了】9個大資料競賽思路分享

相關推薦