1. 程式人生 > >各大資料競賽 Top 解決方案彙總

各大資料競賽 Top 解決方案彙總

現在,越來越多的企業、高校以及學術組織機構通過舉辦各種型別的資料競賽來「物色」資料科學領域的優秀人才,並藉此激勵他們為某一資料領域或應用場景找到具有突破性意義的方案,也為之後的資料研究者留下有價值的經驗。

Smilexuhc(https://github.com/Smilexuhc)在 GitHub 社群對各大資料競賽名列前茅的解決方案進行了整理,包括純資料競賽、自然語言處理(NLP)領域資料賽事的 Top 解決方案。對這些賽事感興趣的小夥伴可以一起來看一下這篇乾貨滿滿的彙總貼:

純資料競賽
1.2018 科大訊飛 AI 營銷演算法大賽

本次大賽要求參賽者基於提供的訊飛 AI 營銷雲的海量廣告投放資料,通過人工智慧技術構建來預測模型預估使用者的廣告點選概率。比賽提供了 5 類資料,包括基礎廣告投放資料、廣告素材資訊、媒體資訊、使用者資訊和上下文資訊,總共為 1001650 初賽資料 和 1998350 條複賽資料(複賽訓練資料為:初賽資料+複賽資料)。

2.2018 IJCAI 阿里媽媽搜尋廣告轉化預測

本次比賽要求參賽者以阿里電商廣告為研究物件,基於提供的淘寶平臺的海量真實交易資料,通過人工智慧技術構建來預測模型預估使用者的購買意向。本次比賽為參賽者提供了 5 類資料,包括基礎資料、廣告商品資訊、使用者資訊、上下文資訊和店鋪資訊。用於初賽的資料包含了若干天的樣本;最後一天的資料用於結果評測,對選手不公佈;其餘日期的資料作為訓練資料,提供給參賽選手。

3.2018 騰訊廣告演算法大賽

本次演算法大賽的題目源自一個基於真實業務場景的廣告技術產品——騰訊社交廣告 Lookalike 相似人群拓展。本題目要求參賽者基於提供的幾百個種子人群、海量候選人群對應的使用者特徵,以及種子人群對應的廣告特徵,構建演算法準確標定測試集中的使用者是否屬於相應的種子包。

出於業務資料安全保證的考慮,比賽所提供的所有資料均為脫敏處理後的資料。整個資料集分為訓練集和測試集:訓練集中標定了人群中屬於種子包的使用者與不屬於種子包的使用者(即正負樣本),測試集將檢測參賽選手的演算法能否準確標定測試集中的使用者是否屬於相應的種子包,訓練集和測試集所對應的種子包完全一致。初賽和複賽所提供的種子包除量級有所不同外,其他的設定均相同。

4.2018 高校大資料挑戰賽—快手活躍使用者預測

本次大賽要求參賽者基於脫敏和取樣後的資料資訊,預測未來一段時間活躍的使用者。參賽隊伍需要設計相應的演算法進行資料分析和處理,比賽結果按照指定的評價指標使用線上評測資料進行評測和排名。大賽提供的資料為脫敏和取樣後用戶行為資料,日期資訊進行統一編號,第一天編號為 01,第二天為 02,以此類推,所有檔案中列使用 tab 分割。

5.2018JDATA 使用者購買時間預測

本次大賽要求參賽者基於給定的近 3 個月購買過目標商品的使用者以及他們在前一年的瀏覽、購買、評價等資料資訊,自行設計資料處理相關操作、訓練模型,從而預測未來 1 個月內最有可能購買目標品類的使用者,並預測他們在考察時間段內的首次購買日期。資料主要包括使用者基本資訊、SKU 基本資訊、使用者行為資訊、使用者下單資訊及評價資訊。

6.2018 DF 風機葉片開裂預警

本次大賽要求參賽者基於風機 SCADA 實時資料,通過機器學習、深度學習、統計分析等方法建立葉片開裂早期故障檢測模型,對葉片開裂故障進行提前告警。比賽提供的資料集包括訓練集和測試集:訓練集一共有 25 類風機共 4 萬個樣本,測試集沒有風機編號,共 8 萬個樣本。

7.2018 DF 光伏發電量預測

本次大賽要求參賽者在分析光伏發電原理的基礎上,論證輻照度、光伏板工作溫度等影響光伏輸出功率的因素,通過實時監測的光伏板執行狀態引數和氣象引數建立預測模型,預估光伏電站瞬時發電量,並根據光伏電站 DCS 系統提供的實際發電量資料進行對比分析,驗證模型的實際應用價值。

比賽提供訓練集 9000 個點,測試集 8000 個,包括光伏板執行狀態引數(太陽能電池板背板溫度、其組成的光伏陣列的電壓和電流)和氣象引數(太陽能輻照度、環境溫溼度、風速、風向等)。

8.AI 全球挑戰者大賽—違約使用者風險預測

本次大賽要求參賽者基於馬上金融平臺提供的近 7 萬貸款使用者的基本身份資訊、消費行為、銀行還款等資料資訊,建立準確的風險控制模型,來預測使用者是否會逾期還款。

9.2016 融 360-使用者貸款風險預測

本次大賽要求參賽者基於由融 360 與平臺上的金融機構合作的提供近 7 萬貸款使用者的基本身份資訊、消費行為、銀行還款等資料資訊,建立準確的風險控制模型,來預測使用者是否會逾期還款。

10.2016 CCF-020 優惠券使用預測

本次大賽要求參賽者基於給定的使用者在 2016 年 1 月 1 日至 2016 年 6 月 30 日之間真實線上線下消費行為,預測使用者在 2016 年 7 月領取優惠券後 15 天以內是否核銷。比賽評測指標採用 AUC,先對每個優惠券單獨計算核銷預測的 AUC 值,再對所有優惠券的 AUC 值求平均作為最終的評價標準。

11.2016 CCF-農產品價格預測

本次大賽要求參賽者基於 2016 年 6 月以前的農產品價格資料,預測 7 月的農產品價格。本題目初賽基於全國各農場品交易市場的價格資料,複賽則加上天氣等多源資料。

12.2016 CCF-客戶用電異常

國家電網通過對使用者及所屬變壓器進行異常監測,並通過現場檢修人員根據異常情況對使用者進行抽檢,並反饋檢查結果,如發現為竊電使用者,將反饋竊電使用者資訊。本賽題要求參賽者通過提供的相關資料與檢查人員檢查結果,建立竊電檢測模型,識別使用者竊電行為。

13.2016 CCF-搜狗的使用者畫像比賽

本題目初賽時要求參賽者基於給出的 2 萬用戶的百萬級搜尋詞,以及經過調查得到的真實性別、年齡段、學歷這一訓練集,通過機器學習、資料探勘技術構建分類演算法對另外 2 萬人群的搜尋關鍵詞進行分析,並給出其性別、年齡段、學歷等使用者屬性資訊。複賽時,訓練集與測試集規模均擴充套件至 10 萬用戶。

14.2016 CCF-聯通的使用者軌跡

精準營銷是網際網路營銷和廣告營銷的新方向,特別是在使用者身處特定的地點、商戶,如何根據使用者畫像進行商戶和使用者的匹配,並將相應的優惠和廣告資訊通過不同渠道進行推送,成為了很多網際網路和非網際網路企業的新發展方向。本賽題以其中一個營銷場景為例,要求參賽者基於提供的使用者位置資訊、商戶分類與位置資訊等資料,完成使用者畫像的刻畫並進行商戶匹配。

15.2016 CCF-Human or Robots

僅 2016 上半年,AdMaster 反作弊解決方案認定平均每天能有高達 28% 的虛假流量,即由機器人模擬和黑 IP 等手段導致的非人惡意流量。本賽題要求參賽者通過使用者行為日誌,自動檢測出這些虛假流量。

16.菜鳥-需求預測與分倉規劃

本賽題要求參賽者以歷史一年海量買家和賣家的資料為依據,預測某商品在未來二週全國和區域性需求量。參賽者需要用資料探勘技術和方法精準刻畫商品需求的變動規律,對未來的全國和區域性需求量進行預測,同時考慮到未來的不確定性對物流成本的影響,做到全域性的最優化。比賽提供商品從 2014年 10 月 10 日到 2015 年 12 月 27 日的全國和區域分倉資料。

自然語言處理(NLP)
1.2018 DC 達觀-文字智慧處理挑戰

此次比賽要求參賽者基於達觀資料提供的一批長文字資料和分類資訊,結合當下最先進的 NLP 和人工智慧技術,深入分析文字內在結構和語義資訊,構建文字分類模型,實現精準分類。比賽提供的資料包含訓練資料集和測試資料集 2 個 csv 檔案。

  1. 智慧客服問題相似度演算法設計——第三屆魔鏡杯大賽

本次大賽要求參賽者基於拍拍貸提供的智慧客服聊天機器人真實資料,以自然語言處理和文字挖掘技術為主要探索物件,利用這些資源開發一種提高智慧客服的識別能力和服務質量的演算法。

3.2018JD Dialog Challenge 任務導向型對話系統挑戰賽

本次大賽要求參賽者基於京東使用者與京東人工客服真實對話資料(脫敏後)以及給定的對話資料進行分析,構建端到端的任務驅動型多輪對話系統,輸出滿足使用者需求的答案——該答案需要能正確、完整且高效地解決問題,為使用者帶來簡單、省心、智慧的購物諮詢體驗。

4.2018CIKM AnalytiCup – 阿里小蜜機器人跨語言短文字匹配演算法競賽

本次大賽關注短文字匹配在語言適應的問題,源語言為英語,目標語言為西班牙語。比賽要求參賽者建立跨語言短文字匹配模型,來提升智慧客服機器人的能力。

另外,Smilexuhc 還為大家提供了兩篇經驗文章,大家感興趣的話可以一併收藏向前輩們取取經。

經驗文章

《介紹 featexp一個幫助理解特徵的工具包》:

《Ask Me Anything session with a Kaggle Grandmaster Vladimir I. Iglovikov》PDF:

注:轉載在機器學習訂閱號
原文地址