【深度學習系列】一起來參加百度 PaddlePaddle AI 大賽吧！

阿新 • • 發佈：2018-01-04

人工領域而且標註數據 sea nload 類型指定路徑 ear

　　寫這個系列寫了兩個月了，對paddlepaddle的使用越來越熟悉，不過一直沒找到合適的應用場景。最近百度搞了個AI大賽，據說有四個賽題，現在是第一個----綜藝節目精彩片段預測，大家可以去檢測一下最近的學習成果啊！還有豐厚的獎金10W元軟妹幣哦！

這是啥比賽？

　　看比賽的要求，是希望參賽選手使用PaddlePaddle深度學習框架、利用BROAD數據集、利用K-Lab，著手解決行業中的真實問題，從而讓AI真正應用於行業、真正服務於行業。本次大賽，我們將目光放在電視綜藝行業，希望選手們利用BROAD中全球首創的公開精彩片段標註數據集，幫助電視綜藝的後期剪輯工作者們在給定的任一段長視頻中識別出“精彩片段”——想為剪輯師們的辛苦工作給予些小小的輔助，別再連續熬夜啦

　　詳細的賽題背景請戳這裏！

數據集是啥？

　　在11月百度世界大會 AI 技術與平臺論壇上，百度3D視覺首席科學家楊睿剛就宣布推出了百度 AI 公開數據集計劃——BROAD（Baidu Research Open-Access Dataset），並宣布首批室外場景理解、視頻精彩片段、閱讀理解3個數據集即日起對公眾公開。

　　這些數據或是首次發布的，或是目前國際同類型公開數據集中最大的：

室外場景理解數據集是世界範圍內第一個帶像素級語義標簽的室外3D圖像數據，來源於百度自動駕駛事業部。該數據集試圖將感知能力從物體級感知升級到像素級感知，進而了解圖片中所有像素的屬性和來源，目標實現更精準、安全的自動駕駛。

視頻精彩片段數據集主要來源於愛奇藝。視頻類型為綜藝節目，目前囊括近1500個長視頻，視頻總時長約1200小時，還從中手動收取出18000個精彩小視頻，同時能夠提供視頻幀的圖片特征序列，是全球首創的公開精彩片段標註數據集。

百度閱讀理解數據集 DuReader是迄今為止規模最大的中文公開領域閱讀理解數據集。數據集基於真實應用需求，所有問題都來源於百度搜索用戶的真實問題，文檔來自全網真實采樣的網頁文檔和百度知道 UGC 文檔，答案基於問題與文檔由人工撰寫生成。數據集標註了問題類型、實體和觀點等豐富信息，彌補了現有主流數據集對於觀點類問題覆蓋不足的問題。首批發布的閱讀理解數據集包含20萬問題、100萬文檔及42萬人工撰寫的優質答案，並提供開源基線系統。DuReader 將為閱讀理解技術研究提供有力支撐，希望加速相關技術和應用的發展。

　　在這個比賽中，我們用的是第二個：視頻精彩片段數據集。戳這裏可以下載！不過文件太大了，訓練集有97G，驗證和測試各有8，8G，在本機上做明顯不太現實，所以kesci直接提供了數據集，在指定路徑下就可以看到啦。我們可以直接運用Kesci的平臺K-Lab來進行模型訓練~大家可以在這裏看一下提供的視頻樣例和數據集的說明~

　　一個小tips：大家一定要先報名，再創建比賽項目才能查看數據集哦！不然看不到！親身經歷，略坑 - - 而且一定得用PaddlePaddle，會檢測你有沒有用的 - -

如何報名？

　　在Kesci官網註冊，然後報名，就可以啦！提交結果的時候要以團隊的名義提交哦！團隊可以是一個人，也可以組隊，大家可以在比賽的qq群裏拉人組隊哦！（見比賽介紹）

賽題、日程與獎項

　　本次大賽分為兩個階段。

　第一比賽階段：2017年12月28日0:00:00--2018年2月4日23:59:59

　此階段中，K-Lab使用百度雲計算優化型CPU，4核8GB內存。K-Lab單次運行時長為3小時。

任務：

訓練：使用已抽取的約10%的視頻數據訓練集（共124個視頻），學習視頻幀的圖片特征序列數據，在K-Lab中訓練精彩片段檢測模型。

驗證：使用驗證集的數據與開放的測評腳本K-Lab，評價訓練好的模型在驗證集視頻上的預測結果。

輸出結果：對測試集中的視頻使用訓練好的模型，得出預測結果，通過K-Lab上傳結果到測評系統得到評價分數。

2018年1月14日23:59:59，第一比賽階段中期截止，分數排名第一的隊伍獲得鼓勵獎。

2018年1月15日0:00:00起，用戶通過K-Lab上傳結果的同時也需上傳K-Lab notebook報告。

2018年2月4日23:59:59，第一比賽階段截止，且報名截止。選拔使用了PaddlePaddle訓練模型且上傳了K-Lab notebook報告的隊伍中，分數前50名的隊伍晉級到第二比賽階段。

第二比賽階段：2018年2月9日0:00:00--2018年3月15日23:59:59

此階段中，K-Lab的配置為GPU（百度免費提供的英偉達深度學習開發卡，CPU：6核40GB），單次運行時長為3小時。選手無需任何申請或安裝，直接打開K-Lab在其中使用即可。

任務：

訓練：選手必須使用PaddlePaddle訓練模型，使用全量視頻數據訓練集（共1262個視頻），學習視頻幀的圖片特征序列數據，在K-Lab中訓練精彩片段檢測模型。

驗證：使用驗證集的所有數據與開放的測評腳本K-Lab，評價訓練好的模型在驗證集視頻上的預測結果。

輸出結果：對測試集中的所有視頻使用訓練好的模型，得出預測結果，通過K-Lab上傳結果與K-Lab notebook報告到測評系統得到評價分數。

2018年2月25日23:59:59，第二比賽階段中期截止，分數排名第一的隊伍獲得鼓勵獎。

2018年3月15日23:59:59，第二比賽階段截止，百度專家對分數排名前10名的隊伍評審K-Lab notebook報告，評選出一名一等獎（5萬人民幣），2名二等獎（各2萬人民幣），3名三等獎（各3千人民幣）。

寫在最後

　　其實剛看到這個題目的時候覺得有點難，因為這個屬於比較新的領域，時序視頻檢測這個方向大家可以多搜搜論文，看看別人怎麽實現的，先試著用最簡單的方法做一下。不太建議完全不懂機器學習的人報名，小白可以先參加一些基礎的練練手，如果對機器學習和深度學習有些了解的可以報名試試看。目前排名第一的大神已經開放了隨機測試的視頻，大家可以先用這個代碼跑一下，看看提交的格式是啥樣的。不管怎麽說，重在參與啦~我也報名啦，大家一起來玩啊~而且看到有好幾個大佬也參賽了，大家參與一下，體驗一下就好哈哈。後續還有nlp、安防領域的，可以這次先練練手，後面的也參加挑戰一下^_^!

【深度學習系列】一起來參加百度 PaddlePaddle AI 大賽吧！

人工領域而且標註數據 sea nload 類型指定路徑 ear 　　寫這個系列寫了兩個月了，對paddlepaddle的使用越來越熟悉，不過一直沒找到合適的應用場景。最近百度搞了個AI大賽，據說有四個賽題，現在是第一個----綜藝節目精彩片段預測，大家可以去檢測一

【深度學習系列】一起來參加百度 PaddlePaddle AI 大賽吧！

【深度學習系列】一起來參加百度 PaddlePaddle AI 大賽吧！

【深度學習系列】卷積神經網路CNN原理詳解(一)——基本原理

【深度學習系列】用PaddlePaddle和Tensorflow實現經典CNN網絡GoogLeNet

【深度學習系列】用PaddlePaddle和Tensorflow實現GoogLeNet InceptionV2/V3/V4

【深度學習系列】CNN模型的視覺化

【深度學習理論】一文看懂卷積神經網路

【深度學習基礎】：線性代數(一)_特徵分解及numpy、scipy實現

吳恩達【深度學習工程師】學習筆記（一）

【深度學習技術】LRN 區域性響應歸一化

【SignalR學習系列】4. SignalR廣播程序

【Owin 學習系列】1. 第一個 Owin 程序

【zabbix教程系列】一、初識zabbix

【深度學習篇】--神經網絡中的調優

吳恩達【深度學習工程師】 04.卷積神經網絡第三周目標檢測（1）基本的對象檢測算法

【深度學習篇】--Windows 64下tensorflow-gpu安裝到應用

【深度學習篇】---CNN和RNN結合與對比，實例講解

【LDA學習系列】LDA-Python庫

【OS學習筆記】一處理器、記憶體和指令

【深度學習基礎】《深度學習》李巨集毅

【C++學習筆記】一、如何使用Visual Studio2015進行C++專案建立

【深度學習系列】一起來參加百度 PaddlePaddle AI 大賽吧！

相關推薦