NIPS 2018 強化學習比賽結果出爐,百度贏得NIPS 2018 AI 假肢挑戰賽
距 NIPS 2018 召開還有不到一個月的時間,NIPS 2018 的各種技術挑戰賽也接近尾聲。在上週結束的 ofollow,noindex" target="_blank"> 2018人工智慧假肢挑戰賽(AI for Prosthetics Challenge) 中,來自中國百度的技術團隊一舉擊敗全球的 400 多個參賽團隊,以 9980 分的成績奪得冠軍,領先第二名高達 30 多分。
人工智慧假肢挑戰賽是由斯坦福大學神經生物實驗室與 EPFL 聯合舉辦,旨在通過將強化學習應用到人體腿部骨骼模擬模擬模型的訓練,從而加快人體假肢領域的相關研究,並開創該領域的研究的新方法。
自今年 7 月份啟動以來,來自全球 400 多技術團隊都參與其中。其中既有上屆冠軍、由 “RNN之父”Juergen Schmidhuber 創立的 NNAISENSE,也有阿里巴巴、Yandex 等巨頭。百度今年首次參加強化學習領域比賽,就在強手如雲的團隊裡脫穎而出,一舉奪得冠軍,並領先第二名30多分。第二到五名分別被NNAISENSE,Yandex,阿里巴巴等獲得。顯而易見,百度在強化學習領域佔據了明顯的優勢,冠軍含金量頗高。
今年的比賽中,賽會組織者提供了一個人體骨骼-高仿模型,該模型是斯坦福國家醫學康復研究中心研發的 Opensim 高仿模型,擁有人類腿部絕大多數真實骨骼、關節和肌肉的精細模擬。參賽者需要根據該模型中多達 100 個以上的狀態,來決定模型肌肉的訊號,然後控制該模型的肌體行走。
在去年的第一次挑戰賽上,比賽規則圍繞誰能讓模型肌體行走速度最快。而今年則引入帶有假肢的模型,同時模型的假肢不可控制,模型肌體行走的速度也有要求,並且還需要在第二輪比賽中按照事先未知的指定速度進行切換。
相較而下,今年的比賽難度再次增加。比如對模型肌體有效資訊的判斷上,由於實際狀態空間和動作空間稠密並且非常大,導致基於強化學習的演算法無法準確把握模型肌體的行走姿勢;更進一步,由於規則要求不斷切換速度,更增加了模型控制難度。
在此次比賽中,百度首先通過上千臺機器的 CPU 叢集來加速模擬環境,利用 ZMQ 機制進行通訊,從而能夠在 P40 上進行高效的模型訓練。其次,利用Target Driven Deep Deterministic Policy Gradient (Target Driven DDPG)(DDPG),使得模型能夠應對較大空間和連續動作空間的挑戰,最終也使得一個單一模型能夠學習多種速度和姿態。第三,在演算法層面,通過 multi-head bootstrapping,能夠更高效的對巨大的解空間進行探索(Exploration),同時還將旋轉不變性等各類特徵處理方式,以及不斷實驗累計的各類 reward shaping 方法應用其中。正是這些關鍵技術的綜合應用,讓百度能以 9980 的高分一舉奪冠,有參賽者表示,這是一個他們難以相信的分數。
事實上,早在本次比賽以前,百度已經將強化學習技術應用於資訊流推薦、廣告展現、搜尋排序等大規模工業級場景。而本次比賽中所展現出的技術實力,再次證明了百度在強化學習相關技術上的積累,也能夠進一步推廣到複雜機器人控制、自動駕駛等更多工業領域。
與此同時,百度會這種能力通過 PaddlePaddle 開源平臺賦能更多開發者。基於 PaddlePaddle 的強化學習框架 PARL 將在今年四季度正式釋出,屆時將為更多深度學習領域開發者提供強而有力的技術支撐,也進一步深化百度構建AI完成生態的決心。