1. 程式人生 > >百度PaddlePaddle再獲新技能 智能推薦、對話系統、控制領域都能搞定!

百度PaddlePaddle再獲新技能 智能推薦、對話系統、控制領域都能搞定!

案例 轉移 深度學習 碰撞 成功 不足 相對 近日 處理

引言:人工智能技術越來越廣泛的應用於各行各業,而這一切都離不開底層深度學習框架的支持。近日,百度深度學習PaddlePaddle正式發布了強化學習框架PARL,同時開源了基於該框架,在NeurIPS 2018強化學習賽事中奪冠的模型完整訓練代碼,再次向業界展示了百度在深度學習領域的技術能力。

PARL的效果如何?

PARL是基於百度 PaddlePaddle 打造的深度強化學習框架,覆蓋了DQN、DDQN、Dueling DQN、DDPG、PPO等主流強化學習算法。在PARL 1.0的發布中,基於PARL實現的DDPG, DQN, PPO等算法均有覆蓋,在一些經典測試問題中,如Atari Game, Mujoco等,均取得了state-of-the-art的成績。性能相比其他平臺也毫不示弱。

此外,PARL 框架支持百億級別數據或特征的訓練,基於PARL可同時通過8塊GPU拉動近20000個CPU節點運算。在NeurIPS 2018賽事中將需要近5個小時叠代一輪的PPO算法加速到不到1分鐘,相對單機運算加速比高達幾百倍。與現有開源強化學習工具和平臺相比,PARL框架具有更高的可擴展性、可復現性和可復用性,支持大規模並行和稀疏特征,能夠快速完成對工業級應用案例的驗證。

在NeurIPS 2018強化學習賽事中PRAL的使用脫穎而出,擊敗了400多支來自全球各個研究機構的參賽隊伍,獲得冠軍的最關鍵因素是,PARL框架在算法上采用了獨特的網絡結構,特征處理、獎勵值工程、探索策略以及學習方法。其中比較重要一點是用了課程學習(Curriculum Learning)來學習一個比較好的初始步態。而在架構方面,受到GA3C啟發,所設計的DDPG並行結構直接達到了單機性能的幾百倍,使得深度強化學習框架PARL的調研效率大大提升。

PARL在哪些前沿應用發揮作用?

a. 新聞和信息推薦

近年來,信息流在研究上出現兩個難點和熱點,一個是列表頁內的組合優化,另一個是列表頁間的興趣轉移。傳統推薦往往都是基於用戶和單點內容之間的喜好程度來預估。現代信息推薦系統註重列表內的組合,以及列表頁間的轉移變化。而這兩個點,都是強化學習適合的重要場景。

列表頁內的優化主要是內容之間的組合,現代信息流推薦系統並不是一次只推薦一個內容,而是一次推薦多個內容。由於列表多個內容之間的相互關聯會影響到用戶體驗,但對於

具體如何關聯,卻沒有辦法確定。雖然大家都知道多樣性比較重要,但為什麽重要,以及多樣性到底怎麽量化,目前依舊缺乏統一的認識。而列表頁間的優化,針對的是用戶行為的序列。用戶瀏覽完一個列表,重新刷新,再看第二個列表,這個過程中興趣有沒有發生轉移?有沒有新的興趣被激發?這兩個點都涉及到長期收益問題。也就是說,不能再僅僅用當前內容的用戶反饋來學習,而是得用比較長時間的收益來學習。

在列表頁內組合上,PARL所提出的序列框架統一了學術界對列表頁框架認識的一些模糊。根據百度發布的文章,多樣性一個概念遠不足以反映列表頁內的關聯關系。內容之間既有相互重疊,又有相互關聯和促進。以往的多樣性建模往往比較片面。而基於序列優化的建模方式,能夠處理內容之間所有可能關聯。強化學習在這中間,起到了關鍵的序列全局優化的作用。而百度內部在2017年底就Launch了序列優化框架,據了解,這個框架至今已經取得了不少收益。而PARL在其中充分發揮了其在大規模訓練中性能的優勢。

(序列生成網絡 – 指針網絡)

而在列表頁之間的轉移方面,百度內部也早已已經開展了探索。對於信息流推薦這類產品的列表間優化,強化學習面臨一個難題是Variance過大,可能導致準確率下降。 學術界有不少針對這個問題的工作,但提出的方法都相對偏理想化,鮮有方法能夠真正用到線上並產生收益。開發者正在基於PARL創新“Credit Assignment”這類新的算法,以更好地更接地氣地解決這些問題,據悉目前已有一些進展,不遠將來可能發布這些成果。

(序列生成 – 評估框架)

b. 自動導航和控制

PARL框架也將強化學習用在無人機和無人車的自動導航和避障領域。控制問題是一個經典的Delayed Reward問題,強化學習最開始也是在控制領域應用最廣的。因為如果發生碰撞或者控制不好,一定不是當前一個時間步的問題,而是多個時間步的連續問題。傳統的強化學習研究,都不關註成本和風險,認為災害事件(如碰撞)可以無成本獲得。但真實場景,比如無人車、無人機,則不允許有那麽多的碰撞。

開發者利用很多無人車、無人機測試過程中的“安全員”這一角色,不僅為了在測試中可以保障安全,還將這些夾雜了安全員幹預的、不符合傳統強化學習路徑的數據收集起來,作為信號來學習。該算法叫幹預輔助強化學習(Intervention Aided Reinforcement Learning)(http://proceedings.mlr.press/v87/wang18a.html),它可以通過學習帶幹預的路徑,來強化策略,使得幹預可以直接被降低。基於這套算法,百度成功使得一個端到端(end-to-end)的復雜神經網絡模型,能夠被用於直接控制飛行器的避障,在障礙物比較密集的環境中平穩飛行。這不僅證明了強化學習被用在自動導航問題上的可能性,也為無人車的強化學習訓練探索了一種方法。該方法也會在短期內開源到PARL裏面,方便用戶使用

總結:

在強化學習方面,百度內早在 2012 年就將在 multi-armed bandit 問題上的研究成果部署到了推薦系統中,應用於搜索、對話、推薦等產品,通過點擊反饋結合在線訓練的方式,動態調整探索和收益的平衡點,在降低探索風險的同時最大化推薦收益。隨著PaddlePaddle在工業界的影響不斷深入,未來基於PaddlePaddle深度學習框架PARL將對工業界,以及學術界的深度強化學習應用和研究起到長遠的促進作用,來滿足業界日趨發展旺盛的深度強化學習應用的需求,做到真正源於產業實踐的深度學習框架。

百度PaddlePaddle再獲新技能 智能推薦、對話系統、控制領域都能搞定!