1. 程式人生 > >多巴胺:谷歌開源新型增強學習框架

多巴胺:谷歌開源新型增強學習框架

lis line 靈活 orm 額外 行為 mac otto msu

https://mp.weixin.qq.com/s/KRyr0y84k6vkezuuM408lw

Google 近日宣布開源一個新的基於 Tensorflow 的框架 —— Dopamine,旨在為新手和資深 RL(強化學習)研究人員提供靈活性、穩定性和可重復性。該框架受大腦中的獎勵動機行為啟發,反映了神經科學與強化學習研究之間的強歷史聯系,旨在實現可以推動激進發現的投機性研究。

Dopamine 的功能亮點

易用性

  • 清晰性和簡潔性是該框架設計中的兩個關鍵考慮因素。Google 提供的代碼非常緊湊(約 15 個 Python 文件)且文檔完善,Google 希望這種簡單性能使研究人員更輕松地理解代理的內部運作並快速嘗試新的想法。

復用性

  • Google 非常看重可復用性在強化學習研究中的重要性。為此,他們為代碼提供完整的測試覆蓋率;,並遵循 Machado 等學者給出的建議使用街機學習環境(Arcade Learning Environment)標準化經驗評估。

基準測試

  • 對於新的研究人員而言,能夠根據已有方法快速對自己的想法進行基準測試是非常重要的。因此,Google 提供四個 agent 的完整訓練數據,包括Arcade Learning Environment 支持的 60 個遊戲,格式為 Python pickle 文件(對於使用谷歌框架訓練的智能體)和 JSON 數據文件(用於對比其他框架訓練的智能體)。Google 還額外提供一個網站,可在上面快速查看所有 60 款遊戲的 agent 可視化訓練運行情況。

技術分享圖片

更多細節根據相關鏈接進行查閱

相關鏈接

  • Dopamine 的詳細介紹

    https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

  • Dopamine 的Github 地址

    https://github.com/google/dopamine

多巴胺:谷歌開源新型增強學習框架