1. 程式人生 > >AAAI 2018 傑出論文出爐,兩位中國留學生共同獲獎

AAAI 2018 傑出論文出爐,兩位中國留學生共同獲獎

640?wx_fmt=png&wxfrom=5&wx_lazy=1

編輯 | 周翔

作為人工智慧的頂級會議,AAAI 2018 將於 2.2~2.7 在美國路易斯安那州的新奧爾良舉行。然而,大會還沒開始,獲獎資訊就已經在網上傳播開來。

獲得“傑出論文獎”的是加拿大阿爾伯塔大學 Martin Müller 教授與他的兩位學生 Chenjun Xiao, Jincheng Mei 的論文:“Memory-Augmented Monte Carlo Tree Search”,目前該論文還沒有公開。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

其中,Chenjun Xiao 於 2014 年加入 Martin Müller 教授的研究小組,攻讀碩士,2016 年開始攻讀博士學位。Jincheng Mei 本科畢業於華南理工大學,碩士畢業於上海交通大學,2015 年進入加拿大阿爾伯塔大學,攻讀博士學位。

獲得“傑出學生論文獎”的則是來自牛津大學的“Counterfactual Multi−Agent Policy Gradients”,該論文的作者為 Jakob Foerster、Gregory Farquhar、Triantafyllos Afouras、Nantas Nardelli 以及 Shimon Whiteson。

0?wx_fmt=png

目前,該論文已經公開,以下是 AI 科技大本營對論文概述的簡要翻譯:

許多現實世界的問題,比如網路分組路由和自動駕駛汽車的協調,通常都被自然地建模為協作多代理系統。我們非常需要一種新的強化學習方法,來有效地學習這種系統的分散策略。為此,我們提出了一種被稱為反事實多智慧體(COMA,counterfactual multi-agent)策略梯度的方法。COMA 使用中心化的 critic 來估算 Q 函式,以及去中心化的 actors 來優化智慧體的策略。另外,為了解決多智慧體信用分配的挑戰,我們使用了一個反事實的基線,邊際化了一個智慧體的行為,同時保持其他智慧體的行為是固定的。COMA 還使用了 critic 表示法,可以單次正向傳遞中有效地計算反事實基線。我們使用具有顯著部分可觀察性的 decentralised variant,在《星際爭霸》單位微操作(unit micromanagement)的測試平臺上評估了 COMA。結果顯示,COMA 顯著提高了其他多智慧體actor-critic方法的平均表現,而最佳表現的智慧體甚至可以與最先進的中心控制器競爭,訪問完整的狀態資訊。

根據 jeffhuang 統計的獲獎論文清單,營長髮現,自 1996 年以來,雖然已經有一些華人的名字出現其中,但是到目前為止,中國只有浙江大學一所高校上榜。隨著越來越多的華人在人工智慧領域嶄露頭角,希望中國的高校能夠也能夠培養並留住更多的頂尖人才。

0?wx_fmt=png

熱文精選

640?wx_fmt=png