1. 程式人生 > >Mastering the game of Go with deep neural networks and tree search

Mastering the game of Go with deep neural networks and tree search

深度 策略 參數初始化 技術 以及 -1 簡單 cpu 網絡

Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489.

Alphago的論文,主要使用了RL的技術,不知道之前有沒有用RL做圍棋的。

提出了兩個網絡,一個是策略網絡,一個是價值網絡,均是通過自我對戰實現。

策略網絡:

技術分享

策略網絡就是給定當前棋盤和歷史信息,給出下一步每個位置的概率。以前的人似乎是用棋手下的棋做有監督訓練,這裏用RL代替,似乎效果比有監督訓練要好。策略網絡的參數初始化是用有監督訓練網絡的參數。

價值網絡:

技術分享

價值網絡就是給定當前棋盤和歷史信息,給出對己方的優勢概率。本來是用來代替蒙特卡洛的隨機模擬估計的,但是發現把價值網絡和隨機模擬估計結合起來效果比較好。個人覺得要是價值網絡如果訓練得足夠好,說不定也就不需要模擬估計了。當然這裏的模擬也不是完全隨機,好像是用的一個有監督訓練出來的淺層網絡進行模擬下棋。

策略網絡可以降低蒙特卡洛搜索樹的寬度,價值網絡減小其深度。

該論文第一次打敗了人類職業選手(五段的Fan Hui)

另外,該方法有分布式版本和單機版,官方給單機版的判斷是和Fan Hui一個水平,分布式版本的可以達到職業5段以上水平。分布式版本用了40個搜索線程, 1,202 個CPU以及176個GPU。單機版是40個搜索線程,48個CPU和8個GPU。按照這個配置,應該10年之內,單臺筆記本電腦能跑個職業3段以上的圍棋程序,這對圍棋學習者是個很好的消息。

Alphgo讓RL火了,讓圍棋火了,讓柯潔火了,威力還是巨大的。圍棋比較容易形式化,規則也比較簡單,只是搜索空間有點大,但現實中還有很多問題規則復雜,信息不完全,狀態空間大,決策空間大,需要聯合決策等。Alphago還在不斷發展,後續應該還有論文。

Mastering the game of Go with deep neural networks and tree search