Mastering the game of Go with deep neural networks and tree search
Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489.
Alphago的論文,主要使用了RL的技術,不知道之前有沒有用RL做圍棋的。
提出了兩個網絡,一個是策略網絡,一個是價值網絡,均是通過自我對戰實現。
策略網絡:
策略網絡就是給定當前棋盤和歷史信息,給出下一步每個位置的概率。以前的人似乎是用棋手下的棋做有監督訓練,這裏用RL代替,似乎效果比有監督訓練要好。策略網絡的參數初始化是用有監督訓練網絡的參數。
價值網絡:
價值網絡就是給定當前棋盤和歷史信息,給出對己方的優勢概率。本來是用來代替蒙特卡洛的隨機模擬估計的,但是發現把價值網絡和隨機模擬估計結合起來效果比較好。個人覺得要是價值網絡如果訓練得足夠好,說不定也就不需要模擬估計了。當然這裏的模擬也不是完全隨機,好像是用的一個有監督訓練出來的淺層網絡進行模擬下棋。
策略網絡可以降低蒙特卡洛搜索樹的寬度,價值網絡減小其深度。
該論文第一次打敗了人類職業選手(五段的Fan Hui)
另外,該方法有分布式版本和單機版,官方給單機版的判斷是和Fan Hui一個水平,分布式版本的可以達到職業5段以上水平。分布式版本用了40個搜索線程, 1,202 個CPU以及176個GPU。單機版是40個搜索線程,48個CPU和8個GPU。按照這個配置,應該10年之內,單臺筆記本電腦能跑個職業3段以上的圍棋程序,這對圍棋學習者是個很好的消息。
Alphgo讓RL火了,讓圍棋火了,讓柯潔火了,威力還是巨大的。圍棋比較容易形式化,規則也比較簡單,只是搜索空間有點大,但現實中還有很多問題規則復雜,信息不完全,狀態空間大,決策空間大,需要聯合決策等。Alphago還在不斷發展,後續應該還有論文。
Mastering the game of Go with deep neural networks and tree search