前言：

圍棋的英文是 the game of Go，標題翻譯為：《用深度神經網路和樹搜尋征服圍棋》。譯者簡介：大三，211，電腦科學與技術專業，平均分92分，專業第一。為了更好地翻譯此文，譯者查看了很多資料。譯者翻譯此論文已盡全力，不足之處希望讀者指出。

在AlphaGo的影響之下，全社會對人工智慧的關注進一步提升。3月12日，AlphaGo 第三次擊敗李世石。在3月15日總比分定格為4：1，隨後AlphaGo的圍棋排名世界來到第二。

編者按：2014年5月，人們認為至少需要十年電腦才能擊敗職業選手。筆者在翻譯的時候忠實於原文，很少加入自己的理解（本人不敢說有啥深入理解可言）。最終翻譯結果可能不好。但是對於本人而言，翻譯這篇文論的過程大於結果：一篇一萬字的中文翻譯，背後是十萬中英文資料的閱讀。

譯文

標題：用深度神經網路和樹搜尋征服圍棋

作者：David Silver 1 , Aja Huang 1 , Chris J. Maddison 1 , Arthur Guez 1 , Laurent Sifre 1 , George van den Driessche 1 , Julian Schrittwieser 1 , Ioannis Antonoglou 1 , Veda Panneershelvam 1 , Marc Lanctot 1 , Sander Dieleman 1 , Dominik Grewe 1 , John Nham 2 , Nal Kalchbrenner 1 , Ilya Sutskever 2 , Timothy Lillicrap 1 , Madeleine Leach 1 , Koray Kavukcuoglu 1 , Thore Graepel 1 , Demis Hassabis 1
他們來自 Google DeepMind 英國團隊（用1表示）, Google 總部（用2表示）
David Silver , Aja Huang是並列第一作者

摘要：人們長久以來認為：圍棋對於人工智慧來說是最具有挑戰性的經典博弈遊戲，因為它的巨大的搜尋空間，評估棋局和評估落子地點的難度。我們給電腦圍棋程式引入一種新的方法，這個方法使用估值網路來評估棋局，以及使用策略網路來選擇如何落子。這些深度神經網路被一種新的組合來訓練：使用了人類專業比賽資料的監督學習，以及自我對弈的強化學習。沒有使用任何預測搜尋的方法，神經網路下圍棋達到了最先進的蒙特卡洛樹搜尋程式的水準，這程式模擬了數以千計的自我對弈的隨機博弈。我們同時也引入了一種新的搜尋演算法，這演算法把蒙特卡洛模擬和估值、策略網路結合在一起。運用了這個搜尋演算法，我們的程式AlphaGo在和其它圍棋程式的對弈中達到了99.8%的勝率，並且以5：0的比分擊敗了歐洲冠軍，這是史上第一次計算機程式在全尺寸圍棋中擊敗一個人類職業棋手。在此之前，人們認為需要至少十年才會達成這個壯舉。

引言

所有完全資訊博弈都有一個最優估值函式v∗(s)，它在判斷了每個棋局或狀態 s 之後的博弈結果的優劣（在所有對手完美髮揮的情況下）。解決這些博弈可以通過在搜尋樹中遞迴呼叫最優估值函式，這個搜尋樹包含大約bd種可能的下棋序列，其中 b 是博弈的廣度（每一次下棋時候的合法落子個數），d 是的深度（博弈的步數長度）。在大型博弈中，比如國際象棋（b≈35,d≈80），和特別是圍棋（b≈250,d≈150），窮舉搜尋是不可行的的，但是有效的搜尋空間可以通過兩種通用的原則減少。第一，搜尋的深度可以通過棋局評估降低：在狀態 s 時對搜尋樹進行剪枝，然後用一個近似估值函式v(s)≈v∗(s)取代狀態 s 下面的子樹，這個近似估值函式預測狀態 s 之後的對弈結果。這種方法已經在國際象棋，國際跳棋，黑白棋中得到了超越人類的下棋能力，但是人們認為這種方法在圍棋中是難以處理的，因為圍棋的巨大的複雜度。第二，搜尋的廣度可以通過來自策略 p(a∣s)的取樣動作來降低，這個策略是一個在位置 s 的可能下棋走子a 概率分佈。比如蒙特卡洛走子方法搜尋到最大深度時候根本不使用分歧界定法，它從一個策略 p 中採集雙方棋手的一系列下棋走法。計算這些走子的平均數可以產生一個有效的棋局評估，在西洋雙陸棋戲和拼字遊戲中獲得了超出人類的效能表現，並且在圍棋中達到了業餘低段水平。

蒙特卡洛樹搜尋使用蒙特卡洛走子方法，評估搜尋樹中每一個狀態的估值。隨著執行越來越多的模擬，這個搜尋樹成長越來越大，而且相關估值愈發精確。用來選擇下棋動作的策略在搜尋的過程中也會隨著時間的推移而改進，通過選擇擁有更高估值的子樹。漸近的，這個策略收斂到一個最優下法，然後評估收斂到最優估值函式。目前最強的圍棋程式是基於蒙特卡洛樹搜尋的，並且受到了策略的增強，這個策略被人訓練用來預測專家棋手的下法。這些策略用來縮窄搜尋空間到一束高可能性下棋動作，和用來在走子中採集下法動作。這個方法已經達到了業餘高手的級別。然而，先前的工作已經受到了膚淺策略的限制或基於輸入的線性組合的估值函式的限制。

最近，深度卷積神經網路已經在計算機視覺中達到了空前的效能：比如影象分類，人臉識別，和玩雅達利的遊戲。它們使用很多層的神經網路，層與層之間像瓦片重疊排列在一起，用來構建圖片的愈發抽象的區域性代表。我們為圍棋程式部署了類似的體系架構。我們給程式傳入了一個19*19大小棋局的圖片，然後使用卷積神經網路來構建一個位置的代表。我們使用這些神經網路來降低搜尋樹的有效的深度和廣度：通過估值網路來評估棋局，和使用策略網路來博弈取樣。

我們使用一個包含多個不同階段的機器學習方法的管道來訓練神經網路。我們開始使用一個監督學習（SL）策略網路 pδ，它直接來自人類專家的下棋。這提供了快速高效的學習更新，擁有快速的反饋和高質量的梯度。和向前的工作類似，我們同時也訓練了一個可以迅速從走子中取樣的快速策略 pπ。其次，我們訓練了一個強化學習（RL）策略網路，pp，它通過優化自我對弈的最終結局來提升 SL策略網路。這調整策略網路朝向贏棋的正確目標發展，而不是最大化提高預測精度。最後，我們訓練了一個估值網路vθ，它預測博弈的贏者，通過和RL策略網路和自己對弈。我們的AlphaGo程式有效的把策略網路、估值網路，和蒙特卡洛搜尋樹結合在一起。

1 策略網路的監督學習

在訓練管道的第一階段，我們在先前工作的基礎上，使用了監督學習來預測人類專家下圍棋。監督學習（SL）策略網路pδ(a∣s)在重量δ的卷積層和非線性的整流器中替換。策略網路的輸入 s 是一個棋局狀態的簡單代表（如擴充套件資料表2）。策略網路使用了隨機取樣狀態-動作對（s，a），使用了隨機梯度遞增來最大化人類在狀態 s 選擇下棋走子 a 的可能性。
公式1
我們用KGS圍棋伺服器的3千萬個棋局，訓練了13層的策略網路（我們稱之為SL 策略網路）。在輸入留存測試資料的所受特徵的時候，這個網路預測人類專家下棋的精準的達到了57%，而且在僅僅使用原始棋局和下棋記錄的時候，精度達到了55.7%。與之相比，截至到本篇文論提交（2015年），其他研究團隊的最先進的精度是44.4%（全部結果在擴充套件資料表3）。在精確度方面的小提升會引起下棋能力的很大提升（圖片2，a）；更大的神經網路擁有更高的精確度，但是在搜尋過程中評估速度更慢。我們也訓練了一個更快的但是精確度更低的走子策略pπ(a∣s)，它使用了一個權重為π的小型模式特徵的線性softmax。它達到了24.2%的精確度，每選擇下一步棋只用2微秒，與之相比，策略網路需要3毫秒。

圖1：神經網路訓練管道和體系結構。a：在一個棋局資料集合中，訓練一個快速走子策略pπ和監督學習（SL）策略網路pδ用來預測人類專家下棋。一個強化學習（RL）策略網路pρ由SL策略網路初始化，然後由策略梯度學習進行提高。和先前版本的策略網路相比，最大化結局（比如贏更多的博弈）。一個新的資料集合產生了，通過自我對弈結合RL策略網路。最終通過迴歸訓練，產生一個估值網路vθ，用來在自我對弈的資料集合中預測期待的結局（比如當前棋手是否能贏）。b：AlphaGo使用的神經網路體系架構的原理圖代表。策略網路把棋局狀態 s 當作輸入的代表，策略網路把 s 傳輸通過很多卷積層（這些卷積層是引數為δ的SL策略網路或者引數為ρ的RL策略網路），然後輸出一個關於下棋動作 a 的概率分佈 pδ(a∣s)orpρ(a∣s)，用一個棋盤的概率地圖來表示。估值網路類似的使用了很多引數θ的卷積層，但是輸出一個標量值vθ(s′)用來預測棋局狀態 s′後的結局。

圖2：策略網路和估值網路的能力和精確度。a圖顯示了策略網路的下棋能力隨著它們的訓練精確度的函式。擁有128，192，256，384卷積過濾每層的策略網路在訓練過程中得到週期性的評估；這個圖顯示了AlphaGo使用不同策略網路的贏棋概率隨著的不同精確度版本的AlphaGo的變化。b：估值網路和不同策略網路的評估對比。棋局和結局是從人類專家博弈對局中取樣的。每一個棋局都是由一個單獨的向前傳遞的估值網路vθ評估的，或者100個走子的平均值，這些走子是由統一隨機走子，或快速走子策略pπ，或 SL 策略網路pδ，或 RL 策略網路pρ。圖中，預測估值和博弈實際結局之間的平均方差隨著博弈的進行階段（博弈總共下了多少步）的變化而變化。

2 策略網路的強化學習

訓練管道第二階段的目標是通過策略梯度強化學習（RL）來提高策略網路。強化學習策略網路pρ在結構上和 SL策略網路是一樣的，權重ρ初始值也是一樣的，ρ=δ。我們在當前的策略網路和隨機選擇某先前一次迭代的策略網路之間博弈。從一個對手的候選池中隨機選擇，可以穩定訓練過程，防止過度擬合於當前的策略。我們使用一個獎勵函式 r(s)，對於所有非終端的步驟 t < T，它的值等於零。從當前棋手在步驟 t 的角度來講，結果 zt=±r(sT)是在博弈結束時候的終端獎勵，如果贏棋，結果等於 +1，如果輸棋，結果等於 -1。然後權重在每一個步驟 t 更新：朝向最大化預期結果的方向隨機梯度遞增
公式2
我們在博弈過程中評估 RL策略網路的效能表現，從輸出的下棋動作的概率分佈，對每一下棋動作at∼pp(⋅∣st)進行取樣。我們自己面對面博弈，RL策略網路對 SL策略網路的勝率高於80%。我們也測試了和最強的開源圍棋軟體 Pachi 對弈，它是一個隨機的蒙特卡洛搜尋程式，在KGS中達到業餘2段。在沒有使用任何搜尋的情況下，RL策略網路對 Pachi的勝率達到了85%。與之相比，之前的最先進的僅僅基於監督學習的卷積網路，對 Pachi的勝率僅只有11%，對稍弱的程式 Fuego的勝率是12%。

3 估值網路的強化學習

訓練管道的最後一個階段關注於棋局評估，評估一個估值函式 vp(s)，它預測從棋局狀態 s 開始，博弈雙方都按照策略網路 p 下棋的結局，
公式3
理想情況下，我們期望知道在完美下法v∗(s)情況下的最優值；然而在現實中，我們使用 RL策略網路，來評估估值函式vPp，作為我們的最佳策略。我們使用權重是θ的估值網路 vθ(s)來逼近估值函式，vθ(s)≈vPp≈v∗(s)。這個神經網路和策略網路擁有近似的體系結構，但是輸出一個單一的預測，而不是一個概率分佈。我們通過迴歸到狀態-結果對（s, z）來訓練估值網路的權重，使用了隨機梯度遞減，最小化預測估值

AlphaGo論文的譯文，用深度神經網路和樹搜尋征服圍棋：Mastering the game of Go with deep neural networks and tree search

前言：

譯文

引言

1 策略網路的監督學習

2 策略網路的強化學習

3 估值網路的強化學習

AlphaGo論文的譯文，用深度神經網路和樹搜尋征服圍棋：Mastering the game of Go with deep neural networks and tree search

Mastering the game of Go with deep neural networks and tree search譯文

論文翻譯：Mastering the Game of Go without Human Knowledge (第一部分)

用深度神經網路搭建馬賽克神器，高清無碼效果感人

蘋果解密：如何在手機上用深度神經網路進行人臉識別

用深度神經網路處理NER命名實體識別問題

AlphaGo演算法論文神經網路加樹搜尋擊敗李世石

論文筆記 / Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks

【醫學影像】《Dermatologist-level classification of skin cancer with deep neural networks》論文筆記

基於深度神經網路的高光譜影響分類方法研究---MNF+自動編碼器+Softmax （準確率比較低，17年的論文）

深度神經網路，適用於小型指令碼文字相關的語音驗證

深度神經網路優化論文總結

周志華：滿足這三大條件，可以考慮不用深度神經網路

從AlexNet到MobileNet，帶你入門深度神經網路

用spark訓練深度神經網路

【火爐煉AI】深度學習003-構建並訓練深度神經網路模型

#####好好好好####Keras深度神經網路訓練分類模型的四種方法

用卷積神經網路和自注意力機制實現QANet（問答網路）

估算深度神經網路的最優學習率

深度學習筆記（四）——神經網路和深度學習（淺層神經網路）

AlphaGo論文的譯文，用深度神經網路和樹搜尋征服圍棋：Mastering the game of Go with deep neural networks and tree search

前言：

譯文

引言

1 策略網路的監督學習

2 策略網路的強化學習

3 估值網路的強化學習

相關推薦