1. 程式人生 > >論文翻譯:Mastering the Game of Go without Human Knowledge (第一部分)

論文翻譯:Mastering the Game of Go without Human Knowledge (第一部分)

將在 過程 methods 簡單的 能力 概率 通用 依靠 有著

長久以來,人工智能的一個目標是在那些具有挑戰性的領域實現超過人類表現的算法。最近,AlphaGo成為了在圍棋上第一個打敗了世界冠軍的程序。在AlphaGo中,使用深度神經網絡來進行樹搜索,評估位置,和選擇下一步動作。這些神經網絡使用人類的專家數據進行監督學習,以及通過自我對弈進行強化學習。在這裏,我們介紹一個僅僅基於強化學習的算法,除了遊戲規則外沒有任何的人類數據,指導,或領域知識。AlphaGo成為了它自己的老師:訓練一個神經網絡來預測AlphaGo自己的動作,和遊戲的勝利者。這個神經網絡提高了樹搜索的能力,使它在下一次叠代時有更好的選擇以及更強的自我博弈。從一片空白開始,我們的新程序 AlphaGo Zero達到了超人般的表現,以100-0的成績戰勝了先前公布的AlphaGo。

人工智能中的許多進展是通過訓練監督式學習系統來模仿人類專家的決策。然而,專家數據通常是昂貴的,不可靠的,或難以獲得的。即使可以很容易的獲得可靠數據,通過這種方式訓練的系統,表現也可能到達天花板。相比之下,強化學習系統通過它們自己的經驗來訓練,在原則上它們具有超越人類的能力,以及在人類不擅長的領域工作。最近,在這方面有了迅速的進展,通過強化學習來訓練深度神經網絡。這些系統在3D虛擬環境,電腦遊戲中有比人類更好的表現。然而,在人類智力最受挑戰的地方——比如圍棋,廣泛地認為這對於人工智能是一個巨大的挑戰,因為這需要在巨大的搜索空間中進行精確而復雜的考慮。通用方法從未在這些領域達到人類的水平。

AlphaGo是第一個在圍棋中有著超人表現的程序。那個我們稱之為AlphaGo Fan的發布的版本,在2015.10打敗了歐洲的冠軍Fan Hui。AlphaGo Fan利用了兩個深度神經網絡:一個輸出移動概率的策略網絡,一個輸出位置評估的價值網絡。策略網絡最初通過監督式學習訓練,以此來準確預測人類專家的行動,隨後通過策略梯度強化學習重新定義。訓練價值網絡來預測自我對弈的勝利者。一旦經過訓練,這些網絡就會和一個蒙特卡洛樹搜索(MCTS)結合,以此來提供前瞻搜索,使用策略網絡來減小搜索範圍,並向高勝率方向移動,然後使用價值網絡(結合了快速走子策略的MCTS)來評估在樹中的位置。在一個隨後的我們稱之為AlphaGo Lee的版本中,使用相似的方法,在2016年4月擊敗了有18個國際頭銜的冠軍——李世石。

我們的程序,AlphaGo Zero,在幾個重要的方面與AlphaGo Fan和AlphaGo Lee有所區別。第一個也是最重要的一個,它僅僅通過自我對弈強化學習實現,從隨意的下棋開始,沒有任何監督或使用人類數據。第二,它只使用棋盤上的黑白子作為輸入特征。第三,它只使用了一個神經網絡,而不是分開的策略網絡和價值網絡。最後,依靠於這個單神經網絡,它使用了一個更簡單的樹搜索,來評價位置和采樣動作,沒有使用蒙特卡洛走子。為了達到這些結果,我們介紹一個全新的強化深度學習算法——在訓練過程中包含前向搜索,來達到快速的進步和精確、穩定的學習。在搜索算法,訓練步驟以及網絡結構上的進一步的不同將在Methods中描述。

論文翻譯:Mastering the Game of Go without Human Knowledge (第一部分)