深度解讀 AlphaGo 演算法原理

阿新 • • 發佈：2019-01-16

http://blog.csdn.net/songrotek/article/details/51065143

http://blog.csdn.net/dinosoft/article/details/50893291

https://www.zhihu.com/question/39905662

https://yq.aliyun.com/articles/53737

https://wenku.baidu.com/view/3cbb606f49649b6648d747fb.html

深度解讀AlphaGo

這裡寫圖片描述

原版論文是《Mastering the game of Go with deep neural networks and tree search》，有時間的還是建議讀一讀，沒時間的可以看看我這篇筆記湊活一下。網上有一些分析AlphaGo的文章，但最經典的肯定還是原文，還是踏踏實實搞懂AlphaGo的基本原理我們再來吹牛逼吧。

需要的一些背景

對圍棋不瞭解的，其實也不怎麼影響，因為只有feature engineering用了點圍棋的知識。這裡有一篇《九張圖告訴你圍棋到底怎麼下》可以簡單看看。

對深度學習不怎麼了解的，可以簡單當作一個黑盒演算法。但

機器學習的基礎知識還是必備的。沒機器學習基礎的估計看不太懂。

“深度學習是機器學習的一種，它是一臺精密的流水線，整頭豬從這邊趕進去，香腸從那邊出來就可以了。”

蒙特卡羅方法

蒙特卡羅演算法：取樣越多，越近似最優解；
拉斯維加斯演算法：取樣越多，越有機會找到最優解；
舉個例子，假如筐裡有100個蘋果，讓我每次閉眼拿1個，挑出最大的。於是我隨機拿1個，再隨機拿1個跟它比，留下大的，再隨機拿1個……我每拿一次，留下的蘋果都至少不比上次的小。拿的次數越多，挑出的蘋果就越大，但我除非拿100次，否則無法肯定挑出了最大的。這個挑蘋果的演算法，就屬於蒙特卡羅演算法——儘量找好的，但不保證是最好的。

作者：蘇椰
連結：https://www.zhihu.com/question/20254139/answer/33572009

蒙特卡羅樹搜尋(MCTS)

網上的文章要不拿蒙特卡羅方法忽悠過去；要不籠統提一下，不提細節；要不就以為只是樹形的隨機搜尋，沒啥好談。但MCTS對於理解AlphaGo還是挺關鍵的。
MCTS這裡的取樣，是指一次從根節點到遊戲結束的路徑訪問。只要取樣次數夠多，我們可以近似知道走那條路徑比較好。貌似就是普通的蒙特卡羅方法？但對於樹型結構，解空間太大，不可能完全隨機去取樣，有額外一些細節問題要解決：分支節點怎麼選（寬度優化）？不選比較有效的分支會浪費大量的無謂搜尋。評估節點是否一定要走到底得到遊戲最終結果（深度優化）？怎麼走？隨機走？
基本的MCTS有4個步驟Selection,Expansion,Simulation,Backpropagation（論文裡是backup，還以為是備份的意思），論文裡state，action，r(reward)，Q 函式都是MCTS的術語。

圖片展示瞭如何更新節點的勝率，選擇勝率大的分支進行搜尋（7/10->5/6->3/3)，到了3/3葉子節點進行展開選擇一個action，然後進行模擬，評估這個action的結果。然後把結果向上回溯到根節點。來自維基百科

具體的細節，可以參考UCT（Upper Confidence Bound for Trees） algorithm – the most popular algorithm in the MCTS family。從維基百科最下方那篇論文截的圖。原文有點長，這裡點到為止，足夠理解AlphaGO即可。N是搜尋次數，控制exploitation vs. exploration。免得一直搜那個最好的分支，錯過邊上其他次優分支上的好機會。
UCT

AlphaGo

pipeline
四大元件。最後只直接用了其中3個，間接用其中1個。

Policy Network (

Supervised learning(SL)學的objective是高手在當前棋面(state)選擇的下法(action)。

Fast Rollout Policy (

linear softmax + small pattern features 。對比前面Policy Network，

非線性 -> 線性
區域性特徵 -> 全棋盤
準確率降到24.2%，但是時間3ms-> 2μs。前面MCTS提到評估的時候需要走到底，速度快的優勢就體現出來了。

Reinforcement Learning of Policy Networks (

要點

前面policy networks的結果作為初始值
隨機選前面某一輪的policy network來對決，降低過擬合。
校正最終objective是贏棋，而原始的SL Policy Networks預測的是跟expert走法一致的準確率。所以對決結果80%+勝出SL。

跟Pachi對決，勝率從原來當初SL Policy Networks的11%上升到85%，提升還是非常大的。

Reinforcement Learning of Value Networks (

判斷一個棋面，黑或白贏的概率各是多少。所以引數只有s。當然，你列舉一下a也能得到p(a|s)。不同就是能知道雙方勝率的相對值

using policy
Δθ∝∂vθ(s)∂θ(z−vθ(s))

MSE	training set	test set
before	0.19	0.37
after	0.226	0.234

AlphaGo與其他程式的對比。AlphaGo上面提到的幾個元件之間對比。這幾個元件單獨都可以用來當AI，用MCTS組裝起來威力更強。（kyu:級，dan:段）
橫向縱向對比

MCTS 組裝起來前面的元件

MCTS
結構跟標準的MCTS類似。

每次MCTS simulation選擇

at=argmaxa(Q(st,a)+u(st,a))=argmaxa(Q(st,a)+C∗Pσ1+搜索次數N(s,a))

我自己補了個常數C，寫到一起容易看點。

V(θL)=(1−λ)vθ(sL)+λzT

value network
fast rollout走到結束的結果

最開始還沒expand Q是0，那SL的

搜尋次數N一多會扣分，鼓勵exploration其他分支。

summary

整體看完，感覺AlphaGo實力還是挺強的。在機器學習系統設計和應用方面有很大的參考意義。各個元件取長補短也挺有意思。

深度解讀 AlphaGo 演算法原理

深度解讀AlphaGo

需要的一些背景

蒙特卡羅方法

蒙特卡羅樹搜尋(MCTS)

AlphaGo

Policy Network (

Fast Rollout Policy (

Reinforcement Learning of Policy Networks (

Reinforcement Learning of Value Networks (

MCTS 組裝起來前面的元件

summary

深度解讀 AlphaGo 演算法原理

DQN從入門到放棄5 深度解讀DQN演算法

分析 AlphaGo 演算法原理的本質

深度學習CNN演算法原理

分享《深度學習與計算機視覺演算法原理框架應用》《大資料架構詳解從資料獲取到深度學習》PDF資料集

分享《深度學習與計算機視覺演算法原理框架應用》PDF《大資料架構詳解從資料獲取到深度學習》PDF +資料集

深度學習之神經網路（CNN/RNN/GAN）演算法原理+實戰目前最新

深度學習之目標檢測常用演算法原理+實踐精講

深度學習之目標檢測常用演算法原理+實踐精講 YOLO / Faster RCNN / SSD / 文字檢測 / 多工網路

NIN 演算法原理解讀

基於深度學習的文字分類6大演算法-原理、結構、論文、原始碼打包分享

深度學習之神經網路（CNN/RNN/GAN） (演算法原理+實戰) 完整版下載

推薦系統遇上深度學習(二十)--貝葉斯個性化排序(BPR)演算法原理及實戰

深度學習之神經網路（CNN/RNN/GAN） (演算法原理+實戰)完整版

深度學習演算法原理——神經網路的基本原理

佛爺芸: 深度學習演算法原理與應用系列---深度學習介紹

訊息佇列Kafka高可靠性原理深度解讀上篇

推薦系統遇上深度學習(二十)-貝葉斯個性化排序演算法原理及實戰

深度學習演算法原理——Softmax Regression

深度解讀最流行的優化算法：梯度下降

深度解讀 AlphaGo 演算法原理

深度解讀AlphaGo

需要的一些背景

蒙特卡羅方法

蒙特卡羅樹搜尋(MCTS)

AlphaGo

Policy Network (Pσ)

Fast Rollout Policy (Pπ)

Reinforcement Learning of Policy Networks (Pρ)

Reinforcement Learning of Value Networks (vθ)

MCTS 組裝起來前面的元件

summary

相關推薦

Policy Network (

Fast Rollout Policy (

Reinforcement Learning of Policy Networks (

Reinforcement Learning of Value Networks (