alphaGo的前世今生，並不那麼玄乎

阿新 • • 發佈：2019-01-05

David Silver 是AlphaGo的操刀者，一直從事Go的AI研究。

從2007年David Silver與S.Gelly 合作寫的《Combining Online and Oﬄine Learningin UCT》，ICML2017 時間大浪淘沙獎（10年沉澱之精華）在UCT基礎上增加了offline learning，提出了在將線上學習與離線棋譜的學習結合起來，RL裡分為決策網路（Policy network，下一步棋子放到哪個點）、價值網路(value network，當前選擇到最後是贏的記為1，輸為0，反向傳到到當前決策所得的值，因為都有一定的概率所有當前的值一般是0-1之間的概率值)。在這篇論文中Offline learning提到“MCTS + RAVE + Simple Value Function + Rollouts with custom play ”，主要創新點是將棋譜引入到離線學習得到下一步（尤其是在之前沒有遇到過的情況下）應該下哪一步。

在後續近10年間一直持續做Go相關的研究優化。

都在研究怎麼充分利用離線知識（人工棋譜知識）。每隔一段時間都有一點進步，從9*9的棋盤到19*19的棋牌。

在2016年發表到nature，成功戰勝世界冠軍。從傳統的RL，到引入深度學習的RL，將棋譜的特徵巧妙的作為圖片資訊，19*19的棋譜就是19*19的畫素，輸入到cnn+dnn網路，策略網路、值網路都引入深度學習模型。

返璞歸真，不用離線知識學習了（感覺回到2007年之前了，雖然2017年8月剛因為引入離線學習得到ICML2017的 Test Of Time reward），而直接用增強學習搞定一切，並且將Policy Network、Value Network權值共享。

這一篇引來朋友圈一大片熱潮，歡呼人工智慧時代的真正到來，但是這是在規則確定明確的場景，在很多需要標註的場景還是玩的不太開，需要外部給予反饋，而圍棋場景最終反饋是確定了。不過從研究角度看出，如果要深耕一個領域真的要有十足的耐心、長久的堅持並且持續創新引領，並且時不時回過頭來review下以前的方向是否在新時代下是否用新的方法是否可以更上一層樓！

alphaGo的前世今生，並不那麼玄乎

alphaGo的前世今生，並不那麼玄乎

法律人工智慧的前世今生，附熊明輝教授簡歷(公號回覆“法律AI”或“熊明輝AI”下載PDF典型資料，歡迎轉發、讚賞支援科普)

超級詳細的晶圓廠前世今生，半導體研究史詩級長文

C#的前世今生，學會C#還能找到高薪工作嗎？

HTTP 的前世今生，那些不為人知的祕密

阿拉丁小程序生態課7月開課，解讀小程序的“前世今生”

物聯網是什麽，華為雲學院帶你走進物聯網的前世今生

Spring的前世今生： Spring5.0已經出來了，Springboot已經風靡全球， Spring怎麼一步一步走過來的，讓我們看看其前世今生～～～

物聯網是什麼，華為雲學院帶你走進物聯網的前世今生

其實IPv6，並不是那麼完美

阿里雲實時計算，前世功，今生能！

前世今生的痴，問誰可以洞悉

從過去到現在，回顧蘋果 Mac OS 作業系統的前世今生 (圖文) [ 業界分析 ] [ 來自 expreview ]

你好，C++（1）C++是什麼？C++的“前世今生”

一步一圖，帶你瞭解分散式架構的前世今生

極簡Docker和Kubernetes發展史，關於容器誕生的前世今生

從前世今生聊一聊，大廠為啥親睞時序資料庫

[轉載]持續交付和DevOps的前世今生

table中的單行省略，並不能讓td能自適應

websocke前世今生

alphaGo的前世今生，並不那麼玄乎

相關推薦