1. 程式人生 > >alphaGo的前世今生,並不那麼玄乎

alphaGo的前世今生,並不那麼玄乎

       David Silver 是AlphaGo的操刀者,一直從事Go的AI研究。

       從2007年David Silver與S.Gelly 合作寫的《Combining Online and Offline Learningin UCT》,ICML2017 時間大浪淘沙獎(10年沉澱之精華)在UCT基礎上增加了offline learning,提出了在將線上學習與離線棋譜的學習結合起來,RL裡分為決策網路(Policy network,下一步棋子放到哪個點)、價值網路(value network,當前選擇到最後是贏的記為1,輸為0,反向傳到到當前決策所得的值,因為都有一定的概率所有當前的值一般是0-1之間的概率值)。在這篇論文中Offline learning提到“MCTS + RAVE + Simple Value Function + Rollouts with custom play ”,主要創新點是將棋譜引入到離線學習得到下一步(尤其是在之前沒有遇到過的情況下)應該下哪一步。

      在後續近10年間一直持續做Go相關的研究優化。

       都在研究怎麼充分利用離線知識(人工棋譜知識)。每隔一段時間都有一點進步,從9*9的棋盤到19*19的棋牌。

        在2016年發表到nature,成功戰勝世界冠軍。從傳統的RL,到引入深度學習的RL,將棋譜的特徵巧妙的作為圖片資訊,19*19的棋譜就是19*19的畫素,輸入到cnn+dnn網路,策略網路、值網路都引入深度學習模型。

        返璞歸真,不用離線知識學習了(感覺回到2007年之前了,雖然2017年8月剛因為引入離線學習得到ICML2017的 Test Of Time reward),而直接用增強學習搞定一切,並且將Policy Network、Value Network權值共享。

         這一篇引來朋友圈一大片熱潮,歡呼人工智慧時代的真正到來,但是這是在規則確定明確的場景,在很多需要標註的場景還是玩的不太開,需要外部給予反饋,而圍棋場景最終反饋是確定了。不過從研究角度看出,如果要深耕一個領域真的要有十足的耐心、長久的堅持並且持續創新引領,並且時不時回過頭來review下以前的方向是否在新時代下是否用新的方法是否可以更上一層樓!