機器學習 alphaGo — monte carlo search tree（1）

AlphaGo 資料探勘 · 發表 2018-12-02 21:03:46

摘要： alphaGo alphaGo可能已經漸漸地淡出了人們的視野。但是他出現是有一定歷史意義。alphaGo 兩次登上自然雜誌封面。第二次是因為 alpha zero 而登上自然雜誌，這次分享以 alphaGo 為基礎進行分享，分別是兩個話題一個是神...

alphaGo

alphaGo可能已經漸漸地淡出了人們的視野。但是他出現是有一定歷史意義。alphaGo 兩次登上自然雜誌封面。第二次是因為 alpha zero 而登上自然雜誌，這次分享以 alphaGo 為基礎進行分享，分別是兩個話題一個是神經網路，一個是今天將的蒙特卡羅搜尋樹方法。

圖

我們回顧一下機器學習的歷史，早在 1996 年，深藍就曾經戰勝過人類國際象棋冠軍。在沉浸了將近 20 年後才再次在圍棋上戰勝人類。在過去的 20 年，究竟發生了什麼，為什麼 alphaGo 姍姍來遲呢？答案是我們在技術上遇到瓶頸，而這些年隨著一些新技術和新概念出現的支援，才出現了alphaGo。

國際象棋和圍棋比起來，

國際象棋的規則是由人類創造的，而圍棋規則設計是如此的優雅，優雅經常被用來形容程式碼，這裡也被用來形容圍棋規則。這說明圍棋規則嚴謹，他不僅屬於人類。

我們通過一些數值來看一看國際象棋和圍棋的複雜度對比國際象棋棋盤 8 * 8而圍棋棋盤19*19 每一步考慮因數圍棋是 250 而國際象棋是 35。所以圍棋根據狀態的選擇就像天上的星星是數不盡的。

在國際象棋中我們用到了minmax 規則，就是將決策樹按層劃分為分別屬於自己和輸入對手

決策樹

由於國際象棋的複雜度遠遠不如圍棋，所以通過決策樹，就能計算所有的可能來做出正確的選擇。

圖

browne Cb 和 Edward powly 在 2012 提出了蒙特卡羅樹搜尋方法，為 AI 點亮一盞明燈。

蒙特卡羅

第一次接觸蒙特卡羅這個概念，是在渲染效果圖時使用到蒙特卡羅演算法來進行渲染。蒙特·卡羅方法（Monte Carlo method），也稱統計模擬方法，是二十世紀四十年代中期由於科學技術的發展和電子計算機的發明，而被提出的一種以概率統計理論為指導的一類非常重要的數值計算方法。是指使用隨機數（或更常見的偽隨機數）來解決很多計算問題的方法。與它對應的是確定性演算法。

在正式切入正題前，我想問大家一個問題就是什麼是 pi 。我們在高中或是初中就已經學過如何計算pi 。今天我們通過隨機模擬方式來演示一種全新的方式來算 pi 。我們畫一個方形，方形中在畫一個圓形，他們中心重合，並且圓的直徑等於方形的變長。然後隨機畫點，點在園內外的數量比來獲取 pi 的值。