機器學習回顧篇（16）：蒙特卡洛演算法

蒙特卡羅（MC，Monte Carlo）方法是一種隨機取樣模擬求解的方法，又被稱統計試驗方法或者統計模擬方法。起初，蒙特卡羅方法的提出是20世紀40年代馮·諾伊曼，斯塔尼斯拉夫·烏拉姆和尼古拉斯·梅特羅波利斯等人為推進研製原子彈的“曼哈頓”計劃而提出，但大概是因為蒙特卡羅方法是一種隨機模擬的方法，與賭博場裡面的扔骰子的過程十分相似而以賭城的名字命名這一方法。現如今，這一方法已被廣泛應用到科學計算的眾多應用領域中。

在這裡，之所以沒有說是蒙特卡羅演算法，而是稱蒙特卡羅方法，是因為任何通過生成合適的隨機數，並使用這些隨機樹建立概率模型，以找到難以通過其他方法解決的數值問題的近似解的方法歸類為蒙特卡羅方法。蒙特卡羅這一家族中還包括蒙特卡羅演算法、蒙特卡羅模擬、蒙特卡羅過程、蒙特卡羅搜尋樹（AlphoGo中使用的方法）等眾多分支。

所以，在理解蒙特卡羅方法時，需要將其當做一個大類的演算法去對待，它是一種思想，只要符合了這種思想，就屬於蒙特卡羅方法，不是一個固定化的數學模型，更沒有特定的數學公式。只需要理解：任何通過生成合適的隨機數，並使用這些隨機樹建立概率模型，以找到數值問題的近似解的方法都可以稱為蒙特卡羅方法

蒙特卡羅方法的一個最著名應用就是求定積分。函式$f(x)$影象如下，現在要求函式$f(x)$在$[a, b]$之間的積分，也就是陰影部分面積，即$F = \int_a^b {f(x)dx} $。

蒙特卡羅方法的解法如下。如下圖所示，我們在$[a, b]$之間取一個數$x$，那麼我們可以粗略地將$f(x) \cdot (b - a)$來估計陰影部分的面積。當然，只用一個值進行估算，結果可能過於粗糙，所以我們可以多取幾個值，然後用多個結果估計值的平均值作為最終的結果。如下圖所示，取4個值進行估計：

\begin{aligned} S & = \frac{1}{4}(f(x_1)(b-a) + f(x_2)(b-a) + f(x_3)(b-a) + f(x_4)(b-a)) \\ & = \frac{1}{4}(b-a)(f(x_1) + f(x_2) + f(x_3) + f(x_4)) \\ & = \frac{1}{4}(b-a) \sum_{i=1}^4 f(x_i) \end{aligned}

可以預見，取4個值進行估計時，結果將更加準確。可以認為，當進行估計的值個數越多時，最終結果將越接近真實值。

這個例子就是蒙特卡羅方法的典型應用：使用隨機數（$x$）建立概率模型，對最終結果（定積分）進行估計，當估計次數越多時，估計值越接近真實值。

進一步地，我們列舉一些例子來說明什麼是蒙特卡羅方法。

例子1：黑箱子裡裝有100個球，包含數量不等的紅、綠、藍三種顏色，求紅色球數量。如果值抽取一次，為紅球，那麼我們可以認為，黑箱子裡全是紅球；重複抽取一萬次，去一萬次抽取到紅球的數量的平均值最為估計結果。

例子2：求下圖所示圖片中白色圖案佔整張圖片面積的比例。隨機從影象中抽取一個畫素，抽取n次，看n次中白色畫素所在比例。

例子3：已知圓面積公式$S = \pi \cdot {r^2}$，求圓周率$π$的值。可以這麼做，構造如下圖所示的面積為1的正方形，並以邊長為半徑畫四分之一圓。之後，隨機網正方形內新增$n$個點，落在四分之一圓內點所在比例記為四分之一圓的面積，然後通過圓面積公式可估計$π$的值。

機器學習回顧篇（16）：蒙特卡洛演算法

機器學習回顧篇（16）：蒙特卡洛演算法

機器學習回顧篇（6）：KNN演算法

機器學習回顧篇（2）：最小二乘法

機器學習回顧篇（4）：邏輯迴歸

機器學習回顧篇（5）：樸素貝葉斯演算法

機器學習回顧篇（7）：決策樹演算法（ID3、C4.5）

機器學習回顧篇（8）：CART決策樹演算法

機器學習回顧篇（10）：感知機模型

機器學習回顧篇（11）：支援向量機（SVM）

機器學習回顧篇（12）：整合學習之Bagging與隨機森林

機器學習回顧篇（13）：整合學習之AdaBoost

機器學習回顧篇（14）：主成分分析法（PCA）

機器學習回顧篇（15）：整合學習之GDBT

機器學習實戰教程（一）：線性回歸基礎篇（上）

機器學習實戰教程（三）：決策樹實戰篇之為自己配個隱形眼鏡

機器學習實戰教程（五）：樸素貝葉斯實戰篇之新浪新聞分類

機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器

深入理解java虛擬機器系列初篇（一）：為什麼要學習JVM？

中國mooc北京理工大學機器學習第二周（一）：分類

我的機器學習之旅（四）：回歸與工程應用

機器學習回顧篇（16）：蒙特卡洛演算法

相關推薦