學習筆記——為什麼機器能進行學習和預測？

阿新 • • 發佈：2019-01-15

通過簡單的泛化誤差上界的證明，說明機器能進行學習和預測的基本原理。

直觀的理解

在有限的訓練資料中得到一個規律，認為總體也是近似這個規律的，那麼就能用這個規律進行預測。比如一個大罐子裡裝滿了紅球和白球，各一半，我隨手抓了一把，然後根據這些紅球白球的比例預測整個罐子也是這樣的比例，這樣做不一定很準確，但結果總是近似的，而且如果抓出的球越多，預測結果也就越可信。

上面的例子可以簡單直觀地理解一下預測的原理，其實還可以通過統計的方法對這個近似（用區域性的規律近似總體的規律）的可信度進行概率分析。

將問題描述成更數學的形式：

損失函式（loss function）或者代價函式（cost function）度量預測錯誤的程度，記作$L(Y,f(x))$

。
期望損失（expected loss），即平均意義下的損失：
\[R_{exp}(f)=E_p[L(Y,f(X))]=\int_{\mathcal{X}\times \mathcal{Y}}L(y,f(x))P(x,y)dxdy\]
經驗損失（empirical loss），是關於訓練資料集的平均損失：
\[R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))\]
根據大數定理，樣本容量$N$趨近無窮時，經驗風險趨近於期望風險：$R_{emp}(f)\approx R_{exp}(f)$，也就是說：如果模型在訓練樣本中的期望風險很小，那麼它也能使得期望風險很小。

但是當樣本容量$N$不是無窮大的時候怎麼辦？

泛化誤差上界（定理）：

對二分類問題，當假設空間是有限個函式集合$\mathcal F=\left \\{ f_1,f_2,\cdot \cdot \cdot ,f_d \right \\}$時，對任意一個函式$f\in \mathcal F$，至少以概率$1-\sigma$，以下不等式成立：
\[R(f)\leqslant \hat{R}(f)+\varepsilon (d,N,\delta )\]
其中，
\[\varepsilon (d,N,\delta )=\sqrt{\frac{1}{2N}\left ( \log d+\log\frac{1}{\delta } \right )}\]

不等式左端$R(f)$是泛化誤差，右端為泛化誤差上界。泛化誤差上界中，第一項是訓練誤差，訓練誤差越小，泛化誤差也越小。第二項$\varepsilon (d,N,\delta )$，$N$越大，值越小，假設空間$\mathcal F$ 包含的函式越多，值越大。

這個定理可以從概率上說明使用經驗風險近似期望風險的可信度，它與樣本數量以及假設空間的複雜度有關。

上述定理可通過Hoeffding不等式來證明:

Hoeffding不等式：
Hoeffding不等式適用於有界的隨機變數。設有兩兩獨立的一系列隨機變數$X_1,...,X_n$。假設對所有的$1\leqslant i\leqslant n$，$X_i$都是幾乎有界的變數，即滿足$\mathbb{P}(X_i\in\left [ a_i,b_i \right ])=1$，那麼這$n$個隨機變數的經驗期望：$\bar{X}=\frac{X_1+\cdot \cdot \cdot +X_n}{n}$滿足以下不等式：

$$\mathbb{P}(\bar{X}-\mathbb{E}\left [ \bar{X} \right ]\geq t)\leq\exp (-\frac{2t^2n^2}{\sum _{i=1}^n(b_i-a_i)^2})$$

$$\mathbb{P}(\left |\bar{X}-\mathbb{E}\left [ \bar{X} \right ] \right |\geq t)\leq 2\, exp (-\frac{2t^2n^2}{\sum _{i=1}^n(b_i-a_i)^2})$$

對任意函式$f\in \mathcal F$，$\hat {R}(f)$ 是$N$個獨立隨機變數$L(Y,f(X))$的樣本均值（經驗期望），$R(f)$是期望，如果損失函式取之區間為[0, 1]，則根據上述Hoeffding不等式，得到：
\[P(R(f)-\hat{R}(f)\geqslant \varepsilon )\leqslant \exp (-2N \epsilon ^2)\]
由於$\mathcal F =\left \{ f_1,f_2,...,f_d \right \} $是一個有限集合，容易得到：
\[P(R(f)-\hat{R}(f)\geqslant \varepsilon )\leqslant d \exp (-2N \epsilon ^2)\]
令
\[\delta =d \exp(-2N\varepsilon ^2)\]
然後就得到了：
\[P(R(f)< \hat{R}(f)+ \varepsilon )\geqslant 1-\delta\]

上面的討論只是假設空間包含有限個函式的情況下的泛化誤差上界，對於一般的假設空間要找到泛化誤差界應該就沒這麼簡單了。

學習筆記——為什麼機器能進行學習和預測？

直觀的理解

將問題描述成更數學的形式：

泛化誤差上界（定理）：

上述定理可通過Hoeffding不等式來證明:

學習筆記——為什麼機器能進行學習和預測？

機器學習筆記（二）矩陣和線性代數例：用Python實現SVD分解進行圖片壓縮

[吳恩達機器學習筆記]15非監督學習異常檢測7-8使用多元高斯分布進行異常檢測

機器學習學習筆記 --- 標稱型資料和數值型資料

深入理解Java虛擬機器學習筆記3-執行緒安全和鎖優化

機器學習筆記(十一)特徵選擇和稀疏學習

機器學習筆記之簡化成本函式和梯度下降

吳恩達機器學習學習筆記之一監督學習和無監督學習

斯坦福大學機器學習筆記——機器學習系統設計（誤差分析、查全率和查準率、F1值）

機器學習筆記3-拆分資料集和訓練集

10個機器學習人工智能開發框架和AI庫（優缺點對比表）/貪心學院

Spark學習筆記——泰坦尼克生還預測

bootstrap 學習筆記（5）---- 圖片和響應式工具

python學習筆記--Paramiko模塊安裝和使用(轉)

Halcon學習筆記——機器視覺應用工程開發思路及相機標定

C++ Primer 學習筆記與思考_7 void和void*指針的使用方法

Java基礎學習筆記二十七 DBUtils和連接池

Effictive Java學習筆記1：創建和銷毀對象

Android學習筆記---使用adb進行root時提示devices offline

ROS學習筆記_編寫客戶端和服務器(service and client)_C++（五）

學習筆記——為什麼機器能進行學習和預測？

直觀的理解

將問題描述成更數學的形式：

泛化誤差上界（定理）：

上述定理可通過Hoeffding不等式來證明:

相關推薦