1. 程式人生 > >估計、偏差和方差

估計、偏差和方差

- 本文首發自公眾號:[RAIS](https://ai.renyuzhuo.cn/about) ## 前言 本系列文章為 [《Deep Learning》](https://ai.renyuzhuo.cn/books/DeepLearning) 讀書筆記,可以參看原書一起閱讀,效果更佳。 ## 估計 統計的目的是為了推斷,大量的統計是為了更好的推斷,這就是一種估計,一種根據現有資訊對可能性的一種猜測。 - 點估計:點估計指的是用樣本資料估計總體的引數,估計的結果是一個點的數值,因此叫做點估計。這個定義非常寬泛,$\hat{\theta}_m=g(x_1, x_2, ..., x_m)$,其中幾乎對 g 沒有什麼限制,只是說比較好的 g 會接近真實的 θ。 - 函式估計:是一種對映關係,如 $y=f(x)+ϵ$,其中 ϵ 是從 x 中預測不出來的,我們不關心,我們關心的是函式估計 f,函式估計是一種從輸入到輸出的對映關係。 ## 偏差 估計的偏差定義為:$bias(\hat{\theta}_m)=E(\hat{\theta_m})-\theta$,這很好理解,估計與實際值之間的距離就是偏差,如果偏差為 0,則$\hat{\theta}$是$\theta$的無偏估計,如果在 m 趨近於無窮大時,偏差趨近於 0,則$\hat{\theta}$是$\theta$的漸進無偏。 ## 方差 上面我們用估計量的期望來計算偏差,我們還可以用估計量的方差度量估計的變化程度,我們希望期望這兩個值都較小。 對於高斯分佈來說,我們有: - 樣本均值 $\hatμ_m=\frac{1}{m}\sum_{i=1}^mx^{(i)}$ 是高斯均值引數 μ 的無偏估計; - 樣本方差 $\hatσ_m^2=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2$ 是 $σ^2$ 的有偏估計; - 無偏樣本方差 $\hatσ_m^2=\frac{1}{m-1}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2$ 是 $σ^2$ 的無偏估計; 無偏樣本方差顯然是比較不錯的,但是並不總是最好的,有時候某一些有偏估計也是很好的。比如在機器學習中,均值標準差就非常有用: $$ SE(\hatμ_m)=\sqrt{Var[\frac{1}{m}\sum_{i=1}^mx^{(i)}]}=\frac{σ}{\sqrt{m}} $$ 或者寫成 $$ σ_{\overline X}=\sqrt{Var(\overline X)}=\sqrt{\frac{1}{m}Var(X)}=\frac{σ}{\sqrt{m}} $$ ## 均方誤差(MSE) $$ MSE=E[(\hatθ_m-θ)^2]=Bias(\hatθ_m)^2+Var(\hatθ_m) $$ 魚和熊掌不可得兼,偏差和方差度量著估計量的兩個不同誤差來源,偏差度量著偏離真實函式或引數的誤差,方差度量著資料上任意特定取樣可能導致的估計期望的偏差,兩個估計,一個偏差大,一個方差大,怎麼選擇?選擇 MSE 較小的,因為 MSE 是用來度量泛化誤差的。偏差和方差之和就是均方誤差: ![均方誤差](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91c2VyLWltYWdlcy5naXRodWJ1c2VyY29udGVudC5jb20vNzI3NTA0Ni83ODIzMjM0Ni1hZjU0MWMwMC03NTA2LTExZWEtOGEwMS0yYjhhYzM5N2M4YzUucG5n?x-oss-process=image/format,png) ## 總結 本篇主要介紹了估計、偏差和方差,可以用來正式的刻畫過擬合。 - 本文首發自公眾號:[RAIS](https://ai.renyuzhuo.cn