機器學習：偏差、方差與欠擬合、過擬合

阿新 • • 發佈：2019-01-19

首先，我們先來理解一下偏差與方差的概念。舉個高中數學裡經常出現的例子，兩個射擊選手在射靶。甲射出的子彈很集中在某個區域，但是都偏離了靶心。我們說他的射擊很穩定，但是不夠準，準確性差。也就是說他的方差小（子彈很集中在某個區域），但是他的偏差大（子彈打中的地方距離靶心遠）。相反，乙射出的子彈比較分散，但是有些很準，中了靶心。我們說他射擊比較準，但是發揮不夠穩定，穩定性差。
所以，偏差是描述了準確性。方差是描述穩定性。

那麼，在機器學習中，偏差、方差與欠擬合、過擬合之間又有什麼關係呢？

這裡寫圖片描述

如上圖中的第二個座標，隨著模型引數的增加，訓練集的誤差會慢慢減少。從第一個座標和最後一個座標可以直觀感受到這種效果。因為模型引數少的時候，模型不能很好地擬合訓練集的資料，所以偏差就比較大。當模型引數足夠多時，模型擬合的效果就非常好了。
但是，當我們用驗證集來驗證時，卻會有這樣的情況：
這裡寫圖片描述

對於欠擬合的情況，我們很容易理解，模型本來擬合的就不好，驗證集的誤差大也是自然。但是，對於過擬合來說，訓練集的效果是非常好的，但是驗證集上的效果卻並不好，這是因為隨著引數越多，模型就越不通用，而是針對了某一種特定的情況，比較有偏見，所以當用驗證集驗證時，誤差會很大。因為驗證集中的有些資料可能很符合過擬合的那條曲線，也有可能很不符合，所以資料方差就大了。也就是，方差大的時候我們可以認為是因為過擬合了。相反，模型引數少的時候，模型比較粗糙，偏離正確的擬合比較遠，所以是偏差大。
這裡寫圖片描述

機器學習：偏差、方差與欠擬合、過擬合

機器學習：偏差、方差與欠擬合、過擬合

概率統計與機器學習：期望，方差，數學期望，樣本均值，樣本方差之間的區別

機器學習基礎--偏差和方差

機器學習：偏差、方差與正則化

機器學習系列之偏差、方差與交叉驗證

機器學習筆記第4課：偏差，方差和權衡

機器學習入門系列03，Error的來源：偏差和方差(bias和variance)

機器學習：模型性能評估與參數調優

機器學習：驗證數據集與交叉驗證

面向機器學習：數據平臺設計與搭建實踐

機器學習：線性回歸——理論與代碼實現（基於正規方程與梯度下降）

數學期望、方差與矩

機器學習中的協方差矩陣的深入理解（簡單舉例）

機器學習：Python模型的儲存與讀取

8.機器學習sklearn---多項式迴歸（房價與房屋尺寸關係的非線性擬合）

7.機器學習sklearn-------線性迴歸（房價與房屋尺寸關係的線性擬合）

斯坦福大學公開課機器學習：advice for applying machine learning | learning curves （改進學習算法：高偏差和高方差與學習曲線的關系）

斯坦福大學公開課機器學習： advice for applying machine learning | deciding what to try next(revisited)（針對高偏差、高方差問題的解決方法以及隱藏層數的選擇）

吳恩達機器學習：方差與偏差

斯坦福大學公開課機器學習： advice for applying machine learning | regularization and bais/variance（機器學習中方差和偏差如何相互影響、以及和算法的正則化之間的相互關系）

機器學習：偏差、方差與欠擬合、過擬合

相關推薦